¿Qué es TTS?
TTS es la abreviatura de Text To Speech, que significa “del texto al habla”. Es un trabajo sobresaliente que utiliza tanto la lingüística como la psicología. Con el apoyo de chips integrados y el diseño de redes neuronales, convierte de manera inteligente texto en flujos de voz naturales. La tecnología TTS convierte archivos de texto en tiempo real y el tiempo de conversión se puede calcular en segundos. Bajo la acción de su exclusivo controlador de voz inteligente, la voz de la salida de texto es suave, lo que hace que el oyente se sienta natural al escuchar la información, sin la frialdad y las sacudidas de la salida de voz de la máquina. La tecnología de síntesis de voz TTS pronto cubrirá los caracteres chinos de primer y segundo nivel del estándar nacional. Tiene una interfaz en inglés, reconoce automáticamente chino e inglés y admite lectura mixta de chino e inglés. Todas las voces utilizan mandarín en persona real como pronunciación estándar, logrando una rápida síntesis de voz de 120-150 caracteres chinos/segundo y una velocidad de lectura de 3-4 caracteres chinos/segundo, lo que permite a los usuarios escuchar una calidad de sonido clara y agradable, y coherente y entonación suave. Hoy en día, un pequeño número de reproductores MP3 tienen función TTS.
La conversión de texto a voz TTS se utiliza ampliamente, incluida la lectura de correos electrónicos, indicaciones de voz para sistemas IVR, etc. En la actualidad, los sistemas IVR se han utilizado ampliamente en diversas industrias (como telecomunicaciones, transporte, etc.). .).
La tecnología clave utilizada en TTS es la síntesis de voz (SpeechSynthesis). Los primeros TTS se implementaban generalmente utilizando chips dedicados, como TMS50C10/TMS50C57 de Texas Instruments, PH84H36 de Philips, etc., pero se usaban principalmente en electrodomésticos o juguetes para niños.
TTS basado en aplicaciones de microcomputadoras generalmente se implementa con software puro, que incluye principalmente las siguientes partes:
●Análisis de texto: realiza análisis lingüístico del texto ingresado y realiza vocabulario y oraciones. Análisis paso a paso Análisis gramatical y semántico para determinar la estructura de bajo nivel de la oración y la composición de fonemas de cada palabra, incluida la segmentación de texto, la segmentación de palabras, el procesamiento de polifonos, el procesamiento de números, el procesamiento de abreviaturas, etc.
●Síntesis de voz: extrae las palabras o frases correspondientes al texto procesado de la biblioteca de síntesis de voz y convierte la descripción lingüística en formas de onda de voz.
●Procesamiento de rimas: Calidad del habla sintética (Calidad del habla sintética) se refiere a la calidad del habla producida por el sistema de síntesis del habla, que generalmente es subjetiva en términos de claridad (o inteligibilidad), naturalidad y coherencia. La claridad es el porcentaje de escuchar y distinguir correctamente palabras significativas; la naturalidad se utiliza para evaluar si la calidad del sonido del habla sintetizada se acerca a la voz del habla humana y si la entonación de las palabras sintetizadas es natural para evaluar si está sintetizada; las oraciones son fluidas.
Para sintetizar voz de alta calidad, el algoritmo utilizado es extremadamente complejo, por lo que los requisitos de la máquina también son muy altos. La complejidad del algoritmo determina la capacidad del sistema de los microordenadores actuales para TTS multicanal concurrente.
Esto es TTS