¿Qué plataformas de desarrollo abierto existen para el reconocimiento de voz?
1) Microsoft Speech API La Speech API (SAPI) de Microsoft es una interfaz de programación de aplicaciones (API), que incluye motores de reconocimiento de voz (SR) y síntesis de voz (SS). utilizado bajo Windows. Actualmente, Microsoft ha lanzado varias versiones de SAPI (la última versión es SAPI 5.4), ya sea como un kit de herramientas de desarrollo para Speech SDK o incluido directamente en el sistema operativo Windows. SAPI admite el reconocimiento y la lectura en varios idiomas, incluidos inglés, chino y japonés.
2).IBM viaVoiceIBM es una de las instituciones que inició anteriormente la investigación sobre el reconocimiento de voz. Ya a finales de la década de 1950, IBM inició investigaciones sobre el reconocimiento de voz. Las computadoras están diseñadas para detectar patrones lingüísticos específicos y obtener correlaciones estadísticas entre sonidos y caracteres correspondientes. En 1999, IBM lanzó una versión gratuita de VoiceType. En 2003, IBM autorizó a ScanSoft a tener derechos de distribución exclusivos para productos de escritorio basados en la capacidad de supervivencia, y luego ScanSoft se fusionó con Nuance. Hoy en día, la capacidad de supervivencia hace tiempo que se desvaneció en la oscuridad, reemplazada por los matices.
3) NuanceNuance Communication es una empresa multinacional de tecnología de software informático con sede en Burlington, Massachusetts, EE. UU. Proporciona principalmente soluciones y aplicaciones de voz e imagen. El negocio actual se centra en servidores y reconocimiento de voz integrado, sistemas de dirección telefónica, servicios de directorio telefónico automático, etc. Además de la tecnología de reconocimiento de voz, la tecnología de voz de Nuance también incluye síntesis de voz, reconocimiento de huellas de voz y otras tecnologías. En el mercado mundial de tecnología del habla, más del 80 % de los sistemas de reconocimiento de voz utilizan la tecnología del motor de reconocimiento de Nuance y tiene más de 1000 tecnologías patentadas a su nombre. La empresa desarrolla productos de voz que admiten más de 50 idiomas y tienen más de 2 mil millones de usuarios en todo el mundo. El servicio de reconocimiento de voz de Nuance se utiliza en el reconocimiento de voz Siri en el iPhone 4S de Apple.
4) Como el mayor proveedor de tecnología de voz inteligente en China, iFlytek tiene investigación y acumulación a largo plazo en el campo de la tecnología de voz inteligente, y cuenta con tecnologías avanzadas como la síntesis de voz china, el reconocimiento de voz y Evaluación del lenguaje hablado. Ha logrado resultados líderes a nivel internacional. La cuota de mercado de los productos de síntesis de voz, que ocupa más del 60% del mercado de tecnología del habla de China, ha alcanzado más del 70%.
5) Otras plataformas comerciales influyentes de interacción por voz incluyen la búsqueda por voz de Google, los métodos de entrada de voz de Baidu y Sogou, etc.