¿Dónde está el lenguaje de señas ia de Huawei?
Integra la tecnología de reconocimiento óptico de caracteres (OCR) de HMS Core, una tecnología de inteligencia artificial basada en aprendizaje profundo que puede reconocer de forma inteligente caracteres en imágenes como texto. Entonces, dado que la IA puede reconocer de forma inteligente el texto de las imágenes, ¿puede la IA traducir el lenguaje de señas? Dele un párrafo a la IA y, si se puede traducir automáticamente a una animación en lenguaje de señas, todos podrán usar la IA para aprender el lenguaje de señas. La IA puede incluso convertirse en un traductor en tiempo real entre personas sordas y sanas y no solo puede beneficiar la lectura de los niños. escenas, ¡También hay una población más amplia con discapacidad auditiva!
Para que la traducción del lenguaje de señas mediante IA sea abierta a través de las capacidades centrales de HMS, los desarrolladores pueden integrar y atender a los 460 millones de personas con discapacidad auditiva en todo el mundo. La primera pregunta que debemos afrontar es: ¿puede la IA traducir el lenguaje de señas y generar de forma inteligente animaciones en lenguaje de señas a partir de texto? HMS Core ha establecido un equipo de expertos que cubre muchas tecnologías clave, como el modelado digital 3D del cuerpo humano, la comprensión del lenguaje natural, la visión por computadora, la animación 3D, la representación de gráficos, el desarrollo móvil de Android, los servicios en la nube, etc., e invitó a profesores autorizados de lenguaje de señas nacional. lingüística como consultores de proyectos, trabajan junto con * * * para abordar el proyecto de traducción inteligente de lengua de signos en tiempo real. El doble desafío de los algoritmos y los datos
Después de que se lanzó el proyecto de traducción del lenguaje de señas, el equipo investigó rápidamente tecnologías relevantes en la industria revisando una gran cantidad de documentos y patentes, y resolvieron juntos varios problemas importantes. En primer lugar, teniendo en cuenta los requisitos de alta precisión de los movimientos del lenguaje de signos, un error de 1 cm en la posición de la yema del dedo puede significar un significado completamente diferente. En segundo lugar, es extremadamente difícil obtener un corpus de lengua de signos china y de lenguas de signos a gran escala y de alta calidad, y es imposible encontrar tantos profesores profesionales de lengua de signos para proporcionar el corpus en un corto período de tiempo. En tercer lugar, como lengua independiente, la lengua de signos tiene su propia gramática y orden de palabras. Existen diferencias en la gramática y el orden de las palabras entre el chino y la lengua de signos. Por ejemplo, en chino "No traje mi documento de identidad", la secuencia correspondiente del lenguaje de señas es "DNI/yo/cinturón/no". Finalmente, el lenguaje de señas incluye no sólo movimientos de las manos, sino también posturas corporales, expresiones faciales y movimientos de la boca, por lo que la generación colaborativa de datos multimodales es muy importante.
El equipo de lenguaje de señas analizó estos problemas uno por uno y discutió las soluciones, y generó una solución de generación de expresión y acción humana digital multimodal basada en texto. Esta solución consta de un módulo de transcripción de lengua de signos y un módulo de generación de expresión de acción de lengua de signos. Integra conocimientos en el campo de la lingüística de la lengua de signos y puede resolver eficazmente el problema de la insuficiencia de datos de captura de movimiento de alta calidad.
Después de determinar la solución del algoritmo, el equipo de lenguaje de señas se enfrentó a un desafío mayor: los datos. Hay un dicho en el campo de la inteligencia artificial que dice que "antes de mover las tropas, primero van la comida y el pasto". Para los proyectos de traducción de lengua de signos, el "grano" es el problema de obtener datos de lengua de signos, incluidos datos de transcripción de lengua de signos y datos de movimiento 3D. ¿Cómo desarrollar un plan de transferencia razonable? ¿Qué tipo de equipo de captura de movimiento puede recopilar datos para satisfacer las necesidades comerciales de los proyectos de lengua de signos?
La transcripción es un trabajo que debe integrarse estrechamente con la lingüística y la informática. Para ello, los expertos técnicos colaboran estrechamente con consultores en lengua de signos en lingüística de lenguas de signos. Después de mucha discusión, se desarrolló un estándar de transcripción de lengua de signos adecuado para este proyecto. El lenguaje es algo impulsado por el sentido del lenguaje, mientras que las computadoras prestan atención a las reglas. Para resumir el conocimiento de la lingüística del lenguaje de señas en reglas que puedan expresarse mediante computadoras, los expertos en inteligencia artificial y los consultores en lenguaje de señas del equipo discutieron las reglas de transcripción muchas veces, modificaron y optimizaron repetidamente más de 20 versiones y finalmente completaron el Personalización que se adapta a las necesidades del proyecto.
En términos de datos de captura de movimiento, a través de investigaciones multilaterales e inspecciones in situ de docenas de dispositivos de captura de movimiento, el equipo de lenguaje de señas descubrió que la recopilación de datos de captura de movimiento es mucho más complicada de lo que se imaginaba. En el proceso de captura dinámica, hay muchas razones que pueden introducir errores, por ejemplo, el traje de captura dinámica no es ajustado y la proporción de personas de captura dinámica es inconsistente con la proporción de personas digitales en lenguaje de señas, lo que resulta en la. Uso directo de captura dinámica de datos sin procesar. Entonces, el equipo de lenguaje de señas creó inmediatamente un equipo de restauración de movimiento para acelerar la recopilación de datos de captura móvil y hacer que el proyecto avance de manera constante.
La historia de la Conferencia de Desarrolladores y Personas Digitales de Lengua de Signos
Con el progreso de la recopilación de datos y la optimización iterativa del modelo de algoritmo de IA, el proyecto de servicio de lengua de signos está avanzando suavemente. El equipo de traducción del lenguaje de señas completó el código de desarrollo del SDK móvil en solo una semana y completó con éxito la depuración del dispositivo en la nube. Al mismo tiempo, después de probar una variedad de soluciones diferentes, el equipo de interpretación del lenguaje de señas condujo directamente los huesos a través de ángulos de rotación para evitar diferencias sutiles en el significado del lenguaje de señas causadas por los movimientos de la persona digital después de conducir, permitiendo que la persona digital del lenguaje de señas para completar con precisión los movimientos del lenguaje de señas.
Todo está listo, el servicio de lengua de signos está listo para lanzar la primera versión y se entregará en el HDC una hoja de respuestas satisfactorias. El equipo de lenguaje de señas decidió que los firmantes digitales respaldaran presentaciones en vivo en conferencias de desarrolladores todo el tiempo. Este desafío se puede imaginar. Mucha gente vio la transmisión en vivo de la Conferencia de Desarrolladores de Huawei. Si una persona digital en lenguaje de señas puede subir a este escenario y brindar interpretación en lenguaje de señas a amigos con discapacidad auditiva durante la transmisión en vivo, todos los que vean la transmisión en vivo notarán a esta chica de rojo que puede tocar el lenguaje de señas. Sin duda, esto atraerá a más personas para que presten atención a las personas con discapacidad auditiva y también atraerá a más desarrolladores para brindar servicios de lenguaje de señas a los usuarios de lengua de señas con discapacidad auditiva.
El servicio de lenguaje de señas genera lenguaje de señas a partir de texto y la salida del algoritmo depende en gran medida de los resultados del reconocimiento de voz durante la transmisión en vivo. ¿Cómo garantizar la precisión del reconocimiento de voz? El discurso en la conferencia HDC contenía muchos términos profesionales mezclados en chino e inglés.
¿Cómo escriben estas palabras los firmantes digitales? ¿Es compatible trasladar todo el controlador y la solución de renderizado a un motor de desarrollo propio? Ante estos espinosos problemas, el equipo de lenguaje de señas estableció el grupo de investigación de transmisión en vivo de la conferencia HDC. Algunos miembros están realizando investigaciones de algoritmos para optimizar el modelo de algoritmo de generación de lenguaje de señas para cubrir el corpus científico y tecnológico que pueden aparecer en la conferencia de HDC. están trabajando en el reconocimiento de voz en la nube y la conversión de texto a lenguaje de señas. La implementación de algoritmos, la conducción de modelos 3D durante la transmisión en vivo y otros problemas garantizan que la persona digital en lenguaje de señas pueda reconocer con éxito la voz y el lenguaje de señas en el micrófono durante la transmisión en vivo. En menos de un mes estaba completamente preparado.
El día HDC2021 se celebrará según lo previsto. Los miembros del equipo de lenguaje de señas miran nerviosamente la transmisión en vivo de fondo. Miraron de cerca a la chica de rojo en la esquina inferior izquierda de la pantalla de transmisión en vivo, preocupados de que hubiera algún mal funcionamiento en la persona digital del lenguaje de señas. ¡Afortunadamente, durante toda la transmisión en vivo, actuó con facilidad y de manera sorprendente! En ese momento, todos en el equipo sintieron lo mismo: los incansables esfuerzos no fueron en vano, ¡y finalmente vieron a la persona digital en lenguaje de señas en el gran escenario de HDC!
Esta es la primera interpretación de lengua de signos en conferencias en tiempo real en China realizada por un personaje virtual digital. Todo esto se debe al algoritmo de inteligencia artificial y la tecnología de representación desarrollados de forma independiente por Huawei, lo que hace que la interpretación en lengua de signos de conferencias en tiempo real sea completamente completa. Innecesario para personas reales. Alcanzable. Esta solución de traducción de lengua de signos basada en tecnología en la nube, que incluye reconocimiento de voz, generación de lengua de signos y representación de controladores, ha sido verificada por HDC2021. No sólo presenta con precisión los movimientos de la lengua de signos, sino que también resuelve una dificultad técnica común en la traducción de la lengua de signos: el sistema de expresión. La aparición de expresiones permite a los firmantes digitales expresar el significado del lenguaje de señas de manera más completa y precisa. Actualmente, el servicio de lengua de signos admite la salida de 10 tipos de expresiones diferentes. Creo que en un futuro próximo esta solución se podrá invertir en la producción de contenidos multimedia y los amigos con discapacidad auditiva también podrán obtener más información social.
Temperatura de transferencia de tecnología
Hay 460 millones de personas con discapacidad auditiva en el mundo, y la generación actual de lengua de signos china está lejos de ser suficiente para cubrir a estas personas. En el futuro, el equipo central de lenguaje de señas de HMS continuará optimizando el efecto de la traducción del lenguaje de señas y el efecto de representación de las personas digitales en lenguaje de señas. También desarrollará capacidades de generación de lenguaje de señas en inglés y globalizará los servicios de lenguaje de señas para atender a más personas con discapacidad auditiva. gente.
Creo que en un futuro próximo, las personas digitales en lenguaje de señas podrán encontrarse con todos en más ocasiones. Ella podrá aparecer en la ventana de interpretación de lenguaje de señas de los programas de noticias de televisión para traducir noticias para todos; cuando toma el metro o el avión, a veces utiliza el lenguaje de señas para anunciar instrucciones de seguridad a amigos con discapacidad auditiva; incluso puede ser profesora de lenguaje de señas en algunas escuelas de educación especial, enseñando a los estudiantes con discapacidad auditiva a aprender el lenguaje de señas. Con este hermoso deseo, el equipo central de HMS está creando la aplicación StorySign2.0 basada en las capacidades del servicio de lenguaje de señas, con la esperanza de brindar más calidez a las personas con discapacidad auditiva.
Como dice un dicho en la conferencia HDC: Nadie puede apagar las estrellas en el cielo. Cada desarrollador es la chispa que Huawei quiere reunir. En la actualidad, las personas digitales en lenguaje de señas se han abierto completamente a los desarrolladores a través de los servicios principales de lenguaje de señas de HMS, lo que permite que más desarrolladores de aplicaciones realicen rápidamente la traducción de lenguaje de señas en tiempo real y creen varias aplicaciones de lenguaje de señas llamando a nuestro SDK de servicio de lenguaje de señas para brindar más información. para personas con discapacidad auditiva. Servicios diversificados. El equipo del servicio de lenguaje de señas espera trabajar con los desarrolladores para construir la estrella de los servicios móviles de Huawei y crear un mundo con comunicación sin barreras.