Red de conocimiento del abogados - Respuesta a la Ley de patrimonio - Análisis de la tecnología de reconocimiento de huellas de voz del supercerebro Xiaozhan Sun Yiting

Análisis de la tecnología de reconocimiento de huellas de voz del supercerebro Xiaozhan Sun Yiting

El desafío humano-máquina en Super Brain es identificar a las personas escuchando sus voces. El trasfondo técnico detrás de esto es la tecnología de reconocimiento de huellas de voz. El reconocimiento de huellas de voz es en realidad una tecnología de reconocimiento de comportamiento que prueba y recopila formas de onda y cambios de sonidos y los compara con plantillas de sonido registradas. La tecnología fue desarrollada por primera vez por Bell Labs a finales de la década de 1940 y se utilizó principalmente en inteligencia militar. Con el desarrollo de la tecnología, se ha ido utilizando gradualmente en identificación forense, pruebas judiciales y otros campos.

Base teórica del reconocimiento de huellas de voz

Cada voz tiene una característica única, a través de la cual se pueden distinguir eficazmente las voces de diferentes personas.

Esta característica viene determinada principalmente por dos factores. El primero es el tamaño de la cavidad vocal, incluida la garganta, la cavidad nasal y la cavidad bucal. La forma, el tamaño y la posición de estos órganos determinan la cantidad de tensión en las cuerdas vocales y el rango de frecuencias del sonido. Al igual que una huella digital, la voz de cada persona tiene sus propias características únicas. El segundo factor es la forma en que se manipulan los órganos vocales, la interacción entre ellos produce un habla clara. En el proceso de aprender a hablar, las personas formarán gradualmente sus propias características de huella de voz simulando los estilos de habla de diferentes personas a su alrededor.

En teoría, las huellas de voz son como las huellas dactilares y rara vez dos personas tienen las mismas características de huellas de voz.

Análisis de la tecnología de reconocimiento de huellas de voz pequeñas

La tecnología de reconocimiento de huellas de voz que poseen los robots pequeños y medianos en Ultrain es en realidad una tecnología de detección de sonido dinámico en tiempo real, que también incluye VAD, reducción de ruido y eliminación de reverberación (el propósito de VAD es detectar si se trata de una voz humana, y la reducción de ruido y eliminación de reverberación son eliminar la interferencia ambiental).

Teniendo en cuenta que el escenario del desafío es encontrar voces características de un coro, la dificultad radica en cómo extraer y expresar información relacionada con el hablante en la señal del habla y cómo distinguir diferencias sutiles en voces similares. En términos generales, la extracción de características del habla relacionadas con el hablante se lleva a cabo principalmente de acuerdo con el proceso que se muestra en la figura:

Para el habla recopilada, primero se realizará la detección efectiva del habla (VAD) y luego Se eliminará la parte del discurso no válido del discurso recopilado y luego se extraerán las características acústicas. Dado que la señal de voz es una señal no estacionaria de corta duración y longitud variable, el método de ventana se utiliza generalmente para extraer características, y las características se obtienen en unidades de fotogramas. Las características acústicas de uso común actualmente incluyen el coeficiente clásico de Mel Cepstrum MFCC, el coeficiente de predicción perceptual PLP actual y las características profundas ardientes actuales basadas en el aprendizaje profundo. Después de obtener las características acústicas, se extrae aún más la información del altavoz. El método de modelado utilizado aquí utiliza principalmente el algoritmo ivector y el algoritmo de red neuronal convolucional profunda con procesamiento residual. Después del modelado, podemos expresar las características del habla a un nivel más profundo, presentando así más información relacionada con el hablante. El modelo final puede convertir aún más las características obtenidas en la etapa de extracción de características en muestras que pueden caracterizar al hablante.

De esta manera, podemos convertir completamente el discurso de un hablante específico en un modelo que pueda caracterizar las características del hablante. (Durante la competencia real, cuando los 21 miembros del coro cantaban, introdujimos las voces de estos 21 miembros del coro en el modelo respectivamente, y finalmente obtuvimos 21 modelos que podrían representar la información de estos miembros del coro).

La etapa de coincidencia de identificación es relativamente fácil de entender. Una vez completada la recopilación de voz de prueba, se realiza la operación de extracción de características correspondiente y luego se calcula la distancia de similitud con todas las muestras de plantilla en la biblioteca de plantillas, y luego se selecciona la más cercana como resultado del juicio final. (En la competencia real, esto equivale a tres pruebas. En cada prueba, introducimos la voz codificada del informante en el modelo, extraemos características y luego lo comparamos con 21 modelos. La que tiene la puntuación más alta es la línea que la máquina cree que es lo más probable). Todo el proceso se muestra en la siguiente figura:

La dificultad del reconocimiento de huellas de voz esta vez

Quizás lo que más interesa a todos es la insignificancia de la inteligencia artificial más poderosa y la dificultad de nuestro pequeño jugador Bao Xiao 3 preguntas, solo 1 pregunta correcta. Aquí hablaré brevemente sobre los factores que afectan el desempeño de todos, de la siguiente manera:

1. Problema de ruido

2. Muchas personas cantan

3. memoria

p>

4. Migración de funciones

El problema número uno es el ruido, incluido el ruido en vivo y el ruido de la música, que tiene un impacto mayor que el reconocimiento facial (tiene un ligero impacto en la etapa inicial) La música en sí también puede afectar las máquinas y el juicio del jugador; la segunda es que mucha gente canta. Como todos sabemos, el reconocimiento de huellas de voz se basa principalmente en características espectrales, y muchas personas experimentan alias espectrales, lo que dificulta la separación e identificación de características. En tercer lugar, se trata principalmente del impacto sobre los actores humanos. Es más difícil para la gente común recordar una secuencia temporal que una secuencia espacial, especialmente después de recordar una secuencia de tres tonos. Es por eso que el Dr. Wei espera escucharla varias veces. Finalmente, hablemos de la transferencia de funciones. El desafío es hablar de memoria e identificar las voces. Las personas suelen tener diferentes huellas de voz cuando hablan y cantan, por lo que existe un problema de transferencia de características, lo que significa que nuestros dos jugadores necesitan una cierta cantidad de capacidad de razonamiento inductivo.

Los cuatro factores anteriores hacen que el resultado final no sea perfecto, pero son estas imperfecciones las que nos permitirán seguir avanzando tecnológicamente y superarnos en el pasado.