¿Qué es la segmentación de palabras chinas?
Principales métodos de segmentación de palabras chinas
Los algoritmos de segmentación de palabras existentes se pueden dividir en tres categorías principales: métodos de segmentación de palabras basados en la coincidencia de cadenas, métodos de segmentación de palabras basados en la comprensión y segmentación de palabras. métodos basados en estadísticas.
1. Método de segmentación de palabras basado en la coincidencia de cadenas
Este método también se denomina método de segmentación mecánica de palabras. Combina la cadena de caracteres chinos para analizarla con una máquina suficientemente grande. una determinada estrategia. Las entradas del diccionario coinciden. Si se encuentra una determinada cadena en el diccionario, la coincidencia es exitosa (se reconoce una palabra). Según las diferentes direcciones de escaneo, el método de segmentación de palabras de coincidencia de cadenas se puede dividir en coincidencia directa y coincidencia inversa de acuerdo con la coincidencia de prioridad de diferentes longitudes, y se puede dividir en coincidencia máxima (más larga) y coincidencia mínima (más corta); ya sea que esté relacionado con el proceso de etiquetado de parte del discurso combinado, se puede dividir en un método simple de segmentación de palabras y un método integrado que combina segmentación y anotación de palabras. Varios métodos de segmentación mecánica de palabras comúnmente utilizados son los siguientes:
1) Método de coincidencia máxima directa (de izquierda a derecha)
2) Método de coincidencia máxima inversa (de derecha a izquierda); dirección);
3) Segmentación mínima (minimizar el número de palabras recortadas en cada frase).
Los métodos anteriores también se pueden combinar entre sí, por ejemplo, el método de coincidencia máxima directa y el método de coincidencia máxima inversa se pueden combinar para formar un método de coincidencia bidireccional. Debido a las características de la formación de palabras chinas de un solo carácter, la concordancia mínima directa y la concordancia mínima inversa generalmente rara vez se utilizan. En términos generales, la precisión de la segmentación de la concordancia inversa es ligeramente mayor que la de la concordancia directa y se encuentran menos ambigüedades. Los resultados estadísticos muestran que la tasa de error de simplemente usar la coincidencia máxima directa es 1/169, y la tasa de error de simplemente usar la coincidencia máxima inversa es 1/245. Sin embargo, esta precisión está lejos de satisfacer las necesidades reales. Todos los sistemas de segmentación de palabras realmente utilizados utilizan la segmentación mecánica de palabras como método de segmentación preliminar, y es necesario mejorar aún más la precisión de la segmentación mediante el uso de otra información lingüística.
Un método consiste en mejorar el método de escaneo, que se denomina escaneo de características o segmentación de marcas. Prioriza la identificación y segmentación de algunas palabras con características obvias en la cadena que se va a analizar y utiliza estas palabras como puntos de interrupción. la cadena original se puede dividir en cadenas más pequeñas y luego se puede realizar la segmentación mecánica de palabras, reduciendo así la tasa de error de coincidencia. Otro método es combinar la segmentación de palabras y el etiquetado de partes del discurso, utilizar información rica sobre las partes del discurso para ayudar en las decisiones de segmentación de palabras y, a su vez, verificar y ajustar los resultados de la segmentación de palabras durante el proceso de etiquetado, mejorando así en gran medida la precisión de segmentación.
Para el método de segmentación mecánica de palabras, se puede establecer un modelo general. Existen artículos académicos profesionales sobre este aspecto, que no se discutirán en detalle aquí.
2. Método de segmentación de palabras basado en la comprensión
Este método de segmentación de palabras logra el efecto de reconocimiento de palabras al permitir que la computadora simule la comprensión humana de las oraciones. La idea básica es realizar un análisis sintáctico y semántico mientras se segmentan palabras y utilizar información sintáctica y semántica para abordar la ambigüedad. Por lo general, consta de tres partes: subsistema de segmentación de palabras, subsistema de sintaxis y semántica y parte de control general. Bajo la coordinación de la parte de control general, el subsistema de segmentación de palabras puede obtener información sintáctica y semántica sobre palabras, oraciones, etc. para juzgar la ambigüedad de la segmentación de palabras, es decir, simula el proceso de comprensión humana de las oraciones. Este método de segmentación de palabras requiere el uso de una gran cantidad de información y conocimiento del idioma. Debido a la generalidad y complejidad del conocimiento del idioma chino, es difícil organizar la información diversa del idioma en un formato que las máquinas puedan leer directamente. Por lo tanto, el sistema de segmentación de palabras basado en la comprensión aún se encuentra en la etapa experimental.
3. Método de segmentación de palabras basado en estadísticas
Desde un punto de vista formal, una palabra es una combinación estable de palabras, por lo que en el contexto, cuantas más palabras adyacentes aparecen al final Al mismo tiempo, cuanto más, más probable es que se forme una palabra. Por lo tanto, la frecuencia o probabilidad de palabras adyacentes puede reflejar mejor la credibilidad de la palabra. Se puede contar la frecuencia de combinaciones de palabras adyacentes en el corpus y se puede calcular la información de su aparición mutua. Defina la información de aparición mutua de dos caracteres y calcule la probabilidad de aparición adyacente de dos caracteres chinos X e Y. La información de ocurrencia mutua refleja la cercanía de la relación de combinación entre los caracteres chinos. Cuando la cercanía supera un cierto umbral, se puede considerar que este grupo de palabras puede formar una palabra. Este método solo necesita contar la frecuencia de los grupos de palabras en el corpus y no necesita segmentar el diccionario, por lo que también se denomina método de segmentación de palabras sin diccionario o método de extracción estadística de palabras. Sin embargo, este método también tiene ciertas limitaciones. A menudo extraerá algunos grupos de palabras de uso frecuente que aparecen con frecuencia pero que no son palabras, como esta, uno, algunos, mío, muchos, etc. La precisión del reconocimiento de palabras comunes es pobre y la. La sobrecarga de tiempo y espacio es grande.
Los sistemas prácticos de segmentación de palabras estadísticas deben utilizar un diccionario de segmentación de palabras básico (diccionario de palabras comunes) para la coincidencia de cadenas y la segmentación de palabras, y al mismo tiempo utilizar métodos estadísticos para identificar algunas palabras nuevas, es decir, combinar estadísticas de frecuencia de cadenas y coincidencia de cadenas, que No solo desempeña el papel de segmentación de palabras coincidentes, sino que también utiliza métodos estadísticos para identificar algunas palabras nuevas. Tiene las características de segmentación rápida y alta eficiencia. También aprovecha la segmentación de palabras sin diccionario y el reconocimiento de contexto para identificar palabras nuevas. eliminar automáticamente las ambigüedades.
Aún no hay ninguna conclusión sobre qué algoritmo de segmentación de palabras es más preciso. Para cualquier sistema de segmentación de palabras maduro, es imposible confiar en un solo algoritmo para lograrlo y requiere una combinación de diferentes algoritmos. El autor entiende que el algoritmo de segmentación de palabras de Massive Technology utiliza el método de segmentación de palabras compuestas. El llamado compuesto es equivalente al concepto de compuesto en la medicina tradicional china, es decir, utilizar diferentes materiales medicinales para combinarlos para tratar enfermedades. Para el reconocimiento de palabras chinas, se necesitan múltiples algoritmos para abordar diferentes problemas.
Problemas en la segmentación de palabras
Con algoritmos de segmentación de palabras maduros, ¿se puede resolver fácilmente el problema de la segmentación de palabras chinas? Nada podría estar más lejos de la verdad. El chino es un idioma muy complejo y es aún más difícil para las computadoras entender el idioma chino. En el proceso de segmentación de palabras chinas, hay dos problemas importantes que no se han superado por completo.
1. Identificación de ambigüedad
La ambigüedad se refiere a una misma oración, que puede tener dos o más métodos de segmentación. Por ejemplo: superficie, debido a que superficie y superficie son palabras, entonces esta frase se puede dividir en superficie y superficie. Esto se llama ambigüedad cruzada. La ambigüedad cruzada como esta es muy común. El ejemplo del kimono mencionado anteriormente es en realidad un error causado por la ambigüedad cruzada. El maquillaje y la vestimenta se pueden dividir en maquillaje y vestimenta o maquillaje y vestimenta. Sin conocimiento humano para comprenderlo, es difícil para una computadora saber qué solución es la correcta.
Si las computadoras pueden resolver tanto la ambigüedad cruzada como la ambigüedad combinada, existe otro problema difícil en la ambigüedad: la ambigüedad verdadera. La verdadera ambigüedad significa que, dada una oración, la gente no puede decir cuál debería ser una palabra y cuál no. Por ejemplo: la subasta de tenis de mesa terminó, se puede dividir en raqueta de tenis de mesa agotada o subasta de tenis de mesa terminada. Si no hay otras oraciones en el contexto, me temo que nadie sabrá si la subasta es una palabra aquí.
2. Reconocimiento de palabras nuevas
Las palabras nuevas se denominan palabras no registradas en términos profesionales. Es decir, aquellas palabras que no están incluidas en el diccionario pero que sí pueden denominarse palabras. El más típico es el nombre de una persona. La gente puede entender fácilmente la frase "Wang Junhu fue a Guangzhou". Wang Junhu es una palabra porque es el nombre de una persona, pero es difícil para una computadora reconocerla. Si Wang Junhu se incluye como palabra en el diccionario, hay tantos nombres en el mundo y cada momento hay nuevos nombres. Incluir estos nombres es un gran proyecto en sí mismo. Incluso si este trabajo se puede completar, todavía habrá problemas, como: en la oración Wang Junhutouhunao, ¿Wang Junhu todavía puede contar las palabras?
Además de los nombres personales, las palabras nuevas también incluyen nombres de organizaciones, nombres de lugares, nombres de productos, nombres de marcas comerciales, abreviaturas, abreviaturas, etc., que son difíciles de manejar, y estas son palabras que la gente suele usar. uso, por lo que para los motores de búsqueda, el reconocimiento de nuevas palabras en los sistemas de segmentación de palabras es muy importante. En la actualidad, la precisión del reconocimiento de nuevas palabras se ha convertido en uno de los indicadores importantes para evaluar la calidad de un sistema de segmentación de palabras.
Aplicación de la segmentación de palabras chinas
En la actualidad, en la tecnología de procesamiento del lenguaje natural, la tecnología de procesamiento china está muy por detrás de la tecnología de procesamiento occidental. Muchos métodos de procesamiento occidentales no se pueden traducir directamente al chino. Se adopta porque el chino debe tener el proceso de segmentación de palabras. La segmentación de palabras chinas es la base para otro procesamiento de información china, y los motores de búsqueda son solo una aplicación de la segmentación de palabras chinas. Otros, como la traducción automática (MT), la síntesis de voz, la clasificación automática, el resumen automático, la revisión automática, etc., requieren el uso de segmentación de palabras. Debido a que el chino requiere segmentación de palabras, esto puede afectar algunas investigaciones, pero también brinda oportunidades a algunas empresas, porque si la tecnología de procesamiento informático extranjera quiere ingresar al mercado chino, primero debe resolver el problema de la segmentación de palabras chinas. En términos de investigación china, los chinos tienen ventajas muy obvias en comparación con los extranjeros.
La precisión de la segmentación de palabras es muy importante para los motores de búsqueda, pero si la velocidad de segmentación de palabras es demasiado lenta, incluso si la precisión es alta, no será utilizable para los motores de búsqueda porque los motores de búsqueda necesitan procesar cientos de Millones de palabras. Para las páginas web, si la segmentación de palabras lleva demasiado tiempo, afectará seriamente la velocidad de actualización del contenido del motor de búsqueda. Por lo tanto, para los motores de búsqueda, tanto la precisión como la velocidad de la segmentación de palabras deben cumplir requisitos muy altos.
En la actualidad, la mayoría de las personas que estudian la segmentación de palabras chinas son instituciones de investigación científica, la Universidad de Tsinghua, la Universidad de Pekín, el Instituto de Tecnología de Harbin, la Academia de Ciencias de China, el Instituto de Idiomas de Beijing, la Universidad del Noreste, IBM Research, Microsoft China Research, etc. Tienen sus propios equipos de investigación. Sin embargo, hay empresas comerciales que realmente se especializan en la segmentación de palabras chinas. A la empresa no le queda casi nada más que tecnología masiva.