6 tipos de métodos para la clasificación de textos
1. Segmentación de palabras chinas:
Al clasificar textos chinos, una tecnología muy importante es la segmentación de palabras chinas. La característica de granularidad es la granularidad de palabras, que es mucho mejor que la granularidad de palabras. La mayoría de sus algoritmos de clasificación no consideran la información del orden de las palabras y pierden demasiada información de n-gramas según la granularidad de las palabras. El siguiente es un breve resumen de la tecnología de segmentación de palabras china: método de segmentación de palabras basado en la coincidencia de cadenas, método de segmentación de palabras basado en la comprensión y método de segmentación de palabras basado en estadísticas [1].
1. Método de segmentación de palabras basado en la coincidencia de cadenas:
Proceso: esta es una segmentación de palabras chinas basada en un diccionario. El núcleo es establecer primero una tabla de diccionario unificada. necesita ser Al realizar la segmentación de palabras, primero divida la oración en varias partes y haga coincidir cada parte uno a uno con el diccionario. Si la palabra está en el diccionario, la segmentación de palabras es exitosa; de lo contrario, continúe dividiendo y haciendo coincidir hasta que tenga éxito. .
Núcleo: El diccionario, las reglas de segmentación y el orden de coincidencia son el núcleo.
Análisis: la ventaja es que es rápido, la complejidad del tiempo se puede mantener en O (n), la implementación es simple y el efecto es aceptable, sin embargo, el efecto de procesamiento de la ambigüedad y las palabras no registradas; no es bueno.
2. Método de segmentación de palabras basado en la comprensión: el método de segmentación de palabras basado en la comprensión logra el efecto de reconocimiento de palabras al permitir que la computadora simule la comprensión humana de las oraciones. La idea básica es realizar un análisis sintáctico y semántico mientras se segmentan palabras y utilizar información sintáctica y semántica para abordar la ambigüedad. Por lo general, consta de tres partes: subsistema de segmentación de palabras, subsistema de sintaxis y semántica y parte de control general. Bajo la coordinación de la parte de control general, el subsistema de segmentación de palabras puede obtener información sintáctica y semántica sobre palabras, oraciones, etc. para juzgar la ambigüedad de la segmentación de palabras, es decir, simula el proceso de comprensión humana de las oraciones. Este método de segmentación de palabras requiere el uso de una gran cantidad de información y conocimiento del idioma. Debido a la generalidad y complejidad del conocimiento del idioma chino, es difícil organizar la información diversa del idioma en una forma que las máquinas puedan leer directamente. Por lo tanto, el sistema de segmentación de palabras basado en la comprensión aún se encuentra en la etapa experimental.
3. Método de segmentación de palabras basado en estadísticas:
Proceso: las estadísticas creen que la segmentación de palabras es un problema de maximización de probabilidad, es decir, dividir oraciones, según el corpus, contar palabras adyacentes. La probabilidad de aparición de palabras. Cuantas más palabras adyacentes aparezcan, mayor será la probabilidad de aparición de palabras en función del valor de probabilidad, por lo que un corpus completo es muy importante.
Los principales modelos estadísticos son: Modelo de N-gramas (N-gram), Modelo Oculto de Markov (HMM), Modelo de Máxima Entropía (ME), Modelo de Campos Aleatorios Condicionales (Conditional Random Model Fields, CRF) etc.
2. Preprocesamiento de texto:
1. Segmentación de palabras: la segmentación de tareas chinas se utiliza generalmente y es líder en la industria.
2. Eliminar palabras vacías: cree un diccionario de palabras vacías. Actualmente hay alrededor de 2000 diccionarios de palabras vacías que incluyen principalmente algunos adverbios, adjetivos y algunos conectivos. Mantener una lista de palabras vacías es en realidad un proceso de extracción de características, que es esencialmente una parte de la selección de características.
3. Etiquetado de partes del discurso: determine la parte del discurso (verbo, sustantivo, adjetivo, adverbio...) después de la segmentación de palabras y establezca parámetros al usar la segmentación de palabras jieba.