participio jieba

La biblioteca jieba es una excelente biblioteca de segmentación de palabras chinas de terceros de Python. Jieba admite tres modos de segmentación de palabras: modo preciso, modo completo y modo de motor de búsqueda.

1. Modo preciso: intenta segmentar oraciones con mayor precisión, sin datos redundantes, y es adecuado para el análisis de texto.

2. Modo completo: Segmenta todas las palabras posibles en la oración, lo cual es muy rápido, pero hay datos redundantes.

3. Modo de motor de búsqueda: según el modo preciso, las palabras largas se segmentan nuevamente para mejorar la tasa de recuperación, lo cual es adecuado para la segmentación de palabras en motores de búsqueda.

Las funciones principales de la segmentación de palabras

Las funciones principales de la segmentación de palabras jieba son las siguientes:

1.jieba.cut: este método acepta tres parámetros de entrada : la segmentación de palabras es una cadena requerida; el parámetro cut_all se usa para controlar si se usa el modo completo; el parámetro HMM se usa para controlar si se aplica el modelo HMM

2. dos parámetros: la cadena que debe segmentarse; si utiliza el modelo HMM, este método es adecuado para que los motores de búsqueda creen una segmentación de palabras de índice invertida y la granularidad es relativamente buena.

3. La cadena a segmentar puede ser cadena Unicode o UTF-8, cadena GBK. Tenga en cuenta que no se recomienda ingresar la cadena GBK directamente, ya que puede estar mal codificada en UTF-8

4. Las estructuras devueltas por jieba.cut y jieba.cut_for_search son generadores disponibles. Sí. bucle para obtener cada palabra obtenida después de la segmentación de palabras o use jieb.lcut y jieba.lcut_for_search para devolver directamente la lista

6. un nuevo segmentador de palabras personalizado, que se puede usar para usar diferentes diccionarios al mismo tiempo. jieba.dt es el segmentador de palabras predeterminado, y todas las funciones relacionadas con la segmentación global de palabras son asignaciones de este segmentador de palabras.