Red de conocimiento de abogados - Derecho de sociedades - ¿Cuál es el formato de archivo de léxico del método de entrada de Baidu?

¿Cuál es el formato de archivo de léxico del método de entrada de Baidu?

El archivo de léxico del método de entrada de Baidu está en formato bdict, que es relativamente simple. El contenido de todo el formato bdict es: información de encabezado, introducción del léxico y lista de entradas. codificado en Unicode.

Sogou Cell Thesaurus adopta el formato scel, que utiliza Unicode para codificar caracteres chinos y pinyin. El contenido de todo el formato scel es: información de encabezado, introducción de vocabulario, lista de combinación de pinyin y lista de entradas. La estructura de datos de la entrada en formato scel está relativamente bien diseñada. Utiliza punteros pinyin para evitar que pinyin repetido en la entrada ocupe el contenido.

El tesauro de clasificación QQ adopta el formato qpyd, que originalmente usa zip para comprimir la lista de entradas. Los contenidos del formato qpyd son: información de encabezado, introducción al diccionario y lista de entradas comprimidas. Debido a que el formato qpyd usa compresión zip, todo el archivo aparecerá más pequeño que otros formatos con la misma cantidad de entradas. Sin embargo, a diferencia del formato scel de Sogou, en el formato qpyd, cada entrada corresponde a su pinyin. Las palabras están codificadas usando UTF8, pero el pinyin está codificado usando Unicode.