segmentación de texto txt
Algunos divisores tienen caracteres confusos porque no admiten UTF-8, y algunos se dividen por el número de bytes en lugar del número de caracteres, lo que provoca que un determinado carácter chino se divida en dos archivos antes y después, lo que da como resultado caracteres confusos.
Se recomienda utilizar el software Reemplazar Pioneer, que se puede dividir por el número de palabras completas, el número de líneas o símbolos especiales, y soporta cualquier método de codificación común. Intenté dividir bien utf8.
Pasos detallados:
1. Abra Reemplazar Pioneer, seleccione la opción Configuración-gt; utf-8
2. el archivo de texto procesado pendiente
3. Seleccione Archivo-gt; menú Dividir por bytes/líneas
* Cambie el contenido en Dividir nombres al formato requerido, como # ##.txt se dividirá en 001.txt, 002.txt
* En Dividir archivo por, ingrese el número de bytes/número de líneas a dividir
*Haga clic en Siguiente e ingrese un nombre de archivo de resultados será suficiente.
Nota: Si el nombre del archivo resultante es abc.txt y el nombre dividido es ${BASE}_###.txt, entonces los archivos divididos son abc_001.txt, abc_002.txt, ...
p>
======================================= ======
Respuesta adicional:
Su afirmación es correcta. Reemplazar Pioneer se divide según la cantidad de caracteres. Un carácter chino codificado en utf8 ocupa básicamente 3 bytes. , por lo que es casi 1/3. Necesita hacer los cálculos.
De manera similar, si divide un archivo de caracteres chinos ansi, un carácter chino ocupa 2 bytes, por lo que si lo divide en 4k, debe ingresar 2000
Si divide ansi en inglés puro texto, un carácter ocupa un byte, por lo que para dividir 4k, debes ingresar 4000