Conocimientos básicos de aplicaciones informáticas chinas: caracteres chinos y codificación de caracteres
(1) Unidades de información en ordenadores
Unidades, palabras, longitudes de palabras y bytes, etc. , que es un concepto básico utilizado para representar el tamaño de la información en una computadora.
①Bit: La unidad más pequeña de almacenamiento de datos en una computadora es un bit binario, la abreviatura en inglés es bit, transliterada como bit y se puede representar con la letra B minúscula..
②Byte: ocho bits Los bits binarios se denominan bytes, que pueden representarse con la letra B mayúscula en inglés y son la unidad básica de almacenamiento de una computadora. Un byte de un número binario de ocho bits, el número de dígitos de izquierda a derecha es b7, b6, b5, b4, b3, b2, b1, b0. En las computadoras, el número de bytes se usa a menudo para expresar la capacidad de almacenamiento, que se puede expresar en KB, MB, GB y TB. La relación de conversión entre ellos es la siguiente:
1 KB = 210 B = 1024. b
1MB = 210KB = 1024KB
1GB = 210MB = 1024 MB
1TB = 210GB = 1024 GB
③Caracteres: La computadora es almacenar y transmitir o un conjunto de códigos binarios que operan como una unidad integral, llamada carácter de computadora.
④Longitud de la palabra: el número de dígitos contenidos en cada palabra se denomina longitud de la palabra. Debido a que la longitud de la palabra es la cantidad de dígitos binarios que la computadora puede procesar a la vez, está relacionada con la velocidad de procesamiento de datos de la computadora y es un factor importante para medir el rendimiento de la computadora.
(2) Codificación de caracteres.
① Código ASCII.
Las computadoras sólo pueden reconocer números binarios, por lo que los números, letras y símbolos en la computadora también deben estar codificados en binario. Hay muchas formas de codificar. El código ASCII (Código estándar americano para el intercambio de información) se utiliza ampliamente en microcomputadoras. El código ASCII ha sido aceptado como estándar internacional por la Organización Internacional de Normalización (ISO), denominado ISO-646. Hay dos tipos de códigos ASCII: versión de 7 bits y versión de 8 bits. La versión de 7 bits es el código ASCII aceptado internacionalmente. La versión de 7 bits de ASCII contiene 10 números arábigos, 52 letras mayúsculas y minúsculas en inglés, 32 signos de puntuación y operadores, 34 códigos de control y hasta 128 caracteres, por lo que puede representarse mediante números binarios de 7 bits. El carácter del código ASCII de 7 bits se muestra en la siguiente figura:
Para determinar el código ASCII de un número, letra, símbolo o carácter de control, primero podemos encontrar su posición en la tabla y luego determinar su correspondiente valor decimal o valor binario. Por ejemplo, el código ASCII de la letra minúscula "a" tiene un valor decimal de 97 y un valor binario de 110001b (b representa un número binario, si se convierte a hexadecimal, su valor es 61H (H representa un número hexadecimal). Como se puede ver en la tabla, los códigos ASCII de los números 0 ~ 9 son 30H ~ 39H (el sufijo H indica números hexadecimales), los códigos ASCII de las letras mayúsculas A ~ Z son 41h ~ 5ah, y los códigos ASCII de las letras minúsculas A ~ Z Son las 61h ~ 7ah. La comparación de tamaños de caracteres se basa en el tamaño de sus valores de código ASCII.
En la tabla, NUL, Bélgica, Francia, Francia, República Checa, Alemania, etc. Es un carácter de control, NUL representa espacio en blanco, BEL representa alarma, BS representa retroceso, LF representa avance de línea, FF representa avance de página, CR representa retorno de carro, SP representa espacio y DEL representa eliminar.
② Código BCD.
Cuando la computadora procesa números, necesita convertir entre binario y decimal, es decir, el número decimal está codificado en binario. El código BCD (decimal codificado en binario) es el número decimal codificado en binario. El código BCD más utilizado es el código 8421BCD.
Representa un número decimal como un grupo de 4 números binarios. De izquierda a derecha, los pesos de los números binarios de 4 dígitos son 8, 4, 2 y 1 respectivamente, y se pueden combinar en 16 estados. La codificación de estos 10 números del 0 al 9 solo requiere 0000 ~ 10065438. Para codificar un número decimal de varios dígitos, es necesario que haya tantos grupos binarios de 4 bits como números decimales, codificados por separado en orden. La Tabla 1-4 muestra la correspondencia entre los códigos 8421BCD y los números decimales.
Tabla 1-4 Correspondencia entre códigos BCD y números decimales
③ Codificación Unicode
El código ASCII proporciona 128 caracteres y el código ASC extendido proporciona 256 caracteres. Pero eso significa que las codificaciones de texto en varios países del mundo no son suficientes y se necesitan más caracteres y significados, por lo que apareció nuevamente la codificación Unicode.
Unicode es una codificación de 16 bits que puede representar más de 65.000 caracteres o símbolos. Actualmente, existen alrededor de 34.000 letras o símbolos utilizados en varios idiomas en el mundo, por lo que la codificación Unicode se puede utilizar en cualquier idioma. La codificación Unicode es totalmente compatible con el popular código ASCII y los primeros 256 símbolos de los dos códigos son iguales.
(3) Codificación de caracteres chinos
Los caracteres chinos son caracteres pictográficos con una gran cantidad de caracteres (hay de seis a siete mil caracteres de uso común en los caracteres chinos modernos, con un número total de más de 50.000 caracteres) y fuentes complejas.
Cada carácter chino tiene tres elementos: sonido, forma y significado. También hay muchos homófonos y variantes, lo que plantea grandes dificultades para el procesamiento informático de los caracteres chinos. Para procesar caracteres chinos en una computadora, se deben resolver los siguientes problemas: primero, la entrada de caracteres chinos, es decir, cómo ingresar caracteres chinos en forma de bloque con estructuras complejas en la computadora, que es la clave para el procesamiento de caracteres chinos; en segundo lugar, cómo representar y almacenar caracteres chinos en la computadora; cómo ser compatible con los idiomas occidentales; finalmente, cómo generar los resultados del procesamiento de los caracteres chinos desde la computadora; Por lo tanto, los caracteres chinos deben estar codificados,
es decir, caracteres chinos codificados. En correspondencia con los tres vínculos principales de entrada, procesamiento interno y salida en el proceso de procesamiento de caracteres chinos mencionado anteriormente, la codificación de cada carácter chino incluye código de entrada, código de intercambio, código interno y código de glifo. En el sistema informático de procesamiento de información de caracteres chinos, se requiere la siguiente conversión de código al procesar caracteres chinos: código de entrada → código de intercambio → código interno → código de glifo. Lo anterior describe brevemente las ideas y procesos básicos del procesamiento informático de caracteres chinos. La siguiente es una introducción detallada a las cuatro codificaciones de caracteres chinos.
①Introduce el código.
Para utilizar el teclado occidental estándar existente para ingresar caracteres chinos en una computadora, es necesario diseñar un código de entrada de caracteres chinos. El código de entrada también se denomina código externo. Actualmente existen entre seiscientos y setecientos esquemas de codificación de entrada de caracteres chinos que han solicitado patentes, y constantemente aparecen nuevos métodos de entrada, hasta el punto de que se les conoce como los "Diez mil códigos al galope". Según diferentes ideas de diseño, estos numerosos códigos de entrada se pueden dividir en cuatro categorías: códigos digitales, códigos pinyin, códigos de glifos y códigos fonéticos. Entre ellos, los códigos pinyin y los códigos de glifos son actualmente los más utilizados.
A. Codificación digital: La codificación digital tiene la misma longitud.
La cadena digital numera los caracteres chinos uno por uno. Este número se utiliza como código de entrada de caracteres chinos, como código de posición, XX eléctrico, etc. Las reglas de codificación de esta codificación son simples y fáciles de convertir con el código interno de caracteres chinos, pero son difíciles de recordar y solo se aplican a algunos departamentos específicos.
B. Código Pinyin: El código Pinyin es un código de entrada basado en la pronunciación de los caracteres chinos. El código Pinyin es fácil de usar, fácil de aprender y popularizar. La desventaja es que la tasa de repetición es alta (porque hay muchos caracteres chinos con homófonos) y a menudo se requiere selección de pantalla durante la entrada, lo que afecta la velocidad de entrada. El código pinyin se ingresa según el código pinyin chino, por lo que se requiere una pronunciación estándar al ingresar caracteres chinos y no se pueden usar dialectos. El código Pinyin es especialmente adecuado para personal principiante no profesional que no tiene requisitos de alta velocidad de entrada.
c Código de glifo: el código de glifo es una entrada de código basada en la estructura de glifo de los caracteres chinos. El código de fuente Wubi (código Wang), ampliamente utilizado en microcomputadoras, es un representante típico de los códigos de fuente. La característica principal del código de caracteres Wubi es su rápida velocidad de entrada. El récord más alto actual es de 293 caracteres chinos por minuto (este récord lo ostenta la soldado XXXX).
El límite del escaneo del ojo humano. Sin embargo, este método de entrada requiere mucho tiempo en la etapa inicial porque requiere memorizar las raíces de las palabras y practicar la ortografía. Además, hay pocos caracteres chinos que sean difíciles de separar y los códigos proporcionados no se ajustan a los hábitos de escritura de los caracteres chinos.
D. Código fonético: El código fonético es un código de entrada que tiene en cuenta la pronunciación y la fuente de los caracteres chinos. El código fonético más utilizado actualmente es el código natural.
②Códigos de intercambio.
El código de intercambio se utiliza para intercambiar el código externo y el código interno de los caracteres chinos. El "Conjunto básico de conjuntos de caracteres codificados chinos para el intercambio de información" promulgado por nuestro país en 1988 (con nombre en código GB 2312-1980) es el estándar nacional para códigos de intercambio, por lo que los códigos de intercambio también se denominan códigos estándar nacionales. El código estándar nacional es un código de doble byte, es decir, un código de caracteres chinos tiene dos bytes y el bit más alto de cada byte es "1". El estándar nacional GB2312-1980 contiene 6763 caracteres chinos de uso común (incluidos 3755 caracteres chinos de primer nivel, ordenados en pinyin; 3008 caracteres chinos de segundo nivel, ordenados en orden radical), otras letras y símbolos gráficos (como números de serie, números, números romanos, letras inglesas, kana japonesa y letras rusas)
y pinyin chino, etc. ), un total de 7445 caracteres. Estos 7445 caracteres están organizados juntos en 94 filas × 94 columnas para formar la tabla de codificación del juego de caracteres GB2312-1980. Cada carácter chino de la tabla corresponde a un número de fila único (llamado código de área) y un número de columna (llamado código de posición) únicos. El valor del código de país de un carácter chino se determina en función del número de posición y se almacena en dos bytes respectivamente. Debido a limitaciones de espacio, este libro no incluye la tabla de codificación de caracteres GB 2312-1980. Los lectores pueden consultar libros relevantes.
③Código interno.
El código interno es la representación básica de los caracteres chinos en la computadora. Es el código utilizado por la computadora para identificar, almacenar, procesar y transmitir caracteres chinos. El código interno también es un código de doble byte. El bit más alto de los dos bytes del código estándar nacional se establece en "1", que se convierte en un código interno de caracteres chinos. Los sistemas de procesamiento de información por computadora distinguen los caracteres chinos y los caracteres ASCII en función de si el bit más alto del código de caracteres es "1" o "0".
④Código de fuente.
El código de fuente es un código que representa la información de fuente (estructura, forma, trazos, etc.) de los caracteres chinos. ), que se utiliza
para utilizar una computadora para realizar la salida (visualización e impresión) de caracteres chinos. Debido a que los caracteres chinos son caracteres cuadrados, la representación de código de caracteres más utilizada es la matriz de puntos, que incluye matriz de puntos de 16 × 16, matriz de puntos de 24 × 24 y matriz de puntos de 48 × 48. Por ejemplo, el significado de una matriz de puntos de 16 × 16 es: hay 256 puntos (16 × 16 = 256) para representar la información de fuente de un carácter chino. Cada punto tiene dos estados: "activado" o "apagado". un número binario "65438" ". Por lo tanto, almacenar un carácter chino de 16 × 16 requiere 256 bits binarios y ***32 bytes (256 bits/8 bits). La matriz de puntos anterior se puede seleccionar según las diferentes necesidades de salida de caracteres chinos.
Cuantos más puntos haya, más precisos y bellos serán los caracteres chinos resultantes. La red de fuentes de caracteres chinos ocupa una gran cantidad de espacio de almacenamiento y generalmente se almacena en la memoria externa de la máquina en forma de fuente. Cuando sea necesario, se puede buscar la fuente para generar la fuente de caracteres chinos correspondiente.
;