¿Cómo convertir un artículo (escrito a mano) escaneado desde un escáner a una computadora al formato Word?
Escanea el texto y guarda el resultado en tu ordenador en formato de imagen (.bmp). Luego use el sistema de reconocimiento ORC para la conversión y finalmente use WORD para modificar y editar. Te enseñamos cómo usar ORC:
OCR es la abreviatura de reconocimiento óptico de caracteres en inglés, traducida al chino, significa reconocimiento de texto a través de tecnología óptica. Es un aspecto importante en el campo de la tecnología de reconocimiento automático. investigación y aplicación. Es una tecnología de software que puede reconocer e ingresar texto automáticamente en la computadora. Es el software principal combinado con el escáner. Pertenece a la categoría de entrada sin teclado y requiere la cooperación del dispositivo de entrada de imágenes, principalmente el escáner. Ahora, OCR se refiere principalmente al software de reconocimiento de texto. Antes de que Tsinghua Unigroup comenzara a utilizar el software de reconocimiento chino en 1996, los fabricantes de escáneres y escáneres se vendían por separado. venden software OCR profesional con sus propios escáneres. El rápido desarrollo de la tecnología OCR es inseparable del uso generalizado de los escáneres. En los últimos dos años, con la popularización gradual de los escáneres y la mejora de la tecnología OCR, el OCR se ha convertido en un poderoso asistente para la gran mayoría de los usuarios de escáneres.
1. La historia del desarrollo de la tecnología OCR
Desde que apareció la primera generación de productos OCR a principios de la década de 1960, después de más de 30 años de desarrollo y mejora continuos, se han desarrollado varias tecnologías OCR, incluidas escritura a mano La investigación ha logrado resultados notables. Los requisitos funcionales de las personas para los productos OCR también han evolucionado desde el enfoque original en la tasa de reconocimiento hasta la velocidad de reconocimiento de todo el sistema OCR, la facilidad de uso de la interfaz, la simplicidad de operación y la estabilidad de. El producto presenta requisitos más altos en términos de rendimiento, adaptabilidad, confiabilidad y fácil actualización, así como calidad del servicio preventa y posventa.
IBM fue el primero en desarrollar un producto OCR. En 1965, el producto OCR de IBM, IBM1287, se exhibió en la Feria Mundial de Nueva York. En ese momento, este producto sólo podía reconocer números impresos, letras en inglés y algunos símbolos, y tenía que estar en la fuente especificada. A finales de la década de 1960, Hitachi y Fujitsu también desarrollaron sus propios productos OCR. El primer sistema de clasificación automática de cartas del mundo que realizó el reconocimiento de códigos postales escritos a mano fue desarrollado por Toshiba Corporation de Japón. Dos años más tarde, NEC Corporation también lanzó el mismo sistema. En 1974, la tasa de clasificación automática de cartas alcanzó aproximadamente el 92%, se utilizó ampliamente en el sistema postal y desempeñó un buen papel. En 1983, Toshiba Corporation de Japón lanzó su sistema OCR OCRV595 para reconocer caracteres chinos japoneses impresos. Su velocidad de reconocimiento es de 70 a 100 caracteres chinos por segundo y la tasa de reconocimiento es del 99,5%. Posteriormente, Toshiba Corporation inició un trabajo de investigación sobre el reconocimiento de caracteres japoneses y chinos escritos a mano.
El trabajo de investigación de China sobre la tecnología OCR comenzó relativamente tarde. Sólo comenzó a investigar la tecnología de reconocimiento de números, letras y símbolos en inglés en la década de 1970, y comenzó a realizar investigaciones sobre el reconocimiento de caracteres chinos a finales de la década de 1970. . En 1986, el Programa Nacional 863 en el Campo de la Información organizó tres unidades, la Universidad de Tsinghua, el Instituto de Ingeniería de la Información de Beijing y el Instituto de Automatización de Shenyang, para desarrollar conjuntamente software OCR chino. En 1989, la Universidad de Tsinghua tomó la iniciativa en el lanzamiento del primer conjunto de software de OCR chino en China: Tsinghua Wentong TH-OCR versión 1.0. En este punto, el OCR chino pasó oficialmente del laboratorio al mercado. El software de reconocimiento de caracteres chinos impresos OCR de Tsinghua lanzó posteriormente TH-OCR 92, un sistema de reconocimiento de caracteres chinos impresos, práctico, simplificado/tradicional, de múltiples fuentes y multifuncional de alto rendimiento, que logró avances significativos en la tecnología de reconocimiento de caracteres chinos impresos. El sistema de reconocimiento de texto impreso mixto chino-inglés de alto rendimiento TH-OCR 94 lanzado en 1994 fue identificado por los expertos como "el primer sistema de reconocimiento de texto impreso mixto chino-inglés lanzado en el país y en el extranjero, y generalmente se encuentra a nivel internacional líder. "
A mediados y finales de la década de 1990, el Departamento de Ingeniería Electrónica de la Universidad de Tsinghua propuso y llevó a cabo una investigación exhaustiva sobre el reconocimiento de caracteres chinos, que permitió utilizar la tecnología de reconocimiento de caracteres chinos en campos como el texto impreso, el reconocimiento de caracteres chinos escritos a mano en línea y fuera de línea. reconocimiento de caracteres chinos escritos a mano y reconocimiento de símbolos de dígitos escritos a mano sin conexión. Se lograron resultados importantes en todos los ámbitos. El logro representativo es el completo sistema integrado de reconocimiento de caracteres chinos TH-OCR 97, que puede completar la entrada de reconocimiento de texto impreso en varios idiomas (chino, inglés, japonés), caracteres chinos escritos a mano en línea, caracteres chinos escritos a mano sin conexión y números escritos a mano. En los últimos años, además de Tsinghua Wentong TH-OCR, también han aparecido otros software de OCR con diferentes estilos, como Shangshu SH-OCR. El mercado chino de OCR se ha expandido constantemente y cuenta con usuarios en todo el mundo.
Se puede decir que la tecnología actual de reconocimiento de OCR impreso ha alcanzado un alto nivel. Los productos OCR han evolucionado desde los primeros modelos que sólo podían reconocer números impresos específicos, letras en inglés y algunos símbolos hasta potentes computadoras que pueden realizar automáticamente análisis de diseño, reconocimiento de tablas y reconocer texto mixto, múltiples fuentes, múltiples tamaños de fuente y textos mixtos. Diseños horizontales y verticales. Herramienta de entrada rápida de información. La tasa de reconocimiento de caracteres chinos impresos supera el 98%, e incluso para caracteres con mala calidad de impresión, la tasa de reconocimiento supera el 95%. Puede reconocer fuentes chinas simplificadas y tradicionales, como la fuente Song, la fuente Hei, la fuente Kai y la fuente Song de imitación. También puede reconocer la composición tipográfica mixta de múltiples fuentes y diferentes tamaños de fuente. La tasa de reconocimiento de caracteres chinos escritos a mano alcanza más del 70%. . En particular, después de más de diez años de arduo trabajo, la tecnología OCR de caracteres chinos de mi país ha superado dificultades como su inicio tardío y un conjunto de caracteres chinos extremadamente grande. La velocidad de reconocimiento de caracteres individuales (en referencia a la cantidad de palabras completadas a partir de la extracción de características). (hasta la salida de resultados de reconocimiento por unidad de tiempo) Puede alcanzar más de 70 palabras/segundo. Dado que la tecnología de reconocimiento de caracteres chinos OCR impreso es relativamente madura, los productos OCR se utilizan ampliamente en diversas industrias como el periodismo, la imprenta, las publicaciones, las bibliotecas y la automatización de oficinas.
Los productos OCR profesionales están orientados principalmente a industrias específicas, es decir, son adecuados para departamentos que necesitan procesar una gran cantidad de entrada de información de formularios todos los días, como servicios postales, impuestos, aduanas, estadísticas, etc. Este sistema de OCR profesional para industrias específicas tiene un formato relativamente fijo y un conjunto relativamente pequeño de caracteres reconocidos. A menudo se usa junto con dispositivos de entrada especiales, por lo que tiene las características de alta velocidad y alta eficiencia, como los sistemas de clasificación automática de correo. .
Los productos de reconocimiento de documentos escritos a mano no comenzaron a aparecer hasta 1996 y 1997, y se ofrecieron como una función adicional de los productos de reconocimiento de documentos impresos. Dado que los hábitos de escritura de las personas varían mucho, es bastante difícil realizar un reconocimiento de escritura gratuito. Por lo tanto, el campo de aplicación de la tecnología OCR de escritura a mano es el reconocimiento de escritura a mano en línea, es decir, las personas escriben mientras la computadora la reconoce, que es un método de reconocimiento en tiempo real. .
2. El principio básico de OCR
En pocas palabras, el principio básico de OCR es ingresar la imagen de un documento en la computadora a través de un escáner y luego en la computadora. Saca la imagen de cada imagen y la convierte en codificación de caracteres chinos. El proceso de trabajo específico es que el escáner convierte la señal óptica del manuscrito de caracteres chinos en una señal eléctrica a través del dispositivo CCD de carga acoplada, y luego la convierte en una señal digital a través de un convertidor analógico/digital y la transmite a la computadora. La computadora recibe una imagen digital del documento. Los caracteres chinos en la imagen pueden ser caracteres chinos impresos o caracteres chinos escritos a mano y luego reconoce los caracteres chinos en estas imágenes. Para los caracteres impresos, primero se utilizan métodos ópticos para convertir los datos del documento en archivos de imagen originales de matriz de puntos en blanco y negro, y luego el texto de la imagen se convierte a formato de texto a través de un software de reconocimiento para su posterior procesamiento mediante un software de procesamiento de textos. Entre ellos, el reconocimiento de texto es una tecnología importante de OCR.
1. Dos formas de reconocimiento OCR
Al igual que otros datos de información, toda la información gráfica y de texto capturada por el escáner en la computadora se registra e identifica utilizando los dos números 0 y 1. Toda la información son solo una cadena de puntos. o puntos de muestra guardados como 0 y 1. El programa de reconocimiento OCR reconoce la información de los caracteres en la página, principalmente mediante el método de coincidencia de patrones unitarios y el método de extracción de características para el reconocimiento de caracteres.
El método de identificación de coincidencia de patrones unitarios (Pattern Matching) es una comparación flexible de cada carácter con un archivo que guarda una fuente estándar y un mapa de bits de tamaño de fuente.
Si la aplicación tiene una base de datos grande de caracteres guardados, la aplicación seleccionará los caracteres apropiados para una coincidencia correcta. El software debe utilizar alguna técnica de procesamiento para encontrar la coincidencia más similar, generalmente probando constantemente diferentes versiones del mismo personaje para comparar. Algunos programas pueden escanear una página de texto e identificar cada carácter que define una nueva fuente. Algunos programas utilizan su propia tecnología de reconocimiento para hacer todo lo posible para identificar los caracteres en la página y luego seleccionan manualmente o ingresan directamente caracteres irreconocibles.
La extracción de características consiste en descomponer cada carácter en muchas características diferentes, incluidas líneas diagonales, líneas horizontales, curvas, etc. Luego, estas características se relacionan con caracteres comprendidos (reconocidos). Como ejemplo sencillo, si la aplicación reconoce dos líneas horizontales, "pensará" que el carácter puede ser "dos". La ventaja del método de extracción de características es que puede reconocer una variedad de fuentes. Por ejemplo, las fuentes de caligrafía china utilizan el método de extracción de características para realizar el reconocimiento de caracteres.
La mayoría del software de aplicación OCR ha agregado una función de revisión gramatical inteligente, que mejora aún más la tasa de reconocimiento. Implementa principalmente la corrección ortográfica y gramatical mediante la verificación de contexto. Durante el reconocimiento de texto, la aplicación OCR realizará múltiples verificaciones de coherencia de contexto en función de las frases y el orden fijo de las palabras que ya existen en el programa, y verificará la cadena de palabras correspondiente. El software de aplicación más avanzado reemplazará automáticamente las palabras incorrectas con palabras que "cree" que son correctas y corregirá el significado de la oración.
2. Varios pasos del reconocimiento de texto
El reconocimiento de texto incluye los siguientes pasos: entrada de imagen y texto, preprocesamiento, reconocimiento de una sola palabra y posprocesamiento, etc.
(1) La entrada de imágenes y texto
se refiere a la entrada de documentos en la computadora a través de dispositivos de entrada, que consiste en realizar la digitalización de originales. Un dispositivo más utilizado hoy en día es el escáner. La calidad del escaneo de las imágenes de los documentos es un requisito previo para el correcto reconocimiento por parte del software OCR. La selección adecuada de la resolución de escaneo y los parámetros relacionados es la clave para garantizar que el texto sea claro y no se pierdan características. Además, el documento debe colocarse lo más recto posible para garantizar que el ángulo de inclinación detectado mediante el preprocesamiento sea pequeño. Después de la corrección de la inclinación, la deformación de la imagen del texto será pequeña. Estas simples operaciones mejorarán la precisión del reconocimiento del sistema. Por otro lado, debido a una configuración de escaneo incorrecta y a demasiados bolígrafos rotos en el texto, es posible que se detecte una imagen de la mitad del texto. Los trazos rotos y la adherencia de los trazos harán que se pierdan algunas características. Al comparar las características con la biblioteca de características, la distancia de las características aumentará y la tasa de error de reconocimiento aumentará.
(2) Preprocesamiento
Escanee una imagen de un documento impreso simple, separe cada imagen de texto y entréguela al módulo de reconocimiento para su reconocimiento. Este proceso se denomina preprocesamiento de imágenes. con. El preprocesamiento se refiere a algunos trabajos de preparación antes del reconocimiento de texto, incluido el procesamiento de purificación de imágenes para eliminar el ruido obvio (interferencia) en la imagen original. Las tareas principales son medir el ángulo de inclinación de la ubicación del documento, realizar análisis de diseño en el documento, confirmar la composición tipográfica de los campos de texto seleccionados, segmentar las líneas de texto horizontales y verticales, separar las imágenes de texto de cada línea e identificar signos de puntuación. . esperar. El trabajo en esta etapa es muy importante y el efecto del procesamiento afecta directamente la precisión del reconocimiento del texto.
El análisis de diseño es un análisis general de las imágenes de texto. Separa todos los bloques de texto del documento y distingue los párrafos de texto y el orden del diseño, así como las áreas de imágenes y tablas. El límite de dominio de cada bloque de texto (las coordenadas del punto inicial y final del dominio en la imagen), los atributos dentro del dominio (diseño horizontal y vertical) y la relación de conexión de cada bloque de texto se utilizan como datos. estructura y proporcionado al módulo de reconocimiento para el reconocimiento automático. El área de texto se reconoce y procesa directamente, el área de la tabla se somete a un análisis de tabla dedicado y procesamiento de reconocimiento, y el área de la imagen se comprime o simplemente se almacena. La segmentación de líneas es el proceso de cortar una imagen grande en líneas y luego separar caracteres individuales de las líneas de la imagen.
(3) Reconocimiento de un solo carácter
El reconocimiento de un solo carácter es la tecnología central que incorpora el reconocimiento de texto OCR. Las imágenes de texto detectadas a partir del texto escaneado son convertidas por la computadora en códigos de texto estándar. Esta es la clave para permitir que la computadora "reconozca caracteres", que es la llamada tecnología de reconocimiento.
Al igual que el cerebro humano reconoce el texto porque en el cerebro humano se han conservado varias características del texto, como la estructura del texto, los trazos del texto, etc. Si desea que una computadora reconozca texto, también necesita almacenar información como las características del texto en la computadora. Sin embargo, qué tipo de información debe almacenarse y cómo obtenerla es un proceso muy complicado y muy. Se debe lograr una alta tasa de reconocimiento para cumplir con los requisitos. El enfoque comúnmente utilizado es analizar en función de los trazos del texto, puntos característicos, información de proyección, distribución regional de puntos, etc.
Hay miles de caracteres chinos de uso común. La tecnología de reconocimiento es una tecnología de comparación de características. Al comparar con la biblioteca de funciones de reconocimiento, se encuentra el carácter con las características más similares y se obtiene el código estándar del carácter. extraído, que es el resultado del reconocimiento. La comparación es una forma básica para que las personas comprendan las cosas. El reconocimiento de caracteres chinos también utiliza la comparación para descubrir las similitudes, similitudes y diferencias entre los caracteres chinos y para comprender la relación entre cantidad y calidad, así como la relación entre tiempo y espacio. . Para los caracteres chinos en conjuntos de caracteres grandes, la clasificación de varios niveles, las características múltiples y la coincidencia dinámica completa generalmente se utilizan para encontrar conjuntos similares para garantizar una alta tasa de clasificación, una gran adaptabilidad y una buena estabilidad. encontrar coincidencia de diferencias y procesamiento ponderado de conjuntos similares, identificación estructural, análisis cuantitativo y cualitativo, y la relación entre los conectivos anteriores y siguientes, y finalmente la identificación. El reconocimiento de caracteres chinos es esencialmente la aplicación de la ciencia comparada o la ciencia cognitiva en la inteligencia artificial, y su tecnología clave es la biblioteca de funciones de reconocimiento. Sólo con dicha biblioteca de funciones la computadora puede completar la función de reconocimiento de caracteres.
En el diseño de documentos de imagen, además de texto e imágenes, a veces hay tablas. Para digitalizar las tablas reconocidas, se requiere un procesamiento especial de los campos de la tabla durante el proceso de análisis del diseño. extraer la información estructural de las líneas de la tabla, ordenar los campos de texto en la tabla, completar la identificación de las líneas de la tabla y los campos de texto, y generar diferentes formatos de archivo basados en la digitalización de las líneas de la tabla. Debido a que las tablas en el documento son arbitrarias y tienen varios formatos, incluidos cerrados y abiertos, especialmente las barras en las tablas, crea ciertas dificultades en el análisis de las tablas.
(4) Postprocesamiento
El posprocesamiento se refiere al uso de frases para hacer coincidir el texto reconocido o múltiples resultados de reconocimiento, es decir, segmentar los resultados del reconocimiento de una sola palabra en palabras. y compararlas con palabras. Comparar frases en la base de datos para mejorar la tasa de reconocimiento del sistema y reducir la tasa de reconocimiento erróneo.
El reconocimiento de caracteres chinos es el problema más difícil en el campo del reconocimiento de texto, que involucra reconocimiento de patrones, procesamiento de imágenes, procesamiento de señales digitales, comprensión del lenguaje natural, inteligencia artificial, matemáticas difusas, teoría de la información, computadoras, chino. procesamiento de información y otras disciplinas, es una tecnología integral. En los últimos años, la tasa de precisión del reconocimiento de un solo carácter de los sistemas de reconocimiento de caracteres chinos impresos ha superado el 95%. Para mejorar aún más la tasa de reconocimiento general del sistema, se han utilizado tecnologías como imágenes escaneadas, preprocesamiento de imágenes y posprocesamiento de reconocimiento. También se ha estudiado en profundidad y ha logrado grandes avances, mejorando efectivamente el rendimiento general del sistema de reconocimiento de caracteres chinos impresos. La Universidad de Tsinghua ha logrado destacados logros en investigación en esta área y se ha convertido en una de las instituciones más autorizadas del mundo. Actualmente, todos los escáneres de Tsinghua Unisoc están equipados con el software Tsinghua OCR Millennium Edition, que ha alcanzado un alto nivel en términos de tasa de reconocimiento, reconocimiento de formas e incluso reconocimiento de escritura a mano estándar.
3. Habilidades de reconocimiento de texto OCR
En los últimos años, la tecnología de reconocimiento OCR se ha desarrollado rápidamente con la popularidad de los escáneres, y el rendimiento del software de escaneo y reconocimiento ha seguido fortaleciéndose y Más fuerte Actualizar y desarrollar continuamente hacia la inteligencia. Sin embargo, si desea obtener rápidamente resultados de escaneo correctos e ingresar texto de manera eficiente, debe estudiar cuidadosamente los conocimientos relevantes, combinarlos con experiencia práctica y encontrar su propio conjunto completo de soluciones. A veces, cuando realizamos trabajos de reconocimiento de texto, la tasa de reconocimiento es muy baja y no puede superar el 95% como lo indica el software. De hecho, esta es la razón por la que no dominamos el escaneo. Habilidades de reconocimiento OCR bien.
Los siguientes son algunos métodos y técnicas comúnmente utilizados en operaciones de reconocimiento de texto.
1. La configuración de la resolución es un requisito previo importante para el reconocimiento de texto. En términos generales, los escáneres proporcionan más información de imagen y el software de reconocimiento puede obtener resultados de reconocimiento más fácilmente. Pero eso no significa que cuanto mayor sea la resolución de escaneo, mayor será la precisión del reconocimiento.
Elija una resolución de 300 ppp o 400 ppp, adecuada para la mayoría de escaneos de documentos. Preste atención al escaneo y reconocimiento de originales de texto. Al configurar la resolución de escaneo, nunca exceda la resolución óptica del escáner; de lo contrario, la ganancia superará la pérdida. A continuación se muestran algunas configuraciones típicas solo como referencia.
(1) Para párrafos de artículos con fuentes de tamaño 1, 2 y 3, se recomienda utilizar 200 ppp.
(2) 4. Para párrafos de artículos con fuentes pequeñas de tamaño 4 y 5, se recomienda utilizar 300 dpl.
(3) Para párrafos de artículos con fuentes pequeñas de tamaño 5 y 6, se recomienda utilizar 400 ppp p>
(4) Para párrafos de artículos con fuentes de tamaño 7 y 8, se recomienda utilizar 600 ppp.
2. Al escanear, ajuste los valores de brillo y contraste de forma adecuada para que los documentos escaneados queden claros en blanco y negro. Esto tiene el impacto más crítico en la tasa de reconocimiento. Los valores de brillo y contraste del escaneo se establecen según el principio de observar que los trazos de los caracteres chinos en la imagen escaneada sean finos pero no abiertos. Antes del reconocimiento, primero verifique la calidad del texto en la imagen escaneada. Si hay puntos negros en la imagen o las líneas del texto son gruesas y oscuras y los trazos no se pueden distinguir, significa que el valor de brillo es demasiado pequeño. se debe aumentar el valor de brillo. Inténtelo de nuevo si las líneas de texto están desiguales, rotas o incluso el contorno de los caracteres chinos en la imagen está gravemente dañado, significa que el valor de brillo es demasiado alto y debe reducir el valor. brillo y vuelva a intentarlo.
3. Elija el software de escaneo. Elegir un buen software de OCR que se adapte a sus necesidades es la base para un buen reconocimiento de texto. Generalmente, no utilice el software OEM que viene con el escáner. El software OEM OCR tiene menos funciones y efectos deficientes, y algunos incluso no tienen reconocimiento de chino. En comparación, creo que las capacidades de reconocimiento y las funciones de uso de Tsinghua Unisoc OCR2003 Professional Edition y el sistema de entrada de reconocimiento automático de texto Shangshu OCR6.0 son más sobresalientes. Elija otro software de imagen. ¿El software OCR no tiene una interfaz de escaneo? ¿Por qué sigues buscando software de imágenes? En primer lugar, el software OCR no puede reconocer todos los escáneres; en segundo lugar, y lo más importante, las imágenes escaneadas utilizando la interfaz de escaneo del software de imágenes son fáciles de procesar;
4. Si el texto a procesar tiene formato, como negrita, cursiva, sangría de primera línea, etc., algunos programas de OCR no pueden reconocerlo y el formato se perderá o aparecerán caracteres confusos. Si debe escanear texto formateado, asegúrese de antemano si el software de reconocimiento que utiliza admite el escaneo de formatos de texto. También puede desactivar el sistema de reconocimiento de estilos, lo que permite que el software se concentre en encontrar los caracteres correctos en lugar de las fuentes y el formato de las fuentes.