Red de conocimiento de abogados - Derecho de sociedades - Exploración de modelos de gestión de datos no estructurados en archivos geológicos de yacimientos petrolíferos

Exploración de modelos de gestión de datos no estructurados en archivos geológicos de yacimientos petrolíferos

Li Yan

(Centro de Información de Archivos de la Sucursal de Petróleo y Gas del Sudoeste de China Petroleum & Chemical Corporation)

Resumen Este artículo se centra en los problemas existentes en los sectores no estructurados. Se analizó el problema de la gestión de datos, se analizaron las características de la gestión de datos no estructurados de los archivos geológicos en los campos de petróleo y gas del suroeste, se propuso la arquitectura técnica de la recopilación de datos, el almacenamiento de datos, la gestión de datos y la utilización de datos, y se profundizó la gestión y aplicación de datos no estructurados. analizado y resumido Con un modelo de gestión tres en uno de soluciones técnicas, modelos de gestión administrativa y servicios de datos, se ha explorado un modelo eficaz para la gestión y aplicación de datos no estructurados en archivos geológicos de yacimientos petrolíferos.

Palabras clave Almacenamiento de datos no estructurados, gestión de aplicaciones de archivos geológicos

0 Introducción

Con el desarrollo continuo de la construcción económica de mi país, los recursos de información se están convirtiendo cada vez más en una empresa O el núcleo y el alma de la organización. Esto es especialmente cierto en el caso de la industria petrolera que hace un uso intensivo de la información. En años de práctica de producción, la industria petrolera nacional ha desarrollado tecnologías y logros como la gestión integral de datos, aplicaciones de datos, estándares corporativos y estándares industriales para la mayor parte de la información, que respaldan en gran medida diversos procesos de exploración y desarrollo petrolero. Sin embargo, en comparación con las compañías petroleras extranjeras, todavía existen ciertas brechas en la colaboración, el análisis, la extracción, el intercambio, el soporte de decisiones y la computación en clúster de recursos de información. El punto central de esto es cómo procesar datos no estructurados y utilizarlos de manera eficiente.

Para las empresas típicas de la industria petrolera, los recursos de información existen en varios soportes, como libros o papeles en papel, documentos PDF, archivos de imágenes gráficas, documentos escaneados, libros electrónicos, CD, etc. La información puede eventualmente convertirse en datos no estructurados. La gestión de información no estructurada debe afrontar los siguientes problemas:

Alta capacidad: Los datos no estructurados suelen ser uno o más documentos, gráficos, multimedia, etc., con una capacidad de 100M o 1Gb.

Isomerización: las fuentes, los formatos y los soportes de los datos no estructurados son todos diferentes, lo que dificulta la gestión y recuperación unificadas.

Complejidad: Debido a su gran volumen y características heterogéneas, los datos no estructurados son muy complejos en términos de almacenamiento, recuperación, filtrado, extracción, análisis y minería.

Reprocesamiento: Los datos no estructurados tienen una gran cantidad de necesidades personalizadas en términos de personalización, intercambio y cifrado. Las diferencias y diversidad de formatos también hacen que sea muy difícil reprocesar estos datos.

Este artículo analiza y estudia estos problemas en detalle y explora un método factible y una solución razonable basada en el almacenamiento y utilización de datos no estructurados en archivos geológicos de campos de petróleo y gas.

1 Arquitectura técnica de gestión de datos no estructurados

Los datos no estructurados, a diferencia de los datos estructurados, se refieren a datos que no es conveniente representarlos mediante tablas lógicas bidimensionales en la base de datos. Los datos no estructurados incluyen todos los formatos de documentos de Office, texto, imágenes, XML, HTML, diversos informes, imágenes e información de audio/vídeo, etc.

Al configurar e integrar productos de software y hardware, Southwest Oil and Gas Field ha diseñado e implementado una arquitectura técnica adecuada para el almacenamiento y utilización de datos no estructurados, de menor a mayor, son adquisición de datos (preprocesamiento). , almacenamiento de datos, gestión de datos, uso de datos (Figura 1).

Figura 1 Diagrama de arquitectura técnica del almacenamiento y utilización de datos no estructurados

La recopilación de datos es el proceso más básico de la gestión de datos no estructurados, que es la transformación de datos originales o de primera mano. paso en la conversión de información digital en información procesable.

El almacenamiento de datos no estructurados consiste en almacenar documentos, dibujos y monografías generados en la investigación, producción y gestión científica de exploración en bases de datos o servidores de archivos. Generalmente se utilizan dos métodos: uno es convertir los datos no estructurados en un flujo binario, almacenarlos en una base de datos relacional y registrar información auxiliar relevante (personalizable) y el otro es guardar los datos no estructurados en el servidor de directorio relacional; base de datos, solo se registran (personalizables) la información de índice y la información auxiliar en el servidor de directorio. La Figura 2 ilustra estos dos métodos.

Figura 2 Diagrama esquemático del almacenamiento de datos no estructurados

La gestión de datos es el reprocesamiento de información estructurada y almacenada con éxito, incluida la clasificación, recuperación y metadatos de datos, estandarización, estadísticas y fusión.

El uso de datos es el objetivo final de la gestión de datos no estructurados. Si la información no se puede comunicar y compartir, no importa cuánta información genere una organización, inevitablemente se convertirá en una isla de información. La adopción de una arquitectura basada en .net y Web Service proporciona garantía técnica para el intercambio y colaboración de información.

2 Análisis de aplicaciones de gestión de datos no estructurados

The Southwest Oil and Gas Field desarrolló y estableció el sistema de plataforma de gestión de datos geológicos de Southwest Oil and Gas Field basado en la arquitectura técnica de gestión de datos no estructurados. La gestión realiza seis funciones principales: clasificación de datos no estructurados, metadatos, recuperación de texto completo basada en el servidor de índice, indexación, gestión de tareas y gestión del conocimiento (Tabla 1).

Tabla 1 Tabla estadística de funciones de gestión de datos no estructurados del campo de petróleo y gas del suroeste de Sinopec

2.1 Arquitectura funcional de la gestión de datos no estructurados

La plataforma de gestión de datos geológicos de Southwest Oil and Gas Field es un completo sistema de gestión de datos modelo B/S y un sistema de publicación de información. El sistema de gestión de datos geológicos incluye gestión de usuarios, gestión de organizaciones, gestión de autoridades, gestión de registros, gestión de datos, carga de datos, recopilación de datos, revisión de datos. metadatos y recuperación de datos. El sistema de divulgación de información incluye el préstamo de material, la carga de material, la navegación en línea, la recuperación de material y la descarga.

Además de completar las funciones de gestión de datos y divulgación de información, también agrega elementos corporativos propios a la plataforma según sus propios métodos de trabajo, tales como: personalización de atributos de datos, selección de funciones de usuario, préstamo. proceso y La integración de procesos de archivo y registro, la compresión y cifrado de cargas y descargas, la vinculación automática de usuarios y soluciones de seguridad, la consulta de nueva información, la consulta e impresión de informes personalizados, la liberación de información recordatoria, etc. La arquitectura funcional principal se muestra en la Figura 3.

Figura 3 Diagrama de arquitectura funcional

2.2 Características principales de la gestión de datos no estructurados de datos geológicos en campos de petróleo y gas del suroeste

2.2.1 Empaquetado y estructura de los datos geológicos datos y documentos

En términos de almacenamiento de datos, utiliza componentes de capa de acceso a datos basados ​​en servicios web. Al modificar la configuración, puede conectarse a varias bases de datos, como la base de datos Oracle 9 i y la base de datos SQL Server 2000. Los usuarios pueden elegir según sus necesidades. El empaquetado y estructuración de datos y documentos geológicos se refiere al método de empaquetado binario de "cuerpo de datos-cuerpo de archivo" utilizado en la recopilación y el almacenamiento de datos. Todos los tipos de archivos o colecciones de archivos se pueden definir como cuerpos de datos y los metadatos se utilizan para describir los cuerpos de datos. Lógicamente, un cuerpo de datos es una colección de una o más entidades de archivo. La apariencia y el comportamiento de varios tipos de datos no estructurados facilitarán el intercambio y la colaboración de datos en el futuro. La Figura 4 muestra esta relación binaria.

Figura 4 Método de empaquetado binario de datos no estructurados

2.2.2 Gestión de tareas

Los datos del documento se recopilan y envían, y el cuerpo de los datos y la información de metadatos. se escribirá en una base de datos relacional (actualmente compatible con Oracle), y el cuerpo del archivo se cargará automáticamente en un servidor de archivos dedicado a través de una tarea, y el servicio de índice creará automáticamente un índice para este cuerpo de archivo. El método de almacenamiento predeterminado de los documentos entrantes es a través de archivos de disco. Si necesita guardar documentos entrantes en una base de datos relacional en forma de flujo binario, debe implementar y configurar un servicio de persistencia de datos. La Figura 5 proporciona una descripción intuitiva del proceso de recopilación y almacenamiento de documentos.

Figura 5 Proceso de gestión de tareas para la recopilación y almacenamiento de documentos

La gestión de tareas es el proceso basado en tareas de carga y descarga.

Para hacer frente a los requisitos de recopilación de materiales documentales, las tareas de carga se utilizan para gestionar el proceso de carga. Todo el proceso se puede completar automáticamente en segundo plano a través de los servicios, sin ningún impacto en la operación del usuario y evitando la necesidad de que los usuarios lo hagan. Dedique mucho tiempo al proceso tradicional de recopilación de archivos esperando la carga para garantizar la integridad de los datos, y el proceso de carga admite la reanudación del punto de interrupción. El administrador de tareas de carga intuitivo almacena los documentos que deben cargarse en la cola de tareas. Los usuarios pueden detener o iniciar la tarea de carga en cualquier momento, minimizando los inconvenientes causados ​​por las condiciones de la red o los problemas de capacidad.

2.2.3 Definición y descripción de metadatos

En el proceso de recopilación de datos, se pueden definir metadatos para archivos. Los metadatos del archivo se heredan de los atributos del archivo al que pertenece. pertenece, de modo que una vez que Si un archivo se clasifica en una determinada categoría de datos, puede configurar la información extendida de este archivo, por otro lado, el formato de metadatos de la clasificación puede convertirse en la plantilla de metadatos de este tipo de archivo; El formato de metadatos de archivos similares es el mismo, lo que resulta conveniente para llevar a cabo el intercambio de datos de información similar. La Figura 6 ilustra la relación entre archivos de casos (tipos de datos), archivos y metadatos.

Los metadatos son muy importantes como etiqueta para datos no estructurados. La recuperación y precisión de la función de búsqueda del sistema se basan principalmente en si la definición de metadatos es razonable y precisa, por lo que el sistema debe proporcionarlos. las funciones de modificación y expansión dinámica de la información de metadatos Solo proporcionando las funciones anteriores la descripción de la información del sistema puede ser precisa y rica, lo que también falta en muchos sistemas de información similares.

Figura 6 La relación entre expedientes, documentos y metadatos

Según el estándar empresarial Sinopec "Q/SH0167-2008 Reglas para el archivo de datos geológicos para la exploración y el desarrollo de petróleo y gas natural ", de acuerdo con las características de gestión de los datos geológicos, combinado con la situación real de los campos de petróleo y gas del suroeste, análisis de la demanda y aclaración de diversos aspectos (gestión del sistema, carga de datos y navegación en línea, consulta de datos, préstamo y descarga de datos, datos destrucción, compresión y cifrado de datos, revisión de datos, recepción y distribución de datos) La función, los metadatos del archivo, los metadatos del archivo y los metadatos extendidos empresariales de los datos geológicos se han investigado y definido completamente, y se han definido diferentes atributos de diferentes categorías de datos geológicos. para facilitar la consulta y el préstamo. Por ejemplo, Tabla 2.

Tabla 2 Tabla de atributos de metadatos de datos geológicos

2.2.4 Recuperación de texto completo basada en el servidor de índice de archivos

Se utilizan dos métodos para recuperar datos no estructurados Método: recuperación precisa basada en atributos y palabras clave y recuperación de texto completo basada en el contenido. El proceso de recuperación de texto completo adopta el proceso de envío-construcción de índice-búsqueda-organización de resultados-devolución. Los datos no estructurados se envían al servidor de archivos y el programa de servicio de índice crea o actualiza el archivo de índice (proceso automático). Cuando el usuario emite una solicitud de recuperación, los resultados que contienen el contenido solicitado se obtienen a través del motor de búsqueda y se devuelven al servidor de archivos. solicitante. El programa del servicio de indexación puede extraer automáticamente contenido de texto de los documentos archivados (Figura 7).

El trabajo del programa de servicio de índice incluye: detectar cambios en el directorio de archivos, actualizar el índice correspondiente si el archivo se carga, mueve, modifica o elimina, optimizando periódicamente el índice para todo el rango del archivo; directorio para garantizar la indexación En términos de efectividad y eficiencia generales, este trabajo puede ser completado de forma automática o manual por el usuario.

En base a esto, Southwest Oil and Gas Field proporciona una variedad de consultas lógicas, como consultas difusas, consultas de texto completo, consultas precisas, así como exploración de directorios y exploración de texto completo. Como se muestra en la Figura 8.

Figura 7 Proceso de recuperación de texto completo

Figura 8 Captura de pantalla de recuperación de consultas

2.3 Efecto de la aplicación de gestión no estructurada de Southwest Oil and Gas Field

Campo de petróleo y gas del suroeste Desde 2005, la construcción de datos geológicos no estructurados se ha iniciado por completo. Después de años de esfuerzos conjuntos, se ha completado por completo la construcción de la base de datos del catálogo no estructurado de datos geológicos. Se han incluido en la base de datos los datos de elementos de diferentes tipos de datos geológicos y se realiza una extracción integral de atributos. El contenido extraído incluye tres categorías: metadatos de archivos, metadatos de archivo y metadatos extendidos empresariales, lo que proporciona una poderosa herramienta para la gestión de redes. y utilización de datos geológicos.

Al mismo tiempo, de acuerdo con la teoría de la construcción de datos no estructurados, Southwest Oil and Gas Field ha llevado a cabo activamente la construcción de una base de datos de texto completo de datos geológicos y una base de datos de gráficos geológicos. escaneo y clasificación de documentos históricos y gráficos, ***las cuentas se han almacenado electrónicamente en la base de datos. Hay 240.000 documentos y la capacidad total es de 2,9 T. Combinado con la base de datos del catálogo de datos geológicos de campos petroleros y gas, a través del sistema de gestión de datos geológicos, se logra la publicación completa y la aplicación integral de la red de datos no estructurados de datos geológicos.

Después del análisis estadístico, después de realizar la gestión de la red y la aplicación de datos no estructurados, la tasa de utilización anual promedio de datos geológicos en el campo de petróleo y gas del suroeste en los últimos cinco años ha alcanzado las 110.000 piezas/ año, que es 4,5 veces más que antes de su finalización, mejoró efectivamente el nivel de gestión y uso de los datos de archivos geológicos, ahorró costos y logró buenos beneficios económicos.

3 Explorando el modelo de gestión de datos no estructurados

Como manifestación de los recursos de información empresarial, la gestión de datos no estructurados no es solo un sistema técnico o un sistema, sino que debería ser un enorme proyecto del sistema. Basado en muchos años de experiencia en la construcción de informatización y gestión de datos no estructurados de archivos geológicos en campos de petróleo y gas del suroeste, el autor cree que el modelo de gestión trinitario de "soluciones técnicas, modelos de gestión administrativa y servicios de datos" es un modelo eficaz para datos no estructurados. gestión en campos de petróleo y gas (como se muestra en la figura) que se muestra en 9).

Figura 9 Diagrama del modelo de gestión de datos no estructurados

En primer lugar, el modelo de gestión administrativa es la garantía organizativa para toda la gestión de datos no estructurados, compuesto por un equipo directivo estable y una viabilidad completa. estudio, necesidades de gestión claras, evaluación de riesgos adecuada y composición pragmática de implementación organizacional. Un buen modelo de gestión administrativa puede asegurar que toda la organización trabaje en conjunto para promover la construcción del sistema de información. Se puede decir que determina el éxito o el fracaso de toda la construcción del sistema.

Los servicios de datos son la base para la gestión de la información de datos no estructurados. Se refiere al proceso de recopilación, creación, procesamiento, transmisión, organización, clasificación y estandarización de datos no estructurados. Al mismo tiempo, también es un lubricante entre usuarios y desarrolladores. En primer lugar, puede manejar una gran cantidad de trabajo aburrido de clasificación y estandarización de datos para los usuarios de acuerdo con sus necesidades. el software e insta a los desarrolladores a realizar modificaciones. A través de los servicios de datos, podemos garantizar eficazmente el funcionamiento eficiente de las empresas de los usuarios, la mejora continua de los sistemas técnicos y maximizar la eficacia de la construcción de sistemas de información.

Las soluciones técnicas proporcionan plataformas de software y hardware para la gestión de datos no estructurados desde el nivel del producto, y son un sistema técnico completo desde la recopilación de datos hasta la aplicación. Incluyendo: un sistema de almacenamiento de información basado en una variedad de bases de datos relacionales a gran escala, un servidor de archivos basado en datos no estructurados basados ​​en contenido, un servidor de índice que proporciona recuperación de texto completo y recuperación relacionada, un formato de intercambio de archivos flexible basado en metadatos y la personalización personalizada y las políticas de permisos flexibles y las sólidas políticas de seguridad son el núcleo del almacenamiento y la utilización de datos no estructurados.

4 Conclusión

El almacenamiento y la aplicación de datos no estructurados son una parte importante del sistema de soporte de decisiones de exploración de cada rama de campo petrolero. Después del desarrollo exitoso de esta parte, puede proporcionar lo necesario. información para el apoyo a las decisiones. Los recursos de información proporcionan una plataforma básica. Al mismo tiempo, la aplicación de datos no estructurados basada en esta plataforma puede servir directamente al sistema de soporte de decisiones. Mediante la aplicación de tecnologías y conceptos como colaboración de información, recuperación de archivos, minería de datos y gestión del conocimiento, puede acortar o incluso acortar el tiempo. construcción de informatización de campos de petróleo y gas Alcanzar el nivel avanzado internacional y dar un gran paso hacia la digitalización de la exploración, la adquisición de datos, la colaboración laboral y la toma de decisiones científicas, generando así enormes beneficios económicos y sociales.

Referencias

[1] Zhang Zhigang, Yao Wei. Estudio preliminar sobre el problema del almacenamiento de datos masivos no estructurados [J].

[2]Wu Guangjun, Wang Shupeng, Chen Ming, Li Chao. Sistema masivo de recuperación y almacenamiento de datos estructurados [J].