Red de conocimiento del abogados - Ley de patentes - ¿Cuáles son los pasos básicos del desarrollo de BI?

¿Cuáles son los pasos básicos del desarrollo de BI?

Especialmente diseñado para admitir el acceso a datos sin procesar para usuarios novatos, excluyendo las herramientas de generación de informes terminados para profesionales 2. Herramientas OLAP. Proporciona un entorno de gestión de datos multidimensional y sus aplicaciones típicas son el modelado de problemas empresariales y el análisis de datos empresariales. OLAP también se llama análisis multidimensional 3. Software de minería de datos (minería de datos). Utilice tecnologías como redes neuronales e inducción de reglas para descubrir relaciones entre datos y hacer inferencias basadas en datos. 4. Productos Data Mart (Data Mart) y Data Warehouse (Data Warehouse). Incluye software preconfigurado para conversión, gestión y almacenamiento de datos, y suele incluir algunos modelos de negocio, como modelos de análisis financiero. 5. Sistema de información ejecutiva (EIS, Sistema de información ejecutiva) Esta definición debería ser relativamente académica y la mayoría de los clientes no la entenderán. De hecho, BI en términos sencillos significa recopilar información relevante y analizarla para ayudarle a tomar decisiones. Los sistemas de BI más exitosos utilizan tecnología de almacenamiento de datos. Luego, veamos qué es un almacén de datos: Almacén de datos Un almacén de datos es un almacén de datos de recopilación de datos orientado a temas, integrado, relacionado con el tiempo y no modificable en la gestión y toma de decisiones empresariales. puede abreviarse como DW. La definición propuesta por Bill Inmon, el padre del almacén de datos, en su libro de 1991 "Building the Data Warehouse" es ampliamente aceptada: el almacén de datos es un almacén orientado a temas (Subject Oriented), integrado (Integrated) y relativamente estable (No volátil). ), recopilación de datos que reflejan cambios históricos (Variante de tiempo), utilizados para respaldar las decisiones de gestión (Soporte a la toma de decisiones). ◆Orientado a temas: la organización de datos de la base de datos operativa está orientada a tareas de procesamiento de transacciones, y cada sistema comercial está separado entre sí, mientras que los datos en el almacén de datos se organizan según ciertas áreas temáticas. ◆ Integrado: los datos en el almacén de datos se obtienen mediante procesamiento, resumen y organización sistemáticos basados ​​​​en la extracción y limpieza de los datos originales dispersos de la base de datos. Se deben eliminar las inconsistencias en los datos de origen para garantizar que la información en el almacén de datos. mensaje coherente y amplio sobre toda la empresa. ◆Relativamente estable: los datos en el almacén de datos se utilizan principalmente para la toma de decisiones y el análisis corporativos. Las operaciones de datos involucradas son principalmente consultas de datos. Una vez que ciertos datos ingresan al almacén de datos, generalmente se retendrán durante mucho tiempo. Este es generalmente el caso en el almacén de datos. Hay una gran cantidad de operaciones de consulta, pero muy pocas operaciones de modificación y eliminación. Por lo general, solo se requieren cargas y actualizaciones periódicas. ◆Reflejar cambios históricos: los datos en el almacén de datos generalmente contienen información histórica. El sistema registra la información de la empresa desde un cierto punto en el pasado (como el momento en que se comenzó a aplicar el almacén de datos) hasta el presente. A través de esta información, se puede analizar la empresa. Realizar análisis cuantitativos y pronósticos del historial de desarrollo y tendencias futuras. El almacenamiento de datos es un proceso, no un proyecto. El sistema de almacén de datos es una plataforma que proporciona información. Obtiene datos del sistema de procesamiento empresarial, organiza los datos principalmente utilizando un esquema de estrella y un modelo de copo de nieve y proporciona a los usuarios diversos medios para obtener información y conocimiento de los datos. En términos de estructura funcional, el sistema de almacenamiento de datos debe incluir al menos tres partes clave: adquisición de datos (Adquisición de datos), almacenamiento de datos (Almacenamiento de datos) y acceso a datos (Acceso a datos).

¿Qué es un almacén de datos? Actualmente, no existe una definición unificada del término almacén de datos. El famoso experto en almacenes de datos W.H Inmon dio la siguiente descripción en su libro "Building the Data Warehouse": El almacén de datos (Data Warehouse) es un tema. orientado Una recopilación de datos que está (orientada al sujeto), integrada (integrada), relativamente estable (no volátil) y refleja cambios históricos (variante temporal), utilizada para respaldar las decisiones de gestión. Podemos entender el concepto de almacén de datos desde dos niveles: primero, el almacén de datos se utiliza para apoyar la toma de decisiones y está orientado al procesamiento de datos analíticos. Es diferente de la base de datos operativa existente en la empresa; Una base de datos para múltiples sistemas heterogéneos. Las fuentes de datos se integran de manera efectiva. Después de la integración, se reorganizan según temas e incluyen datos históricos. Los datos almacenados en el almacén de datos generalmente ya no se modifican. Según el significado del concepto de almacén de datos, el almacén de datos tiene las siguientes cuatro características: 1. Orientado al tema. La organización de datos de las bases de datos operativas está orientada a tareas de procesamiento de transacciones, y cada sistema empresarial está separado entre sí, mientras que los datos en el almacén de datos se organizan según determinadas áreas temáticas. Un tema es un concepto abstracto que se refiere a los aspectos clave que preocupan a los usuarios cuando utilizan el almacén de datos para tomar decisiones. Un tema suele estar relacionado con múltiples sistemas de información operativos. 2. Integrado. Las bases de datos operativas orientadas a transacciones suelen estar relacionadas con determinadas aplicaciones específicas. Las bases de datos son independientes entre sí y, a menudo, heterogéneas. Los datos en el almacén de datos se obtienen mediante procesamiento, resumen y organización sistemáticos basados ​​​​en la extracción y limpieza de los datos originales dispersos de la base de datos. Se deben eliminar las inconsistencias en los datos de origen para garantizar que la información en el almacén de datos sea coherente en su totalidad. información global para la empresa. 3. Relativamente estable. Los datos de las bases de datos operativas suelen actualizarse en tiempo real y los datos cambian según sea necesario. Los datos en el almacén de datos se utilizan principalmente para la toma de decisiones y el análisis corporativos. Las operaciones de datos involucradas son principalmente consultas de datos. Una vez que ciertos datos ingresan al almacén de datos, generalmente se conservarán durante mucho tiempo. generalmente hay una gran cantidad de operaciones de consulta en el almacén de datos, pero las operaciones de modificación y eliminación son raras y, por lo general, solo requieren carga y actualización periódicas. 4. Reflejar cambios históricos. La base de datos operativa se preocupa principalmente por los datos dentro de un cierto período de tiempo actual, mientras que los datos en el almacén de datos generalmente contienen información histórica. El sistema registra las distintas etapas de la empresa desde un determinado momento en el pasado (como el momento en que se produjo). se comenzó a aplicar el data warehouse) hasta la actualidad, a través de la cual se pueden realizar análisis cuantitativos y predicciones sobre el proceso de desarrollo y tendencias futuras de la empresa. La construcción del almacén de datos empresariales se basa en el sistema empresarial empresarial existente y la acumulación de grandes cantidades de datos comerciales. El almacén de datos no es un concepto estático. Sólo cuando la información se proporciona a los usuarios que la necesitan de manera oportuna para que puedan tomar decisiones para mejorar sus operaciones comerciales, la información puede desempeñar un papel y ser significativa. La tarea fundamental del almacén de datos es organizar, resumir y reorganizar la información y proporcionarla a los tomadores de decisiones de gestión correspondientes en el momento oportuno. Por lo tanto, desde una perspectiva de la industria, la construcción de un almacén de datos es un proyecto y un proceso. Todo el sistema de almacén de datos es una arquitectura que contiene cuatro niveles, como se muestra en la siguiente figura. Arquitectura del sistema de almacenamiento de datos ·Fuente de datos: Es la base del sistema de almacenamiento de datos y la fuente de datos de todo el sistema. Suele incluir información interna e información externa de la empresa. La información interna incluye varios datos de procesamiento comercial y varios datos de documentos almacenados en RDBMS. La información externa incluye diversas leyes y regulaciones, información de mercado, información de la competencia, etc. ·Almacenamiento y gestión de datos: es el núcleo de todo el sistema de almacenamiento de datos. La verdadera clave de un almacén de datos es el almacenamiento y la gestión de datos. El método de organización y gestión del almacén de datos determina que sea diferente a la base de datos tradicional, y también determina su representación de datos externos. Para decidir qué productos y tecnologías utilizar para construir el núcleo del almacén de datos, es necesario analizar las características técnicas del almacén de datos. Extraiga, limpie e integre eficazmente datos de sistemas empresariales existentes y organícelos según temas.

Los almacenes de datos se pueden dividir en almacenes de datos de nivel empresarial y almacenes de datos de nivel departamental (a menudo llamados data marts) según la cobertura de datos. ·Servidor OLAP: integre eficazmente los datos necesarios para el análisis y organícelos según modelos multidimensionales para realizar análisis de múltiples ángulos y niveles y descubrir tendencias. Su implementación específica se puede dividir en: ROLAP, MOLAP y HOLAP. Los datos básicos y agregados de ROLAP se almacenan en RDBMS; los datos básicos y agregados de MOLAP se almacenan en bases de datos multidimensionales; los datos básicos de HOLAP se almacenan en RDBMS y los datos agregados se almacenan en bases de datos multidimensionales. ·Herramientas front-end: incluyen principalmente varias herramientas de informes, herramientas de consulta, herramientas de análisis de datos, herramientas de minería de datos, minería de datos y diversas herramientas de desarrollo de aplicaciones basadas en almacenes de datos o mercados de datos. Entre ellas, las herramientas de análisis de datos están dirigidas principalmente a servidores OLAP, mientras que las herramientas de informes y de minería de datos están dirigidas principalmente a almacenes de datos. En la actualidad, no existe una definición unificada del término almacén de datos. El famoso experto en almacenes de datos W.H. Inmon dio la siguiente descripción en su libro "Building the Data Warehouse": El almacén de datos está orientado al sujeto (Subject Oriented). ), recopilación de datos integrada (Integrar), relativamente estable (No volátil) y que refleja los cambios históricos (Variante de tiempo), utilizada para respaldar las decisiones de gestión. Podemos entender el concepto de almacén de datos desde dos niveles: primero, el almacén de datos se utiliza para apoyar la toma de decisiones y está orientado al procesamiento de datos analíticos. Es diferente de la base de datos operativa existente en la empresa; Una base de datos para múltiples sistemas heterogéneos. Las fuentes de datos se integran de manera efectiva. Después de la integración, se reorganizan según temas e incluyen datos históricos. Los datos almacenados en el almacén de datos generalmente ya no se modifican. Los componentes del almacén de datos multidimensional La base de datos del almacén de datos es el núcleo de todo el entorno del almacén de datos. Es el lugar donde se almacenan los datos y proporciona soporte para la recuperación de datos. En comparación con las bases de datos manipulativas, sus características destacadas son la compatibilidad con datos masivos y la tecnología de recuperación rápida. Las herramientas de extracción de datos extraen datos de varios métodos de almacenamiento, realizan la transformación y organización necesarias y luego los almacenan en el almacén de datos. La capacidad de acceder a varios métodos de almacenamiento de datos es la clave para las herramientas de extracción de datos. Debería poder generar programas COBOL, lenguaje de control de trabajos (JCL) MVS, scripts UNIX y declaraciones SQL para acceder a diferentes datos. La transformación de datos incluye eliminar segmentos de datos que no tienen sentido para las aplicaciones de toma de decisiones; convertirlos en nombres y definiciones de datos unificados; calcular estadísticas y datos derivados; Metadatos Los metadatos son datos que describen la estructura y los métodos de creación de datos en el almacén de datos. Se puede dividir en dos categorías según diferentes usos, metadatos técnicos y metadatos comerciales. Los metadatos técnicos son los datos utilizados por los diseñadores y administradores de almacenes de datos para desarrollar y administrar diariamente los almacenes de datos. Incluyendo: información de origen de datos; descripción de la transformación de datos; definición de objetos y estructuras de datos en el almacén de datos; reglas para la limpieza y actualización de datos; mapeo de datos de origen a datos de destino, historial de respaldo de datos e importación de datos; registros, historial de divulgación de información, etc. Los metadatos comerciales describen los datos en el almacén de datos desde una perspectiva comercial. Incluyendo: descripción de temas comerciales, datos incluidos, consultas e informes; proporciona un directorio de información (directorio de información) para acceder al almacén de datos. Este directorio describe de manera integral qué datos hay en el almacén de datos, cómo se obtuvieron y cómo. para acceder a estos datos. Es el centro de operación y mantenimiento del almacén de datos. El servidor del almacén de datos lo utiliza para almacenar y actualizar datos, y los usuarios lo utilizan para comprenderlos y acceder a ellos. Las herramientas de acceso proporcionan medios para que los usuarios accedan al almacén de datos. Hay herramientas de consulta y generación de informes de datos; herramientas de desarrollo de aplicaciones; herramientas de análisis en línea (OLAP) y herramientas de extracción de datos;

Los data marts (DataMarts) son una parte de datos que son independientes del almacén de datos para fines o ámbitos de aplicación específicos. También pueden denominarse datos de departamento o datos de asunto (área temática). En el proceso de implementación del almacén de datos, a menudo se puede comenzar con el centro de datos de un departamento y luego utilizar varios centros de datos para formar un almacén de datos completo. Lo que hay que tener en cuenta es que al implementar diferentes mercados de datos, las definiciones de campos con el mismo significado deben ser consistentes, para que no cause grandes problemas al implementar el almacén de datos en el futuro. Gestión de almacenes de datos: gestión de seguridad y privilegios; seguimiento de actualizaciones de datos; gestión y actualización de metadatos; gestión de copias de seguridad y almacenamiento de datos; . Sistema de publicación de información: envía datos en el almacén de datos u otros datos relacionados a diferentes ubicaciones o usuarios. El sistema de publicación de información basado en la web es la forma más eficaz de abordar el acceso de múltiples usuarios. Nueve pasos para diseñar un almacén de datos 1) Elegir el tema apropiado (el área del problema a resolver) 2) Definir claramente la tabla de hechos 3) Determinar y confirmar las dimensiones 4) Elegir los hechos 5) Calcular y almacenar los datos derivados segmentos en la tabla de hechos 6) Completar las tablas de dimensiones 7) elegir la duración de la base de datos 8) la necesidad de realizar un seguimiento de las dimensiones que cambian lentamente 9) Determinar la prioridad de consulta y el modo de consulta. Plataforma de hardware técnica: la capacidad del disco duro del almacén de datos suele ser de 2 a 3 veces la capacidad del disco duro de la base de datos operativa. Generalmente, los mainframes tienen un rendimiento y estabilidad más confiables y se integran fácilmente con sistemas heredados de PC o servidores UNIX, son más flexibles, fáciles de operar y brindan la capacidad de generar solicitudes de consulta dinámicamente. Preguntas a considerar al seleccionar una plataforma de hardware: ¿Proporciona rendimiento de E/S paralelo? ¿Cómo es el soporte para múltiples CPU? DBMS de almacén de datos: su capacidad para almacenar grandes cantidades de datos, rendimiento de consultas y soporte para procesamiento paralelo. Estructura de la red: la implementación del almacén de datos generará una gran cantidad de comunicación de datos en esa parte del segmento de la red. ¿Requiere mejoras en la estructura de la red? Los pasos para implementar un almacén de datos son 1) Recopilar y analizar los requisitos comerciales 2) Establecer un modelo de datos y un diseño físico del almacén de datos 3) Definir fuentes de datos 4) Seleccionar la tecnología y la plataforma del almacén de datos 5) Extraer, purificar y convertir datos al almacén de datos 6) Seleccionar herramientas de acceso y generación de informes 7) Seleccionar software de conexión a base de datos 8) Seleccionar software de análisis y presentación de datos 9) Actualizar el almacén de datos Extracción, limpieza, conversión y migración de datos 1) Las herramientas de conversión de datos deben poder extraer datos de varios Leer datos de diferentes fuentes de datos. 2) Admite archivos planos, archivos de índice y DBMS heredados. 3) Capacidad para integrar datos utilizando diferentes tipos de fuentes de datos como entrada. 4) Tener una interfaz de acceso a datos estandarizada 5) Es mejor tener la capacidad de leer datos del diccionario de datos 6) El código generado por la herramienta debe poder mantenerse en el entorno de desarrollo 7) Solo se pueden almacenar datos que cumplan con las condiciones especificadas extraído y la fuente La parte especificada de los datos 8) puede realizar conversión de tipo de datos y conversión de juego de caracteres durante la extracción 9) puede calcular y generar campos derivados durante el proceso de extracción 10) puede ser llamado automáticamente por el sistema de gestión del almacén de datos para realizar La extracción de datos funciona de forma regular, o puede Los resultados generan archivos planos 11) La vitalidad y las capacidades de soporte del producto del proveedor de software deben evaluarse cuidadosamente. Principales proveedores de herramientas de extracción de datos: Prismsolutions.Carleton'sPASSPORT.InformationBuildersInc.'s EDA/. SQL.SASInstituteInc. Qué aporta el data warehouse a cada empresa. Cada empresa tiene sus propios datos. Además, muchas empresas almacenan una gran cantidad de datos en sus sistemas informáticos, registrando una gran cantidad de información en los procesos de compras, ventas y producción de la empresa, así como información de los clientes.

El defecto de la segunda visión es que no logra el objetivo principal de crear un almacén de datos: unificar todos los datos de la empresa en un formato coherente. Los datos de los sistemas de procesamiento de transacciones existentes suelen ser inconsistentes y redundantes.