¿Cuáles son las similitudes y diferencias entre los almacenes de datos y las bases de datos?
Base de datos: Es un concepto lógico, un almacén utilizado para almacenar datos, implementado a través de un software de base de datos. La base de datos se compone de muchas tablas. Las tablas son bidimensionales y hay muchos campos en una sola tabla. Los campos se organizan en una fila y los datos se escriben en la tabla fila por fila. Las tablas de bases de datos son capaces de expresar relaciones multidimensionales en dos dimensiones. Tales como: Oracle, DB2, MySQL, Sybase, MSSQL Server, etc.
Almacén de datos: Es una actualización del concepto de base de datos. Lógicamente, no hay diferencia entre una base de datos y un almacén de datos. Ambos son lugares donde se almacenan datos a través del software de base de datos. Sin embargo, en términos de volumen de datos, el almacén de datos es mucho más grande que la base de datos. El almacén de datos se utiliza principalmente para la extracción y el análisis de datos para ayudar a los líderes a tomar decisiones.
Veamos las diferencias en las aplicaciones.
Las bases de datos empresariales están orientadas a las operaciones y sirven principalmente a productos y desarrollo empresariales. El almacén de datos está orientado al análisis y sirve principalmente a analistas. Para evaluar si un almacén de datos es bueno o no, depende de si los analistas se sienten cómodos usándolo. Por lo tanto, desde el inicio del diseño del producto, el almacén de datos siempre ha sido considerado desde el punto de vista de los analistas y está comprometido a resolver las diversas desventajas que genera el uso de datos comerciales para el análisis. Consulte ?1 para obtener más detalles, que menciona ETL y lo presenta brevemente en el siguiente bloque.
ETL, abreviatura de Extract-Transform-Load en inglés, se utiliza para describir el proceso de extracción, transformación y carga de datos desde el origen hasta el destino. El término ETL se utiliza más comúnmente en almacenes de datos, pero sus objetos no se limitan a almacenes de datos.
Explicación (se desconoce la fuente del autor)
Problemas resueltos por el almacén de datos
Estructura clara y sencilla
El almacén de datos no necesita Siga el paradigma de diseño de bases de datos, por lo que hay mucha libertad en el diseño del modelo de datos.
El modelo de datos generalmente utiliza un esquema en estrella y las tablas se dividen en tablas de hechos y tablas de dimensiones.
La tabla de hechos está ubicada en el centro de la estrella y almacena varios datos métricos que pueden describir las condiciones comerciales.
Las tablas de dimensiones rodean la tabla de hechos y se relacionan uno a uno mediante claves externas, lo que proporciona diferentes perspectivas sobre las condiciones comerciales.
El modelo estrella es fácil de usar, fácil de entender y enfocado al negocio.
Cuando hacemos análisis de datos, primero seleccionamos un tema, como analizar el estado de registro del usuario; en segundo lugar, encontramos la fuente de datos comerciales correspondiente según el tema seleccionado y luego observamos qué ángulos de análisis proporciona la fuente de datos comerciales. y finalmente Realizar análisis basados en datos.
El modelo de estrella es muy adecuado para esta idea y simplifica enormemente el proceso. Tomemos nuestro modelo actual como ejemplo.
Reutilizable y fácil de ampliar
El esquema en estrella no solo es fácil de entender y usar, sino que la tabla de dimensiones también es fácil de reutilizar y los campos de la tabla de dimensiones son sencillos. para expandirse.
Por ejemplo, la tabla de dimensiones de fecha no solo puede ser utilizada por diferentes tablas de hechos, sino que también puede reutilizarse en la misma tabla de hechos. Por ejemplo, diferentes fechas de operación en una tabla de hechos pueden crear un pedido para. un producto. Fecha, fecha de pago, fecha de envío, hora de reembolso, hora de recepción, etc.
Los campos en la tabla de dimensiones son fáciles de expandir. Siempre que la clave principal de los datos de la dimensión permanezca sin cambios, puede agregar directamente nuevo contenido de campo a la tabla de dimensiones. El nuevo contenido agregado solo afectará. la tabla de dimensiones. Además, las tablas de dimensiones suelen tener una pequeña cantidad de datos e incluso una recarga completa no lleva mucho tiempo.
Datos limpios
En el proceso ETL, los datos no limpios se eliminarán o etiquetarán, lo que los hará más cómodos de usar.
Nota: Dado que la limpieza de datos requiere el establecimiento de ciertas reglas, y el trabajo actual se centra en el modelado de datos y el diseño del sistema ETL, no hay tiempo ni energía adicionales para diseñar reglas de limpieza. Para garantizar la integridad de los datos, no se realiza ninguna limpieza en el ETL actual.
Semántica de datos/descripción unificada
Varios estados se pueden escribir directamente como valores específicos. No es necesario utilizar códigos de operación para las consultas SQL, que son más naturales y fáciles de entender.
Algunos estados combinados de uso común se pueden combinar en un campo para representarlos. Por ejemplo, en el análisis de pagos, es necesario filtrar los pedidos válidos según la combinación de estado de pago, estado del préstamo/estado de entrega. Puede configurar directamente un campo de pedido válido para simplificar las condiciones de filtrado.
La representación de datos con el mismo significado en diferentes situaciones también se puede describir de manera uniforme. Por ejemplo, la descripción de la fecha del préstamo se refiere a la fecha de envío cuando el producto es un préstamo al consumo, y cuando el producto es un préstamo en efectivo, se refiere a la fecha del préstamo al usuario. Estas dos fechas representan la fecha del préstamo, por lo que se pueden unificar, lo que también simplifica las condiciones de filtrado.
Guardar historial
El almacén de datos puede registrar cambios de estado empresarial en forma de tablas con cremallera o incluso diseñar tablas de hechos dedicadas para el registro. Mientras exista la necesidad de un análisis histórico, se podrá lograr.
Consulta de alta velocidad
El almacén de datos en sí no proporciona funcionalidad de consulta de alta velocidad. Solo por su simple estructura en estrella, tiene una ventaja de velocidad sobre consultas complejas en bases de datos comerciales. Si todavía utiliza una base de datos relacional tradicional para almacenar datos. Una vez que aumente el volumen de datos, también encontrará el problema de la consulta lenta.
Sin embargo, puede usar Hive para almacenar datos y luego usar Kylin, un motor de consultas multidimensional basado en Hive, para guardar los resultados de todos los planes de consulta posibles bajo el modelo estrella e intercambiar espacio por tiempo Para consultas de alta velocidad, el consumo de tiempo de consultas a gran escala se puede acortar a un nivel inferior a un segundo, lo que mejora en gran medida la eficiencia del trabajo.