Arquitectura del sistema de big data

Transferir a: /a/227887005_487103

Aunque el trabajo de análisis de datos está oculto detrás del sistema empresarial, juega un papel muy importante. Los resultados del análisis de datos juegan un papel decisivo en la decisión. -fabricación y desarrollo empresarial. Con el desarrollo de la tecnología de big data, términos apropiados como minería de datos y exploración de datos se han vuelto cada vez más expuestos. Sin embargo, antes de que se hicieran populares los sistemas de análisis de big data similares a la serie Hadoop, el trabajo de análisis de datos había experimentado un desarrollo considerable, especialmente el análisis de datos. Basado en sistemas de BI ya tiene soluciones técnicas y ecosistemas muy maduros y estables. Para los sistemas de BI, el diagrama de arquitectura general es el siguiente:

En general, el enfoque actual en Hadoop La arquitectura de big data del sistema probablemente. Tiene los siguientes tipos:

Arquitectura tradicional de big data

La arquitectura Lambda es una arquitectura importante en el sistema de big data. La mayoría de las arquitecturas son básicamente arquitectura Lambda o se basan en la arquitectura de sus variantes. El canal de datos de Lambda se divide en dos ramas: transmisión en tiempo real y fuera de línea. La transmisión en tiempo real sigue la arquitectura de transmisión para garantizar su naturaleza en tiempo real, mientras que sin conexión utiliza principalmente el procesamiento por lotes para garantizar la coherencia final. ¿Qué significa? Para garantizar la efectividad, el procesamiento del canal de transmisión utiliza el cálculo incremental como referencia auxiliar principal, mientras que la capa de procesamiento por lotes realiza cálculos completos sobre los datos para garantizar su coherencia final. Por lo tanto, la capa más externa de Lambda tiene una capa en tiempo real y una capa en tiempo real. Capa fuera de línea. Acción de fusión, esta acción es una acción muy importante en Lambda

Ventajas: Tanto en tiempo real como fuera de línea, cubre muy bien escenarios de análisis de datos.

Desventajas: aunque la capa fuera de línea y la transmisión en tiempo real enfrentan escenarios diferentes, su lógica de procesamiento interno es la misma, por lo que hay muchos honores y módulos duplicados.

Escenarios aplicables: situaciones en las que existen requisitos tanto en tiempo real como fuera de línea.

Arquitectura Kappa

Arquitectura Unifield

Resumen

Las arquitecturas anteriores son las arquitecturas más utilizadas en el campo del procesamiento de datos. Por supuesto que hay muchas otras arquitecturas, pero las ideas son más o menos similares. El campo de los datos y el aprendizaje automático seguirá desarrollándose y las ideas anteriores pueden eventualmente quedar obsoletas.