¿Cuáles son las plataformas de recopilación de big data?
En respuesta a este problema, primero comprendamos el proceso de plataforma de servicios proporcionado por la plataforma de recopilación de big data, que incluye:
1.
2. La plataforma almacena los datos recopilados.
3. Luego analiza y procesa los datos.
4. Finalmente, los datos se muestran visualmente, incluidos informes y datos de seguimiento.
Una excelente plataforma de big data debe poder mostrar un rendimiento excelente en métodos de análisis de big data, programación de big data, almacén de big data, casos de big data, inteligencia artificial y minería de datos.
Ahora recomiendemos varias plataformas de big data excelentes y convencionales:
1. Apache Flume
Código abierto de Apache, alta confiabilidad, alta escalabilidad, un sistema de recopilación de datos. que es fácil de administrar y admite la expansión del cliente. Es un sistema distribuido, confiable y disponible. Es un entorno de ejecución de Java que se utiliza para recopilar, agregar y mover de manera efectiva grandes cantidades de datos de registro de una gran cantidad de fuentes diferentes a un sistema centralizado. almacenamiento de datos.
Las funciones principales son las siguientes:
1. Recopilación de registros: varios remitentes de datos se personalizan en el sistema de registro para recopilar datos.
2. Procesamiento de datos: Proporciona la capacidad de procesar datos de forma sencilla y escribir en varios destinatarios de datos (personalizable). Proporciona servicios desde consola (consola), RPC (Thrift-RPC), la capacidad de recopilar datos. de fuentes de datos como texto (archivo), tail (UNIXtail), syslog (sistema de registro syslog, compatible con TCP y UDP), exec (ejecución de comandos) y otras fuentes de datos.
2. Fluentd
Fluentd es un recopilador de datos de código abierto para una capa de registro unificada. Fluentd le permite unificar la recopilación y el uso de datos para un mejor uso y comprensión de sus datos. Fluentd es uno de los proyectos miembros de Cloud Native Computing Foundation (CNCF) y sigue el acuerdo Apache2License. FLuentd es muy escalable y los clientes pueden personalizar la entrada/búfer/salida (Ruby) ellos mismos.
Sitio web oficial:
artículos/quickstart
Las funciones principales son:
1 Entrada: Responsable de recibir datos o rastrear activamente. datos. Admite syslog, http, filetail, etc.
2. Buffer: Responsable del rendimiento y confiabilidad de la adquisición de datos. También existen diferentes tipos de Buffers como archivos o memoria que se pueden configurar.
3. Salida: Responsable de enviar datos a destinos como archivos, AWSS3 u otros Fluentd.
3. Chukwa
Chukwa puede recopilar varios tipos de datos en archivos adecuados para el procesamiento de Hadoop y guardarlos en HDFS para que Hadoop realice varias operaciones de MapReduce. El propio Chukwa también proporciona muchas funciones integradas para ayudarnos a recopilar y organizar datos.
1. Supervise los cambios en los archivos de registro en tiempo real en cada nodo de la aplicación y escriba el contenido del archivo incremental en HDFS. Al mismo tiempo, los datos también se pueden deduplicar, ordenar, etc.
2. Monitorear los datos de Socket y ejecutar periódicamente los comandos que especificamos para obtener los datos de salida.
Existen muchas plataformas excelentes hasta ahora, solo leyendo los documentos oficiales los desarrolladores pueden tener una comprensión profunda y elegir la plataforma que necesitan en función de las características y necesidades del proyecto.