¿Qué es Hadoop y para qué se utiliza?
Hadoop está escrito en lenguaje Java. Es un marco de código abierto que almacena datos masivos y ejecuta aplicaciones de análisis distribuido en clústeres de servidores distribuidos. Sus componentes principales son HDFS y MapReduce.
HDFS. es Un sistema de archivos distribuido presenta el servidor Namenode que almacena información de metadatos de archivos y el servidor Datanode que realmente almacena datos y realiza el almacenamiento distribuido y la lectura de datos.
MapReduce es un marco informático. La idea central de MapReduce es asignar tareas informáticas a los servidores en el clúster para su ejecución. Al dividir las tareas informáticas (computación de mapas/computación reducida) y luego realizar computación distribuida en las tareas de acuerdo con el programador de tareas (JobTracker)
En resumen, las dos partes principales de Hadoop son: HDFS (que proporciona distribución Almacenamiento masivo de datos) y MapReduce (computación distribuida), uno proporciona almacenamiento de big data y el otro proporciona computación de big data
2 ¿Cuáles son las características?
Según estadísticas de organizaciones autorizadas, se han empaquetado docenas de componentes relacionados con Hadoop. Algunos de los componentes principales se pueden resumir en una oración simple:
Lo anterior solo enumera algunos básicos. Componentes de Hadoop Solo conozco estos pocos y no sé mucho sobre los demás. La familia Hadoop es el marco básico para el procesamiento de big data. Si está interesado, puede obtener más información al respecto
.