Red de conocimiento del abogados - Cuestiones jurídicas del divorcio - El estado actual de la aplicación de Hadoop en el país y en el extranjero

El estado actual de la aplicación de Hadoop en el país y en el extranjero

Texto | Zhai Zhouwei

Este artículo está extraído del libro "Hadoop Core Technology".

Hadoop es una plataforma básica de computación en la nube eficiente y de código abierto. No solo se usa ampliamente en el campo de la computación en la nube, sino que también admite servicios de motores de búsqueda. Como sistema de infraestructura subyacente de los motores de búsqueda, Hadoop se ve cada vez más favorecido en campos como el procesamiento masivo de datos, la minería de datos, el aprendizaje automático y la informática científica. Este artículo hablará sobre el estado actual de la aplicación de hadoop en el país y en el extranjero.

El estado actual de la aplicación de Hadoop en países extranjeros

1. The American Yahoo Company (que proporciona servicios de recuperación de información de Internet)

Yahoo es el mayor defensor de Hadoop. . En 2012, el número total de nodos de Yahoo Hadoop supera los 42.000 y el número de CPU centrales que ejecutan Hadoop supera los 654,38 millones. El clúster de nodo maestro único más grande tiene 4500 nodos (cada nodo es una caja de CPU de 4 núcleos de doble canal, disco de 4 × 1 TB, 16 GB de RAM). La capacidad total de almacenamiento del clúster supera los 350 PB y la cantidad de trabajos enviados cada mes supera los 654,38 millones. Más del 60% de los trabajos de Hadoop en Pig son escritos y enviados por Pig.

La aplicación Hadoop de Yahoo incluye principalmente los siguientes aspectos:

Sistema de publicidad de soporte

Análisis del comportamiento del usuario

Búsqueda de red de soporte

p>

Lectura óptica de contenidos

Anti-abuso de miembros

Contenido ágil

Recomendaciones personalizadas

Al mismo tiempo, Pig Investigar y probar el sistema Hadoop que admite grupos de nodos a muy gran escala.

2. Facebook

Facebook utiliza Hadoop para almacenar registros internos y datos multidimensionales como fuente de datos para informes, análisis y aprendizaje automático. Actualmente, el clúster de Hadoop tiene más de 1400 nodos de máquina, * * * CPU de 11 a 200 núcleos, lo que supera la capacidad de almacenamiento original de 15 PB. Cada nodo de máquina comercial está equipado con una CPU de 8 núcleos y 12 TB de almacenamiento de datos, y utiliza principalmente interfaces de programación StreamingAPI y JavaAPI. Al mismo tiempo, Facebook ha establecido un marco de almacenamiento de datos avanzado llamado Hive basado en Hadoop. Hive se ha convertido oficialmente en un proyecto de primer nivel de Apache basado en Hadoop. Además, se ha desarrollado una implementación de Fuze en HDFS.

3.A9.com

A9.com utiliza Hadoop para crear un índice de búsqueda de productos para Amazon. Utiliza principalmente herramientas StreamingAPI, C++, Perl y Python, y también utiliza Java y. StreamingAPI para analizar y manejar millones de conversaciones todos los días. El servicio de indexación proporcionado por A9.com para Amazon se ejecuta en un clúster Hadoop con aproximadamente 100 nodos.

4. Brick and Clay

Adobe utiliza principalmente Hadoop y HBase, que son los mismos que admiten la informática de servicios sociales y el almacenamiento y procesamiento de datos estructurados. Clúster de producción Hadoop-HBase de unos 30 nodos. Adobe almacena datos directa y continuamente en HBase, ejecuta el procesamiento de trabajos MapReduce con HBase como fuente de datos y luego guarda los resultados de la ejecución directamente en HBase o en un sistema externo. Del 5 de junio al 5 de octubre de 2008, Adobe implementó Hadoop y HBase en clústeres de producción.

5.CbIR

Desde abril de 2008, la empresa japonesa CBIR (recuperación de información basada en contenido, recuperación de información basada en contenido) ha utilizado Hadoop en Amazon EC2 para crear una recomendación de imagen de producto. Entorno de procesamiento de imágenes del sistema. Utilice el entorno Hadoop para generar una base de datos de origen para facilitar el acceso rápido de las aplicaciones web y utilice Hadoop para analizar la similitud del comportamiento del usuario.

6. Gráfico de datos

Datagraph utiliza principalmente Hadoop para procesar por lotes grandes cantidades de conjuntos de datos RDF, especialmente usando Hadoop para indexar datos RDF. Datagraph también utiliza Hadoop para ejecutar consultas SPARQL fuera de línea de larga duración para los clientes. Datagraph utiliza AmazonS3 y Cassandra para almacenar archivos de entrada y salida de datos RDF y desarrolló un marco Ruby basado en MapReduce-RDF Grid para procesar datos RDF.

Datagraph utiliza principalmente Ruby, RDF.rb y el marco RDFgrid de desarrollo propio para procesar datos RDF, y utiliza principalmente la interfaz HadoopStreaming.

7. eBay

Un clúster único es un clúster con más de 532 nodos, un solo nodo tiene una CPU de 8 núcleos y la capacidad de almacenamiento supera los 5,3 PB. La interfaz Java de MapReduce, Pig y Hive se utilizan ampliamente para procesar datos a gran escala, y HBase también se utiliza para la optimización de búsquedas y la investigación.

8. International Business Machines Corporation

IBM Blue Cloud también utiliza Hadoop para construir infraestructura en la nube. Las tecnologías utilizadas por IBM Blue Cloud incluyen: imágenes del sistema operativo Linux virtualizadas a través de Xen y PowerVM y programación de cargas de trabajo paralelas Hadoop, y ha lanzado su propia distribución Hadoop y soluciones de big data.

9.Última.Fm

Última. Fm se utiliza principalmente para cálculos de gráficos, solicitudes de patentes, análisis de registros, pruebas A/B, fusión de conjuntos de datos, etc. Hadoop también se utiliza para el análisis de características de audio a gran escala de más de un millón de pistas.

Los nodos tienen más de 100 máquinas y los nodos del clúster están configurados con Xeon l 5520 @ 2,27 GHz l 5630 @ 2,13 GHz de doble núcleo, 24 GB de memoria y 8 TB (4×2 TB) de almacenamiento.

10. Redes empresariales

LinkedIn tiene clústeres de Hadoop con varias configuraciones de hardware. La configuración del clúster principal es la siguiente:

Clúster de 800 nodos, HP SL170X y 2×4 núcleos basados ​​en Westmere, 24 GB de memoria, 6× 2TBSATA.

Clúster de 1900 nodos, basado en Westmere Supermicro HX8DTT, y 2×6 núcleos, 24GB de memoria, 6×2TBSATA.

Clúster de 1400 nodos, basado en SandyBridge Supermicro, 2×6 núcleos, 32GB de memoria, 6×2TBSATA.

El software utilizado es el siguiente:

El sistema operativo utiliza RHEL6.3.

JDK utiliza SUNJDK1.6.0_32.

ApacheHadoop Hadoop0.20.2 y parche ApacheHadoop 1.0.4.

Azkaban y Azkaban se utilizan para la programación de trabajos.

Hive, Avro, Kafka, etc.

11. Mobile Analysis TV

Hadoop se utiliza principalmente en el campo de los algoritmos paralelos, y los algoritmos de aplicación MapReduce involucrados son los siguientes.

Recuperación y análisis de información.

Contenido generado por máquina: documentos, texto, audio, vídeo.

Procesamiento del lenguaje natural.

Porfolio de proyectos incluye:

Redes sociales móviles.

Rastreador web.

Texto a voz.

Generación automática de audio y vídeo.

12.Openstat

Hadoop se utiliza principalmente para personalizar el análisis de registros de red y generar informes. En su entorno de producción, hay más de 50 grupos de nodos (procesadores Xeon de cuatro núcleos duales, 16 GB de RAM, 4 ~ 6 discos duros) y dos grupos relativamente pequeños se utilizan para análisis personalizados, procesando alrededor de 5 millones por día Eventos, mensualmente datos de transacciones de 65.438+05 mil millones de dólares estadounidenses. El clúster genera aproximadamente 25 GB de informes por día.

Las tecnologías utilizadas incluyen principalmente CDH, cascada y Janino.

13. Quantum Broadcast

3000 núcleos de CPU, 3500 TB de almacenamiento, procesando más de 1 PB de datos por día, utilizando el programador Hadoop con rutas de datos y secuenciadores totalmente personalizados, para archivos KFS. El sistema ha hecho contribuciones destacadas.

14. Lapulif

Se utilizan principalmente clústeres con más de 80 nodos (2 CPU de doble núcleo por nodo, 2 TB×8 de almacenamiento, 16 GB de ram) datos en la Web e introducir cascadas para simplificar el flujo de datos en varias etapas de procesamiento.

15. Jerga mundial

Más de 44 servidores en hardware (2 CPU de doble núcleo por servidor, 2 TB de almacenamiento, 8 GB de memoria), cada servidor ejecutando Xen. Inicie una instancia de máquina virtual para ejecutar Hadoop/HBase y luego inicie otra instancia de máquina virtual para ejecutar el servidor web o de aplicaciones, es decir, hay 88 máquinas virtuales disponibles. Ejecute dos clústeres Hadoop/HBase independientes, cada uno con 22 nodos. Hadoop se utiliza principalmente para ejecutar trabajos de HBase y MapReduce, escanear tablas de datos de HBase y realizar tareas específicas. Como backend de almacenamiento rápido y escalable, HBase se utiliza para almacenar millones de documentos. Actualmente almacena 120.000 documentos y el objetivo a corto plazo es almacenar 450 millones de documentos.

16. TerrierTeam de la Universidad de Glasgow

Un cluster experimental de más de 30 nodos (cada nodo está equipado con XeonQuadCore2.4GHz, 4GB de memoria, 1TB de almacenamiento). Investigación y experimentación avanzadas en recuperación de información utilizando Hadoop, específicamente para las plataformas TREC y TerrierIR. La distribución de código abierto de Terrier incluye un índice distribuido a gran escala basado en HadoopMapReduce.

17. Centro de Computación de la Universidad de Nebraska, Países Bajos

Ejecute un clúster Hadoop de tamaño mediano (* * * almacenamiento de 1,6 PB), almacene y sirva datos físicos, admita cálculos compactos para espirales de muones. Experimentos con espectrómetro magnético (CMS). Esto requiere compatibilidad con un sistema de archivos que pueda descargar datos a varios Gbps y procesarlos a velocidades aún mayores.

18. Medidas visuales

Hadoop sirve como un componente del canal de datos escalable y, en última instancia, se utiliza en productos como VisibleSuite. Utilice Hadoop para resumir, almacenar y analizar flujos de datos relacionados con el comportamiento de visualización de los espectadores de vídeos en línea. Actualmente, la red incluye más de 128 núcleos de CPU y más de 100 TB de almacenamiento, con planes de expandirse significativamente.

El estado actual de la aplicación de Hadoop en China

Hadoop es utilizado principalmente por empresas de Internet en China. A continuación se presentan principalmente empresas que utilizan Hadoop o realizan investigaciones a gran escala sobre Hadoop.

1. Baidu

Baidu comenzó a prestar atención a Hadoop en 2006 y comenzó a investigarlo y utilizarlo. En 2012, el tamaño total de sus clústeres llegó a casi diez, y cada clúster tenía más de 2.800 nodos de máquinas y decenas de miles de máquinas Hadoop. La capacidad de almacenamiento total supera los 100 PB y se han utilizado más de 74 PB. Cada día se envían miles de trabajos y se introducen más de 7500 TB de datos cada día.

El clúster Hadoop de Baidu proporciona servicios informáticos y de almacenamiento unificados para todo el equipo de datos de la empresa, el gran equipo de búsqueda, el equipo de productos comunitarios, el equipo de publicidad y el grupo LBS. Las principales aplicaciones incluyen:

Extracción y análisis de datos.

Plataforma de análisis de logs.

Sistema de almacenamiento de datos.

Recomendación del sistema del motor.

Sistema de análisis del comportamiento del usuario.

Al mismo tiempo, Baidu también ha desarrollado su propia plataforma de análisis de registros, un sistema de almacenamiento de datos y una interfaz de programación unificada de C++ basada en Hadoop. También ha transformado profundamente a Hadoop y ha desarrollado un sistema HCE extendido de Hadoop C++.

2. Alibaba

A partir de 2012, el clúster Hadoop de Alibaba tiene aproximadamente 3200 servidores, aproximadamente 30 000 núcleos de CPU físicos, una memoria total de 100 TB y una capacidad de almacenamiento total de más de 60 PB. El número de trabajos por día supera los 150.000, las consultas de Hivequery se realizan en promedio más de 6.000 veces por día, el volumen promedio de datos escaneados por día es de aproximadamente 7,5 PB, el promedio de archivos escaneados por día es de aproximadamente 400 millones y la utilización del almacenamiento es de aproximadamente el 80%. La utilización de la CPU es del 65 % en promedio y el valor máximo puede ser de hasta el 80 %. El clúster Hadoop de Alibaba tiene 150 grupos de usuarios y 4.500 usuarios de clúster, y proporciona servicios básicos de computación y almacenamiento para Taobao, Tmall, Taoyi, Juhuasuan, CBU y Alipay. Entre sus principales aplicaciones se encuentran:

Sistema de plataforma de datos.

Soporte de búsqueda.

Sistema publicitario.

Cubo de datos.

Estadísticas cuánticas.

Datos Tao

Sistema de motor de recomendación.

Ranking de búsqueda.

Para facilitar el desarrollo, también se ha desarrollado un entorno de desarrollo de herencia WebIDE. Los sistemas relacionados utilizados incluyen Hive, Pig, Mahout, Hbase, etc.

3. Tencent

Tencent es también una de las primeras empresas de Internet en China en utilizar Hadoop. A finales de 2012, Tencent tenía más de 5.000 máquinas de clúster Hadoop, y el clúster más grande tenía alrededor de 2.000 nodos. También construyó su propio sistema de almacenamiento de datos TDW utilizando Hadoop-Hive y desarrolló su propio entorno de desarrollo básico TDW IDE. Hadoop de Tencent proporciona servicios básicos de computación y almacenamiento en la nube para cada una de las líneas de productos de Tencent. Admite los siguientes productos:

Plataforma de publicidad social de Tencent.

SOSO.

Paipai.com.

Tencent Weibo.

Brújula Tencent.

Miembro de QQ.

Soportado por Tencent Games.

Espacio QQ.

Amigos. es

Plataforma abierta Tencent.

Diez pagos.

QQ móvil.

QQ Música.

4. Qihoo 360

Qihoo 360 utiliza principalmente Hadoop-HBase como sistema de arquitectura de almacenamiento de páginas web subyacente de su motor de búsqueda so.com. Las páginas web buscadas por 360 pueden llegar a cientos. de miles de millones de registros, el volumen de datos alcanza el nivel de PB. A finales de 2012, su clúster HBase tenía más de 300 nodos y el número de regiones superaba los 654,38 millones. Las versiones de plataforma utilizadas son las siguientes.

Versión HBase: facebook0.89-fb.

Versión HDFS: facebookHadoop-20.

El trabajo de Qihoo 360 en Hadoop-HBase es principalmente optimizar y reducir el tiempo de inicio y finalización del clúster HBase, y optimizar y reducir el tiempo de recuperación después de que RS sale anormalmente.

5. Huawei

Huawei también es uno de los principales contribuyentes a Hadoop, situándose por delante de Google y Cisco. Huawei ha realizado una investigación en profundidad sobre la solución HA de Hadoop y el campo HBase, y lanzó a la industria su propia solución de big data basada en Hadoop.

6. China Mobile

China Mobile lanzó oficialmente BigCloud 1.0 en mayo de 2010, con 1024 nodos de clúster. Dayun de China Mobile implementa computación distribuida basada en MapReduce de Hadoop, utiliza HDFS para implementar almacenamiento distribuido y desarrolla el sistema de almacenamiento de datos basado en Hadoop HugeTable, el conjunto de herramientas de minería de datos paralelos BC-PDM y la extracción y transformación de datos paralelos BC-ETL, almacenamiento de objetos. sistema BC-ONestd y otros sistemas, y abrió su propia versión de BC-Hadoop.

China Mobile aplica Hadoop principalmente en el campo de las telecomunicaciones. Las áreas de aplicación planificadas incluyen:

Operación centralizada de KPI.

Subsistema ETL/DM.

Sistema de liquidación.

Sistema de señalización.

Sistema de pool de recursos de computación en la nube.

Sistema de aplicaciones de Internet de las Cosas.

Correo electrónico.

Servicios IDC, etc.

7. Pangu Search

Pangu Search (ahora fusionado con Instant Search para formar China Search) utiliza principalmente el clúster Hadoop como sistema de soporte de infraestructura del motor de búsqueda. A principios de 2013, el número total de máquinas en el clúster superó las 380, con un almacenamiento total de 3,66 PB, incluidas principalmente las siguientes aplicaciones.

Almacenamiento de páginas web.

Análisis de páginas web.

Índice.

Cálculo del PageRank.

Registrar análisis estadístico.

Motores de recomendación, etc.

Búsqueda instantánea (búsqueda de personal)

La búsqueda instantánea (que se ha fusionado con Pangu Search para convertirse en China Search) también utiliza Hadoop como sistema de soporte de su motor de búsqueda. A partir de 2013, el tamaño total de su clúster Hadoop supera los 500 nodos, configurado con CPU de 6 núcleos de doble canal, memoria 48G, almacenamiento 11×2T, la capacidad total del clúster supera los 65438+300TB y la tasa de utilización es del 78%.

Busque instantáneamente páginas web en formato sstable almacenado en motores de búsqueda y almacene archivos sstable directamente en HDFS. Utiliza principalmente la interfaz de programación HadoopPipes para el procesamiento posterior y también utiliza la interfaz Streaming para procesar datos. Las aplicaciones principales incluyen:

Almacenamiento de páginas web.

Analízalo.

Índice.

Motor de recomendaciones.

Fin