Red de conocimiento del abogados - Cuestiones jurídicas del divorcio - ¿Qué herramientas se utilizan generalmente para el análisis de big data?

¿Qué herramientas se utilizan generalmente para el análisis de big data?

El análisis de big data es un término amplio que se refiere a conjuntos de datos que son tan grandes y complejos que requieren herramientas de hardware y software especialmente diseñadas para procesarlos. El tamaño de este conjunto de datos suele ser de billones o exabytes. Estos conjuntos de datos se recopilan de diversas fuentes: sensores, información climática, información pública como revistas, periódicos y artículos. Otros ejemplos de análisis de big data incluyen registros de transacciones de compra, registros en línea, registros médicos, vigilancia militar, archivos de vídeo e imágenes y comercio electrónico a gran escala.

Análisis de big data, tienen un gran interés en el impacto en las empresas. El análisis de big data es el descubrimiento de patrones, correlaciones y otra información útil en el proceso de estudiar grandes cantidades de datos, que puede ayudar a las empresas a adaptarse mejor a los cambios y tomar decisiones más inteligentes.

Primero, Hadoop

Hadoop es un marco de código abierto que permite que un grupo completo de computadoras almacene y procese big data en un entorno distribuido utilizando un modelo de programación simple. Está diseñado para escalar desde un único servidor hasta miles de máquinas, cada una de las cuales puede proporcionar computación y almacenamiento local.

Hadoop es un marco de software que puede distribuir grandes cantidades de datos. Pero Hadoop lo maneja de forma confiable, eficiente y escalable. Hadoop

es confiable e incluso si los elementos informáticos y el almacenamiento fallan, mantiene múltiples copias de los datos de trabajo para garantizar que el procesamiento se pueda redistribuir al nodo fallido. Hadoop es eficiente, funciona en paralelo y acelera el procesamiento mediante procesamiento paralelo. Hadoop

También es escalable y puede manejar petabytes de datos. Además, Hadoop depende de servidores comunitarios, por lo que el costo es relativamente bajo y cualquiera puede usarlo.

Hadoop es una plataforma informática distribuida que es fácil de construir y utilizar. Los usuarios pueden desarrollar y ejecutar fácilmente aplicaciones que procesan cantidades masivas de datos en Hadoop. Tiene principalmente las siguientes ventajas:

1. La capacidad de Hadoop para almacenar y procesar datos poco a poco es digna de confianza.

2. Alta escalabilidad. Hadoop distribuye datos y completa tareas informáticas entre los grupos de ordenadores disponibles y puede escalarse fácilmente a miles de nodos.

3. Alta eficiencia. Hadoop puede mover datos dinámicamente entre nodos para garantizar el equilibrio dinámico de cada nodo, por lo que la velocidad de procesamiento es muy rápida.

4. Alta tolerancia a fallos. Hadoop puede guardar automáticamente múltiples copias de datos y redistribuir automáticamente las tareas fallidas.

Hadoop tiene un framework escrito en Java, por lo que es ideal para ejecutarse en una plataforma de producción Linux. Las aplicaciones en Hadoop también se pueden escribir en otros lenguajes, como

C++.

En segundo lugar, HPCC

HPCC, informática de alto rendimiento y

La abreviatura de comunicaciones (computación y comunicaciones de alto rendimiento). En 1993, el Comité Coordinador Federal de Ciencia, Ingeniería y Tecnología de los Estados Unidos presentó un informe al Congreso sobre el "Proyecto del Gran Desafío: Computación y Comunicaciones de Alto Rendimiento", que también se conoce como el plan HPCC, el Proyecto de Estrategia Científica del Presidente de los Estados Unidos. Su propósito es abordar algunos desafíos científicos y tecnológicos importantes a través de una mayor investigación y desarrollo. HPCC es un plan para implementar la superautopista de la información en Estados Unidos. La implementación de este plan costará decenas de miles de millones de dólares. Sus principales objetivos son desarrollar sistemas informáticos escalables y software relacionado para respaldar el rendimiento de transmisión de Ethernet, desarrollar tecnología de red gigabit y ampliar las instituciones educativas y de investigación y las capacidades de conectividad de red.

El proyecto consta principalmente de cinco partes:

1. Sistema informático de alto rendimiento (HPCS), que incluye investigación sobre generaciones futuras de sistemas informáticos, herramientas de diseño de sistemas, sistemas típicos avanzados y Evaluación del sistema original, etc.

2. Algoritmos y tecnología de software avanzado (ASTA), que incluye soporte de software para grandes desafíos, diseño de nuevos algoritmos, ramas y herramientas de software, centros de investigación de computación y computación de alto rendimiento, etc.

3. Red Nacional de Investigación y Educación (NREN), que incluye investigación y desarrollo de estaciones de acoplamiento y transmisión de más de 65.438 millones de bits

4. incluyendo investigación básica, capacitación, educación y materiales de cursos diseñados para aumentar el conocimiento de las innovaciones en el campo de la computación escalable de alto rendimiento recompensando a los investigadores (investigaciones iniciales y a largo plazo) y para aumentar las habilidades y la capacitación mejorando la educación y el alto rendimiento. capacitación en informática y comunicación Una empresa conjunta de personal y que proporciona la infraestructura necesaria para apoyar estas investigaciones y actividades de investigación;

5. estado avanzado de la tecnología de la información.

En tercer lugar, Storm

Storm es un sistema informático en tiempo real gratuito, de código abierto, distribuido y altamente tolerante a fallos. Storm simplifica los cálculos de flujo continuo, compensando los requisitos en tiempo real que el procesamiento por lotes de Hadoop no puede cumplir. Storm se usa comúnmente para análisis en tiempo real, aprendizaje automático en línea, computación continua, llamadas remotas distribuidas y ETL. La implementación y administración de Storm es muy simple y el rendimiento de Storm es sobresaliente entre herramientas informáticas de flujo similares.

Storm es un software gratuito de código abierto, un sistema informático en tiempo real distribuido y tolerante a fallos.

Storm puede manejar grandes flujos de datos de manera muy confiable y puede usarse para procesar datos por lotes de Hadoop. Storm es simple, admite múltiples lenguajes de programación y es divertido de usar. La tormenta proviene de Twitter y otras empresas de aplicaciones conocidas como Groupon, Taobao, Alipay, Alibaba, Music Elements, Admaster, etc.

Storm tiene muchas aplicaciones: análisis en tiempo real, aprendizaje automático en línea, computación continua, RPC distribuido (protocolo de llamada a procedimiento remoto, solicitud de servicios de programas informáticos remotos a través de la red),

ETL (abreviatura de extraer-convertir-cargar) y así sucesivamente. La velocidad de procesamiento de Storm es asombrosa: después de las pruebas, cada nodo puede procesar 654,38+0 millones de tuplas de datos por segundo. Storm es escalable, tolerante a fallas y fácil de configurar y operar.

Cuarto, Apache Drill

Para ayudar a los usuarios empresariales a encontrar formas más efectivas de acelerar las consultas de datos de Hadoop, la Apache Software Foundation lanzó recientemente un proyecto de código abierto llamado "Drill". Street Hooligan

Drill implementa Dremel de Google. "Drill" ha funcionado como un proyecto incubador de Apache y seguirá promoviéndose entre ingenieros de software de todo el mundo.

Este proyecto creará una versión de código abierto de Google Dremel.

Herramienta Hadoop (Google utiliza esta herramienta para acelerar las aplicaciones de Internet de las herramientas de análisis de datos Hadoop). Y la "perforación" ayudará a los usuarios de Hadoop a consultar conjuntos de datos masivos más rápidamente.

El proyecto "Drill" en realidad está inspirado en el proyecto Dremel de Google: este proyecto ayuda a Google a realizar el análisis y procesamiento de conjuntos de datos masivos, incluido el análisis y rastreo de documentos web, su seguimiento e instalación en Android.

Datos de aplicaciones en el mercado, análisis de spam, análisis de resultados de pruebas en el sistema de compilación distribuida de Google, etc.

Al desarrollar el proyecto de código abierto Apache "Drill", las organizaciones esperan establecer la interfaz API de Drill y una arquitectura flexible y poderosa para ayudar a soportar una amplia gama de fuentes de datos, formatos de datos y lenguajes de consulta.

Verb (abreviatura de verbo) Rapid Miner

RapidMiner proporciona programas de aprendizaje automático. La minería de datos incluye visualización, procesamiento, modelado estadístico y análisis predictivo de datos.

RapidMiner es la solución de minería de datos líder en el mundo y utiliza en gran medida tecnología avanzada. Sus tareas de minería de datos cubren una amplia gama, incluidas diversas artes de datos, que pueden simplificar el diseño y la evaluación de los procesos de minería de datos.

Funciones y características

Proporciona tecnología y bibliotecas de minería de datos de forma gratuita; utiliza 100% código Java (puede ejecutarse en el sistema operativo es simple, potente e intuitivo); el XML interno garantiza un formato estandarizado para expresar el proceso de extracción de datos de intercambio; los procesos grandes se pueden automatizar utilizando lenguajes de secuencias de comandos simples (modo por lotes) automatización Aplicación a gran escala; lenguaje Java (un lenguaje informático, especialmente utilizado para crear sitios web)

API (interfaz de programación de aplicaciones); motor de visualización potente y de complemento simple, muchos de ellos de última generación; -modelado visual de datos dimensionales; respaldado por más de 400 operadores de minería de datos; Yale se ha utilizado con éxito en muchas áreas de aplicaciones diferentes, incluida la minería de textos, la minería multimedia, el diseño de funciones, la minería de flujo de datos, los métodos de desarrollo integrado y la minería de datos distribuidos.

Limitaciones de RapidMiner; RapidMiner tiene un límite de tamaño en el número de filas; para RapidMiner, necesita más recursos de hardware que ODM y SAS.

Verbo intransitivo Pentaho BI

La plataforma Pentaho BI es diferente al BI tradicional.

Producto, es un framework centrado en procesos y orientado a soluciones. Su propósito es integrar una serie de productos de BI empresarial, software de código abierto, API y otros componentes para facilitar el desarrollo de aplicaciones de inteligencia empresarial. Su aparición permite integrar una serie de productos independientes para inteligencia empresarial como Jfree y Quartz para formar una solución de inteligencia empresarial compleja y completa.

Pentaho BI Platform, Pentaho Open BI

La arquitectura central y la base de la suite se centran en los procesos, ya que su controlador central es un motor de flujo de trabajo. El motor de flujo de trabajo utiliza definiciones de procesos para definir los procesos de inteligencia empresarial en BI

que se ejecutan en la plataforma. Los procesos se pueden personalizar fácilmente y agregar nuevos procesos. Bisexual

La plataforma contiene componentes e informes para analizar el desempeño de estos procesos. Actualmente, los principales componentes de Pentaho incluyen generación de informes, análisis, extracción de datos y gestión del flujo de trabajo.

Estos componentes se implementan de las siguientes maneras:

La plataforma Pentaho integra J2EE, WebService, SOAP, HTTP, Java, JavaScript, Portals y otras tecnologías.

Pentaho se distribuye principalmente en forma de Pentaho SDK.

Pentaho

SDK*** consta de cinco partes: plataforma Pentaho, base de datos de muestra Pentaho, plataforma Pentaho que puede ejecutarse de forma independiente, muestra de solución Pentaho y una muestra preparada previamente.

Servidor web Pentaho. Entre ellos, la plataforma Pentaho es la parte más importante de la plataforma Pentaho y contiene el código fuente principal de la plataforma Pentaho. La base de datos Pentaho es el servicio de datos proporcionado por el funcionamiento normal de la plataforma Pentaho, incluida la información de configuración relacionada con la solución; información, etc. , no es necesario para la plataforma Pentaho y puede ser reemplazado por otros servicios de base de datos mediante la configuración. La plataforma Pentaho que puede ejecutarse de forma independiente es un ejemplo del modo de operación independiente de la plataforma Pentaho, que demuestra cómo hacer que la plataforma Pentaho se ejecute de forma independiente sin soporte; de un servidor de aplicaciones.

La muestra de solución Pentaho es un proyecto de Eclipse que demuestra cómo desarrollar soluciones de inteligencia empresarial relevantes para la plataforma Pentaho.

La plataforma Pentaho BI está construida sobre servidores, motores y componentes. Estos proporcionan el sistema J2EE.

Servidor, seguridad, portal, flujo de trabajo, motor de reglas, diagramación, colaboración, gestión de contenidos, integración de datos, análisis y capacidades de modelado. La mayoría de estos componentes están basados ​​en estándares y pueden ser reemplazados por otros productos.

Siete, Druid

Druid es un sistema de almacenamiento de análisis de datos en tiempo real y el mejor grupo de conexiones de bases de datos en lenguaje Java. Druid puede proporcionar poderosas capacidades de monitoreo y expansión.

Ocho, Anbari

Herramienta de monitoreo y construcción de plataformas de big data; de manera similar, CDH.

1. Proporcionar un clúster de Hadoop

Ambari proporciona un asistente paso a paso para instalar los servicios de Hadoop en cualquier número de hosts.

Ambari maneja la configuración de los servicios agrupados de Hadoop.

2. Administrar el clúster de Hadoop

Ambari proporciona administración centralizada para iniciar, detener y reconfigurar los servicios de Hadoop para todo el clúster.

3. Monitorear el clúster de Hadoop

Ambari proporciona un panel para monitorear la salud y el estado del clúster de Hadoop.

9. Spark

Marco de procesamiento de datos a gran escala (puede manejar tres escenarios de procesamiento de datos comunes en las empresas: procesamiento de datos por lotes complejos (procesamiento de datos por lotes

) ; consulta interactiva basada en datos históricos; procesamiento de datos basado en flujo de datos en tiempo real, Ceph: sistema de archivos distribuido de Linux

X.Tableau Public

1. —¿Herramienta de análisis de big data?

Esta es una herramienta simple e intuitiva porque proporciona información interesante a través de la visualización de datos.

El límite de millones de filas del público es más fácil de usar que la mayoría. jugadores en el mercado de análisis de datos, puede investigar una hipótesis y verificar sus propias opiniones con Tableau /p>

2 Uso de Tableau Public

Puede publicar visualizaciones de datos interactivas en la Web. gratis; no se requieren conocimientos de programación; publicar en Tableau

La imagen pública se puede incrustar en blogs. Además, puede compartir páginas web por correo electrónico o redes sociales. herramienta. >3.Limitaciones de Tableau Public

Todos los datos son públicos, con límite de tamaño de datos; la única forma de leerlos es a través de la fuente OData, también es Excel o txt.

XI.OpenRefine

1. ¿Qué es el refinamiento abierto: una herramienta de análisis de datos?

¿Puede ayudarlo a limpiar los datos para el análisis? Además, colocar columnas debajo de la columna es muy similar al uso de OpenRefine.

Limpieza de datos desordenados; análisis de datos de sitios web; OpenRefine se puede utilizar para geocodificar direcciones basadas en coordenadas geográficas.

3. Limitaciones de OpenRefine

Open Refine no es adecuado para grandes conjuntos de datos; el refinamiento no funciona para big data.

Doce. KNIME

1. ¿Qué es la herramienta de análisis de datos KNIME?

KNIME te ayuda a manipular, analizar y modelar datos a través de programación visual. Se utiliza para integrar varios componentes de minería de datos y aprendizaje automático.

2. Propósito de KNIME

No escribir bloques de código. En su lugar, debe eliminar y arrastrar los puntos de conexión entre actividades; las herramientas de análisis de datos admiten lenguajes de programación, como herramientas de análisis escalables de ejecución de datos químicos, minería de texto, Python y R.

3. Limitaciones de KNIME

Visualización deficiente de datos

Trece. Tabla Google Fusion

1. ¿Qué es la tabla Google Fusion?

Para herramientas de datos, tenemos una versión más moderna y más grande de Google Spreadsheets. Una herramienta increíble para análisis de datos, gráficos y visualización de grandes conjuntos de datos. Además, Google

Fusion Sheet se puede agregar a la lista de herramientas de análisis empresarial. Esta es también una de las mejores herramientas de análisis de big data.

2. Utilice la tabla Google Fusion.

Visualice datos tabulares más grandes en línea; filtre resúmenes en cientos de miles de filas; combine tablas con otros datos en la web; puede fusionar dos o tres tablas para producir una única visualización de conjunto de datos;

3. Limitaciones de Google Fusion Tables

Solo las primeras 100.000 filas de datos de la tabla se incluyen en los resultados de la consulta o se asignan datos en llamadas API. El tamaño total no puede exceder 1 MB.

Catorce. NodeXL

1. ¿Qué es NodeXL?

Es un software de visualización y análisis de relaciones y redes. NodeXL proporciona cálculos precisos. Este es un software de visualización y análisis de redes gratuito (no profesional) y de código abierto. NodeXL es una de las mejores herramientas estadísticas para el análisis de datos. Esto incluye indicadores de red avanzados. Además, acceda a programas de importación y automatización de datos de redes sociales.

2. Propósito de NodeXL

Esta es una herramienta de análisis de datos en Excel que puede ayudar a lograr los siguientes aspectos:

Visualización gráfica de datos; ; presentación de datos; el software está integrado en Microsoft Excel.

2007, 2010, 2013, 2016. Se abre como un libro de trabajo que contiene varias hojas de trabajo que contienen elementos estructurales gráficos. Esto es como nodos y aristas; el software puede importar varios formatos de gráficos. Esta matriz de adyacencia, Pajak

. Neto, UCINet. dl, GraphML y ​​listas de bordes.

3. Limitaciones de NodeXL

Para un problema específico, es necesario utilizar varios términos semilla para ejecutar la extracción de datos en momentos ligeramente diferentes.

Quince, Wolfram Alpha

1. ¿Qué es Wolfram Alpha?

Este es un motor de conocimiento computacional o motor de respuesta creado por Steve Wolfram.

2. Uso de Wolfram Alpha

Es un componente complementario para Siri de Apple; proporciona respuestas detalladas a búsquedas técnicas y resuelve problemas de cálculo, ayuda a los usuarios empresariales a obtener gráficos de información; y gráficos. También ayuda a crear resúmenes de temas, información de productos e historial de precios avanzado.

3. Limitaciones de Wolfram Alpha

Wolfram Alpha sólo puede manejar cifras y hechos públicos, no opiniones; limita el tiempo de cálculo de cada consulta; estos se utilizan para el análisis de datos; con las herramientas estadísticas?

16. Operador de Búsqueda de Google

1. ¿Qué es el Operador de Búsqueda de Google?

Es un recurso poderoso que le ayudará a filtrar los resultados de búsqueda de Google. Esto le brindará la información más relevante y útil al instante.

2. Uso de los operadores de búsqueda de Google

Filtrar los resultados de búsqueda de Google más rápidamente; las poderosas herramientas de análisis de datos de Google pueden ayudar a descubrir nueva información.

17. Excel Solver

1. ¿Qué es Excel Solver?

El complemento Solver es un programa complementario de Microsoft Office Excel. Además, esta es la primera vez que instala Microsoft.

Disponible en Excel u Office. Es una herramienta de optimización y planificación lineal en Excel. Esto le permite establecer restricciones. Es una herramienta de optimización avanzada que ayuda a resolver problemas rápidamente.

2. Uso del Solver

El valor final encontrado por el solucionador es la solución a la relación y la toma de decisiones; utiliza una variedad de métodos y se deriva de la optimización no lineal. También hay solucionadores desde programación lineal hasta algoritmos evolutivos y algoritmos genéticos.

3. Limitaciones de Solver

Los errores de extensión son un aspecto del que carece Excel Solver. Afectará el tiempo y la calidad de la solución; Solver afectará la solucion intrínseca del modelo;

18.

Sistema de soporte de decisiones Dataiku

1. ¿Qué es Dataiku DSS?

Esta es una plataforma de software colaborativo de ciencia de datos. Además, ayuda con la formación de equipos, la creación de prototipos y la exploración. Sin embargo, puede proporcionar sus propios productos de datos de manera más eficiente.

2. Uso de Dataiku DSS

La herramienta de análisis de datos proporciona una interfaz visual interactiva. Para que puedan construir, hacer clic, señalar o usar lenguajes como SQL.

3. Limitaciones de los sistemas de soporte de decisiones de almacenamiento de datos

Capacidades de visualización limitadas; obstáculos de la interfaz de usuario: sobrecarga de código/conjuntos de datos; aún así, el código completo no se puede compilar fácilmente en un solo documento/cuaderno. debe integrarse con SPARK

Las herramientas anteriores son solo algunas de las herramientas utilizadas en el análisis de big data y no las enumeraré una por una. Clasifiquemos los usos de algunas herramientas:

1. Visualización frontal

Las herramientas frontales de código abierto para análisis de demostración incluyen JasperSoft, Pentaho, Spagobi, Openi, Birt, etc. .

Las herramientas de análisis empresarial utilizadas para el análisis de presentaciones incluyen Style Intelligence, RapidMiner Radoop, Cognos, BO y Microsoft.

Power BI, Oracle, Microstrategy, QlikView, Tableau.

En China, están BDP, Guo Yun Data (espejo de análisis de big data), Smart, FineBI, etc.

2.Almacén de datos

Teradata aster data, EMC Greenplum, HP Vertica, etc.

3. Data mart

También hay QlikView, Tableau, Style Intelligence, etc.