Predecir las tendencias futuras de desarrollo de big data desde tres direcciones.
Con el desarrollo de la tecnología, el mundo sigue generando datos todos los días. Con la introducción del concepto de big data, esta tecnología se ha convertido gradualmente en una industria y sigue siendo prometedora. Entonces, ¿cuál es el desarrollo futuro de la industria del big data? Tres direcciones para predecir las tendencias de desarrollo futuras de la tecnología de big data:
(A) Las redes sociales y la tecnología de Internet de las cosas han ampliado los canales técnicos para la recopilación de datos.
Después de la informatización de la industria, se han acumulado muchos datos internos en los campos médico, de transporte, financiero y otros, formando el "stock" de recursos de big data para el desarrollo de Internet móvil e Internet; Things ha enriquecido enormemente el alcance de los canales de recopilación de datos. Los datos de redes sociales externas, dispositivos portátiles, Internet de los vehículos, Internet de las cosas y plataformas de información abierta del gobierno se convertirán en el cuerpo principal de recursos incrementales de big data. Actualmente, la gran popularidad de Internet móvil proporciona abundantes fuentes de datos para aplicaciones de big data.
Además, el Internet de las cosas en rápido desarrollo se convertirá en un proveedor cada vez más importante de recursos de big data. En comparación con los datos caóticos y la baja densidad de valor de la Internet existente, los recursos de datos recopilados a través de varios terminales de recopilación de datos, como los dispositivos portátiles y la Internet de los vehículos, son más valiosos. Por ejemplo, después de varios años de desarrollo de dispositivos portátiles inteligentes, los dispositivos portátiles como pulseras, pulseras y relojes inteligentes se están volviendo cada vez más maduros. Los llaveros, bicicletas, palillos y otros dispositivos inteligentes están surgiendo en una corriente interminable. y Facebook en países extranjeros, y en China están Baidu, JD.COM, Xiaomi, etc.
Los datos internos de la empresa siguen siendo la principal fuente de big data, pero la demanda de datos externos es cada vez más fuerte. Actualmente, el 32% de las empresas compran datos del exterior; sólo el 18% de las empresas utilizan datos abiertos del gobierno. Cómo promover la construcción de recursos de big data, mejorar la calidad de los datos y promover la integración y circulación transfronterizas es una de las cuestiones clave para promover un mayor desarrollo de las aplicaciones de big data.
En términos generales, todas las industrias están comprometidas a expandir activamente los canales tecnológicos para la recopilación de datos emergentes y desarrollar recursos incrementales sobre la base de hacer un buen uso de los recursos existentes. Las redes sociales y el Internet de las cosas han enriquecido enormemente los canales potenciales para la recopilación de datos. En teoría, la recopilación de datos será cada vez más sencilla.
(2) La tecnología informática y de almacenamiento distribuido ha sentado una base técnica sólida para el procesamiento de big data.
La tecnología informática y de almacenamiento de big data es la base de todo el sistema de big data.
En términos de almacenamiento, el sistema de archivos (GFS) propuesto por Google y otros alrededor del año 2000 y el posterior sistema de archivos distribuido Hadoop (HDFS) sentaron las bases para la tecnología de almacenamiento de big data.
En comparación con los sistemas tradicionales, GFS/HDFS combina físicamente nodos de computación y almacenamiento, evitando así las limitaciones de rendimiento de E/S que ocurren fácilmente en la computación con uso intensivo de datos. Al mismo tiempo, el sistema de archivos de este sistema de almacenamiento distribuido también adopta una arquitectura distribuida, que puede lograr altas capacidades de acceso concurrente.
En términos de informática, la tecnología de informática paralela distribuida MapReduce lanzada por Google en 2004 es un representante de la nueva tecnología de informática distribuida. Los sistemas MapReduce constan de servidores económicos de uso general. Al agregar nodos de servidor, la capacidad total de procesamiento del sistema se puede expandir linealmente, lo que tiene grandes ventajas en costo y escalabilidad.
(3) Las tecnologías emergentes, como las redes neuronales profundas, han abierto una nueva era en la tecnología de análisis de big data.
La tecnología de análisis de big data generalmente se divide en dos categorías: procesamiento analítico en línea (OLAP) y minería de datos.
La tecnología OLAP generalmente se basa en una serie de suposiciones del usuario y realiza consultas interactivas de conjuntos de datos, asociaciones y otras operaciones en conjuntos de datos multidimensionales (generalmente usando declaraciones SQL) para verificar estas suposiciones, lo que representa la método de pensamiento de razonamiento deductivo.
La tecnología de minería de datos generalmente busca activamente modelos en datos masivos y desarrolla automáticamente patrones ocultos en los datos, lo que representa un método de pensamiento inductivo.
Los algoritmos tradicionales de minería de datos incluyen principalmente:
(1) La agrupación, también llamada análisis de grupo, es un método de análisis estadístico para estudiar la clasificación de datos grupales (muestras o indicadores). varias categorías según sus similitudes y diferencias. La similitud entre datos que pertenecen a la misma categoría es muy grande, mientras que la similitud entre datos de diferentes categorías es muy pequeña y la correlación entre datos de diferentes categorías es muy baja. Utilizando algoritmos de análisis de conglomerados, las empresas pueden agrupar clientes, agrupar datos de clientes de diferentes dimensiones sin conocer las características de comportamiento de los grupos de clientes y luego extraer y analizar las características de los clientes agrupados para captar las características de los clientes y recomendar los productos y servicios correspondientes.
(2) Clasificación, similar al clustering, pero con diferentes propósitos. La clasificación se puede realizar utilizando modelos de agrupamiento pregenerados o encontrando similitudes en un conjunto de objetos de datos a través de datos empíricos para dividir los datos en diferentes clases. Su propósito es mapear elementos de datos en categorías determinadas a través de un modelo de clasificación, y el algoritmo representativo es CART (árbol de regresión de clasificación). Las empresas pueden clasificar datos comerciales, como usuarios, productos y servicios, establecer modelos de clasificación y luego realizar análisis predictivos de nuevos datos para que pertenezcan a categorías existentes. El algoritmo de clasificación es relativamente maduro y la precisión de la clasificación es relativamente alta. Tiene muy buenas capacidades predictivas para un posicionamiento preciso del cliente, marketing y servicios para ayudar a las empresas a tomar decisiones.
(3) La regresión refleja las características de los valores de atributos de datos, expresa la relación de mapeo de datos a través de funciones y encuentra la relación de lista entre valores de atributos.
Se puede aplicar a la investigación de predicción y correlación de secuencias de datos. Las empresas pueden utilizar modelos de regresión para analizar y predecir las ventas del mercado y realizar los ajustes estratégicos correspondientes de manera oportuna. En términos de prevención de riesgos y lucha contra el fraude, los modelos de regresión también pueden utilizarse para la alerta temprana.
Los métodos de datos tradicionales, ya sea la tecnología OLAP tradicional o la tecnología de minería de datos, son difíciles de hacer frente a los desafíos del big data. El primero es la baja eficiencia de ejecución. Las tecnologías tradicionales de minería de datos se desarrollan basándose en una arquitectura de software subyacente centralizada y son difíciles de paralelizar. Por lo tanto, la eficiencia del procesamiento de datos por encima del nivel de terabytes es baja. En segundo lugar, el aumento del volumen de datos dificulta mejorar la precisión del análisis de datos, especialmente cuando se trata de datos no estructurados.
Solo una porción muy pequeña de todos los datos digitales humanos (alrededor del 1% de los datos totales) ha sido analizada y extraída en profundidad (como regresión, clasificación y agrupación). Las grandes empresas de Internet realizan análisis superficiales (como clasificación) de datos semiestructurados, como índices web y datos sociales, y es difícil analizar eficazmente datos no estructurados como voz, imágenes y videos, que representan casi el 60% de la información. volumen total.
Por tanto, el desarrollo de la tecnología de análisis de big data requiere avances en dos aspectos. Una es realizar un análisis eficiente y en profundidad de datos estructurados y semiestructurados masivos para extraer conocimiento tácito, como comprender e identificar semántica, emociones, intenciones, etc. Páginas web de texto compuestas de lenguaje natural; el segundo es analizar datos no estructurados, convertir datos masivos y complejos de voz, imágenes y video de múltiples fuentes en información que las máquinas puedan reconocer y tener una semántica clara, y luego extraer conocimientos útiles de ellos. .
En la actualidad, la tecnología de análisis de big data representada por tecnologías emergentes como las redes neuronales profundas se ha desarrollado hasta cierto punto.
La red neuronal es una tecnología avanzada de inteligencia artificial con las características de autoprocesamiento, almacenamiento distribuido y alta tolerancia a fallas. Es muy adecuado para procesar conocimientos o datos no lineales y difusos, incompletos e imprecisos, y es muy adecuado para resolver problemas de minería de big data.
Los modelos de redes neuronales típicos se dividen principalmente en tres categorías: la primera categoría son modelos de redes neuronales de retroalimentación utilizados para la predicción de clasificación y el reconocimiento de patrones, representados principalmente por redes funcionales y perceptrones; la segunda categoría es una retroalimentación neuronal; modelo de red de memoria asociativa y algoritmos de optimización, representados por el modelo discreto y el modelo continuo de Hopfield. La tercera categoría son los métodos de mapeo autoorganizados para la agrupación, representados por el modelo ART. Sin embargo, aunque existen muchos modelos y algoritmos de redes neuronales, no existen reglas unificadas sobre qué modelos y algoritmos utilizar en la minería de datos en campos específicos, lo que dificulta que las personas comprendan el proceso de aprendizaje y toma de decisiones de la red.
Con la integración continua de Internet y las industrias tradicionales, la extracción y el análisis de datos web se ha convertido en una parte importante del análisis de la demanda y la previsión del mercado. La minería de datos web es una tecnología integral que puede descubrir procesos de mapeo ocultos a partir de estructuras de documentos y colecciones de uso.
En la actualidad, el algoritmo PageRank ha sido ampliamente investigado y aplicado. PageRank es una parte importante del algoritmo de Google. Recibió una patente estadounidense en septiembre de 2006 y lleva el nombre del cofundador de Google, Larry Page. PageRank mide el valor de un sitio web en función de la cantidad y calidad de sus enlaces externos e internos. Este concepto está inspirado en un fenómeno de la investigación académica, es decir, cuanto más frecuentemente se cita un artículo, mayor se juzga generalmente su autoridad y calidad.
Cabe señalar que la minería y el análisis de datos tienen fuertes características en industrias y empresas. Además de algunas herramientas básicas de análisis de datos, también faltan herramientas de análisis y modelado generales y específicas. Varias industrias y empresas necesitan establecer modelos de datos específicos basados en su propio negocio. La capacidad de construir modelos de análisis de datos se ha convertido en la clave para que diferentes empresas ganen en la competencia de big data.