Los rastreadores web en la era del big data ofrecen a los bancos nuevas estrategias
En la era del big data, los rastreadores web brindan a los bancos nuevas estrategias
La sociedad humana ha entrado en la era del big data y los medios tradicionales de comunicación y almacenamiento de información han sido reemplazados gradualmente por computadoras, y presentado Ha mostrado una tendencia de crecimiento exponencial y se ha convertido en uno de los recursos económicos más importantes del siglo XXI. Como banco comercial que domina una gran cantidad de datos de transacciones reales, cuando se enfrenta a un vasto mar de información, cómo lograr una estrecha integración de la información interna y externa del banco, datos estructurados y no estructurados, identificar información con mayor precisión y eficacia. extraer información y convertir el valor de los datos en valor económico se ha convertido en una de las formas importantes para que los bancos comerciales mejoren su competitividad central. El rápido desarrollo de la tecnología de rastreo web proporciona una nueva estrategia para que los bancos comerciales mejoren su capacidad para obtener información con precisión e integrarla y aplicarla de manera efectiva.
Descripción general de la tecnología de rastreo web
El rastreador web es la traducción gratuita de palabras como Spider (o Robots, Crawler). Es una herramienta eficiente de rastreo de información que integra la tecnología de los motores de búsqueda. Y optimizado a través de medios técnicos para buscar, rastrear y guardar cualquier información de una página web estandarizada a través de HTML (Lenguaje de Marcado de Hipertexto) desde Internet. Su mecanismo de acción es: enviar una solicitud a un sitio específico en Internet, interactuar con el sitio después de establecer una conexión, obtener información en formato HTML, luego pasar al siguiente sitio y repetir el proceso anterior. A través de este mecanismo de trabajo automatizado, los datos de destino se guardan en datos locales para su uso. Cuando un rastreador web accede a un enlace de hipertexto, puede obtener automáticamente información de dirección que apunta a otras páginas web a partir de etiquetas HTML, logrando así automáticamente una adquisición de información eficiente y estandarizada.
A medida que Internet se utiliza cada vez más en la economía y la sociedad humanas, la escala de información que cubre aumenta exponencialmente, y la forma y distribución de la información se diversifican y globalizan. ya no satisfacen Los requisitos cada vez más refinados y especializados de adquisición y procesamiento de información se enfrentan a enormes desafíos. Desde su nacimiento, los rastreadores web se han desarrollado rápidamente y se han convertido en un importante foco de investigación en el campo de la tecnología de la información. Actualmente, las principales estrategias de búsqueda de rastreadores web son las siguientes.
Estrategia de búsqueda en profundidad
El desarrollo inicial del rastreador utilizó más estrategias de búsqueda basadas en profundidad, es decir, en un archivo HTML, seleccione una de las etiquetas de hipervínculo para obtener información detallada. buscar, hasta que el hipervínculo se atraviesa al nivel más bajo, la operación lógica determina que la búsqueda en este nivel ha terminado, y luego sale del bucle en este nivel, regresa al bucle superior y comienza a buscar otras etiquetas de hipervínculo hasta que los hipervínculos en se recorre el archivo inicial. La ventaja de la estrategia de búsqueda en profundidad es que puede buscar toda la información de un sitio web, lo cual es especialmente adecuado para conjuntos de documentos profundamente anidados, pero la desventaja es que a medida que la estructura de datos se vuelve cada vez más compleja, los niveles verticales de la misma; El sitio aumentará infinitamente y se volverá diferente. Se producirán referencias cruzadas entre niveles y se producirán bucles infinitos. Solo cerrando el programa a la fuerza se puede salir del recorrido. Sin embargo, debido a una gran cantidad de duplicaciones y redundancias, la calidad del. La información obtenida es difícil de garantizar.
Estrategia de búsqueda primero en amplitud
Correspondiente a la estrategia de búsqueda primero en profundidad está la estrategia de búsqueda primero en amplitud. Su mecanismo de acción es realizar un ciclo de arriba a abajo, comenzando. con las páginas de primer nivel se buscan todos los hipervínculos y, una vez completado el recorrido de la página de primer nivel, comienza el ciclo de búsqueda de la página de segundo nivel hasta la capa inferior. Cuando se hayan seleccionado todos los hipervínculos en una determinada capa, se iniciará una nueva ronda de recuperación basada en los hipervínculos del siguiente nivel obtenidos durante el proceso de recuperación de información de esa capa (y utilizados como semillas), y los superficiales se procesarán primero. Enlace. Una ventaja de este modo es que no importa cuán complejo sea el nivel de estructura vertical del objeto de búsqueda, evitará en gran medida un bucle infinito. Otra ventaja es que tiene un algoritmo específico que puede encontrar la ruta más corta entre dos HTML; archivos. En términos generales, la mayoría de las funciones que esperamos que tenga un rastreador se pueden implementar actualmente con relativa facilidad utilizando una estrategia de búsqueda amplia, por lo que se considera óptima. Pero su desventaja es que, debido a que consume mucho tiempo, la estrategia de búsqueda en amplitud no es adecuada para situaciones en las que es necesario atravesar sitios específicos y los archivos HTML están profundamente anidados.
Estrategia de búsqueda enfocada
A diferencia de la estrategia de búsqueda enfocada primero en profundidad y primero en amplitud, la estrategia de búsqueda enfocada accede a fuentes de datos según el "principio de prioridad de coincidencia" y selecciona y compara activamente datos en función de un objetivo específico. algoritmo de coincidencia. Requerir documentos de datos relacionados con el tema y definir prioridades para guiar la captura de datos posterior.
Este tipo de rastreador enfocado determina una puntuación de prioridad para los hipervínculos en cualquier página que visita e inserta el enlace en una cola circular según la puntuación. Esta estrategia puede ayudar al rastreador a priorizar el seguimiento de páginas con mayores coincidencias potenciales hasta que obtenga un número suficiente. e Información de objetivos de calidad. No es difícil ver que la estrategia de búsqueda enfocada del rastreador radica principalmente en el diseño del modelo de puntuación de prioridad, es decir, cómo distinguir el valor de los enlaces. Diferentes modelos de puntuación darán puntuaciones diferentes para el mismo enlace, lo que afecta directamente a la puntuación. eficiencia y calidad de la recopilación de información. Bajo el mismo mecanismo, el modelo de puntuación para etiquetas de hipervínculo se puede extender naturalmente a la evaluación de páginas HTML, porque cada página web se compone de una gran cantidad de etiquetas de hipervínculo. En términos generales, cuanto mayor sea el valor del enlace, mayor será el valor. valor de la página donde se ubica. Cuanto mayor sea el valor, lo que brinda soporte teórico y técnico para la especialización de la búsqueda y la amplia aplicación de los motores de búsqueda. Actualmente, las estrategias de búsqueda enfocadas comunes incluyen dos tipos basados en “aprendizaje de consolidación” y “mapeo de contexto”.
Desde la perspectiva de la aplicación, las principales plataformas de búsqueda nacionales actuales adoptan principalmente la estrategia de búsqueda en amplitud, considerando principalmente que la densidad de valor vertical de la información en los sistemas de red nacionales es baja, mientras que la densidad de valor horizontal es alto. Sin embargo, esto obviamente omitirá algunos documentos de la red con bajas tasas de citas, y el efecto de enriquecimiento del valor horizontal de la estrategia de búsqueda en amplitud hará que estas fuentes de información con pocos enlaces se ignoren sin restricciones y, sobre esta base, se complementen Adoptando un lineal; La estrategia de búsqueda aliviará esta situación, introduciendo continuamente información de datos actualizada en el almacén de datos existente y decidiendo si continuar guardando la información a través de múltiples rondas de juicios de valor, en lugar de omitirla "simple y crudamente" y agregarla a los datos existentes. almacén. La nueva información se bloquea fuera del circuito cerrado.
Tendencias de desarrollo de la tecnología de rastreo web
En los últimos años, con el desarrollo continuo de la tecnología de rastreo web, las estrategias de búsqueda también se han optimizado continuamente. Desde el punto de vista actual, el desarrollo futuro de los rastreadores web mostrará principalmente las siguientes tendencias.
Datos dinámicos de páginas web
La tecnología de rastreo web tradicional se limita principalmente a capturar información de páginas estáticas y el modo es relativamente único. En los últimos años, con el desarrollo de Web2.0/. AJAX, etc. La tecnología se ha vuelto común y las páginas dinámicas se han convertido en la corriente principal de la difusión de información en red debido a sus poderosas capacidades interactivas y han reemplazado a las páginas estáticas como corriente principal. AJAX utiliza un mecanismo de solicitud y respuesta asíncrono (asíncrono) impulsado por JavaScript para actualizar continuamente los datos sin actualizar toda la página web. Sin embargo, la tecnología de rastreo tradicional carece de la interfaz y las capacidades de interacción para la semántica de JavaScript, lo que dificulta la activación de páginas dinámicas que no se actualizan. El mecanismo de llamada asincrónica y el análisis del contenido de los datos devueltos no pueden guardar la información requerida.
Además, varios marcos de front-end que encapsulan JavaScript, como JQuery, realizarán muchos ajustes en la estructura DOM. Incluso no es necesario recuperar el contenido dinámico principal de la página web. el servidor se envía al cliente desde el final en forma de etiquetas estáticas cuando se realiza la primera solicitud, pero responde continuamente a las operaciones del usuario y lo dibuja dinámicamente a través del mecanismo de llamada asincrónica. Por un lado, este modo optimiza en gran medida la experiencia del usuario y, por otro lado, reduce en gran medida la carga de interacción en el servidor. Sin embargo, plantea un gran desafío para los programas de rastreo que están acostumbrados a la estructura DOM (estática relativamente sin cambios). páginas). Los programas de rastreo tradicionales se basan principalmente en "impulsados por protocolos", pero en la era de Internet 2.0, bajo el entorno de tecnología de interacción dinámica basado en AJAX, el motor de rastreo debe depender de "impulsado por eventos" para obtener información continua de datos del servidor de datos. . Para estar controlados por eventos, los programas de rastreo deben resolver tres problemas técnicos: primero, análisis interactivo e interpretación de JavaScript; segundo, procesamiento e interpretación de la distribución de eventos DOM; tercero, extracción de semántica de contenido DOM dinámico;
Recopilación de datos distribuidos
El sistema de rastreo distribuido es un sistema de rastreo que se ejecuta en un clúster de computadoras, el programa de rastreo que se ejecuta en cada nodo del clúster y el principio de funcionamiento del rastreador centralizado. sistema Lo mismo, pero la diferencia es que la distribución requiere la coordinación de la división de tareas, la asignación de recursos y la integración de información entre diferentes computadoras. Se implanta un nodo maestro en una terminal de computadora del sistema de rastreador distribuido y se llama al rastreador centralizado local a través de él para que funcione. Sobre esta base, la interacción de información entre diferentes nodos es muy importante, por lo que se decidió La clave del éxito. La importancia de un sistema de rastreo distribuido radica en si puede diseñar e implementar la colaboración de tareas. Además, la red de comunicación de hardware subyacente también es muy importante.
Dado que se pueden utilizar varios nodos para rastrear páginas web y se puede lograr una asignación dinámica de recursos, el sistema de rastreo distribuido es mucho mayor que el sistema de rastreo centralizado en términos de eficiencia de búsqueda.
Después de una evolución continua, varios sistemas de rastreadores distribuidos tienen sus propias características en términos de composición del sistema y sus mecanismos de trabajo y estructuras de almacenamiento se actualizan constantemente. Sin embargo, los sistemas de rastreadores distribuidos convencionales generalmente utilizan el método "maestro-esclavo". "Método de combinación". La estructura interna significa que un nodo maestro controla otros nodos esclavos para capturar información a través de la división de tareas, la asignación de recursos y la integración de información. En términos de métodos de trabajo, basados en las características económicas y eficientes de la plataforma en la nube, la distribución El sistema de rastreo utiliza ampliamente la computación en la nube para reducir los costos y reducir la inversión requerida para construir plataformas de software y hardware a gran escala. En términos de métodos de almacenamiento, el almacenamiento de información distribuido es actualmente más popular, es decir, los archivos se almacenan en un formato; El sistema de red distribuido es más conveniente para administrar datos de múltiples nodos. El sistema de archivos distribuido comúnmente utilizado es el sistema HDFS basado en Hadoop.
Aplicación de tecnología de rastreo web en bancos comerciales
Para los bancos comerciales, la aplicación de tecnología de rastreo web ayudará a los bancos comerciales a lograr los cuatro "saber mejor", es decir, "conocerse a sí mismos". mejor" El banco que mejor conoce a sus clientes, el banco que mejor conoce a sus competidores y el banco que mejor conoce su entorno operativo. Los escenarios de aplicación específicos son los siguientes.
Monitoreo de la opinión pública en línea
La opinión pública en línea es una de las expresiones de la opinión pública dominante en la sociedad actual. Principalmente recopila y muestra los puntos de vista y opiniones del público sobre algún enfoque social y candente. temas después de ser difundido en Internet. Para los bancos comerciales, monitorear la opinión pública en línea es un medio técnico importante para la gestión de su propia marca y sus relaciones públicas en crisis, utilizando así Internet como un "espejo" para construir un "banco que se conoce mejor a sí mismo".
Como uno de los principales medios de información de la sociedad actual, la opinión pública en línea tiene las características de una rápida difusión y una gran influencia. Para los bancos comerciales, es muy necesario crear un sistema automatizado de seguimiento de la opinión pública en línea. Por un lado, puede permitir a los bancos comerciales obtener información más precisa sobre las necesidades sociales, por otro lado, permitir a los bancos comerciales difundir sus propios conceptos de servicio y características de servicio en nuevas plataformas de opinión pública y mejorar sus niveles de expansión comercial. Dado que los rastreadores web desempeñan un papel irreemplazable en el seguimiento de la opinión pública en línea, la calidad de su trabajo afectará en gran medida la amplitud y profundidad de la recopilación de opinión pública en línea. Según el tipo de objetivo de recopilación, los rastreadores web se pueden clasificar en dos tipos: "rastreadores web generales" y "rastreadores web temáticos". Los rastreadores web de uso general se centran en recopilar una escala de datos más grande y un rango de datos más amplio, y no consideran el orden de recopilación de páginas web ni la coincidencia de temas de la página web de destino. En el contexto actual de crecimiento exponencial en la escala de información de la red, el uso de rastreadores web de propósito general está limitado por la velocidad de recopilación de información, la densidad del valor de la información y el grado de experiencia en información. Para paliar esta situación nacieron los rastreadores web temáticos. A diferencia de los rastreadores web de propósito general, los rastreadores web basados en temas se centran más en el grado de coincidencia entre el objetivo de la recopilación y la información de la página web y evitan información redundante irrelevante. Este proceso de selección es dinámico y recorre todo el flujo de trabajo del rastreador web basado en temas. tecnología.
Al utilizar tecnología de rastreo para monitorear la opinión pública en línea, podemos obtener una comprensión más completa y profunda de las actitudes de los clientes y las evaluaciones de los bancos, obtener información sobre las fortalezas y debilidades de las propias operaciones del banco, y al mismo tiempo defenderse de los riesgos reputacionales y potenciar el efecto de marca.
Retrato panorámico del cliente
A medida que la competencia entre los bancos comerciales se vuelve cada vez más feroz, los márgenes de beneficio se comprimen aún más y los requisitos para el marketing de clientes y el control de riesgos también aumentan. En el sistema operativo bancario actual, la gestión de procesos de marketing y la gestión de procesos de riesgos, especialmente la identificación y gestión de clientes potenciales y riesgos posteriores al préstamo, a menudo requieren una gran cantidad de mano de obra, recursos materiales y costos de tiempo. Al introducir la tecnología de rastreo web, podemos crear de manera efectiva una imagen panorámica de los clientes y crear un "banco que conoce mejor a sus clientes". Este es un complemento útil a las tecnologías tradicionales de "gestión de relaciones con los clientes" y "control de riesgos externo". Promover en gran medida el marketing de clientes bancarios y la gestión de riesgos.
El programa de rastreo web se puede utilizar para crear una vista de información completa de los clientes del banco, es decir, se utiliza como entrada información de identidad personal simple del cliente o direcciones de red de clientes corporativos. , cumplirá con las reglas preestablecidas. La información del cliente se genera en un formato específico.
Utilizando datos básicos específicos como materia prima, el personal de datos del banco ingresa palabras clave en el sistema de rastreo, las combina con información de direcciones de red relacionadas con la información del cliente, las encapsula en semillas de rastreo y las pasa al programa de rastreo. Posteriormente, el programa de rastreo inicia el. proceso de negocio correspondiente y rastrea páginas web con información relacionada con el cliente y las guarda. Además, partiendo del nivel de monitoreo de la opinión pública de la red y extendiendo el objeto de monitoreo desde sí mismo a los clientes bancarios, podemos comprender la evaluación de los clientes bancarios por parte de los clientes de los clientes bancarios a través de Internet por primera vez, captar la dinámica de los clientes. opinión pública de manera oportuna y orientar las decisiones comerciales de los bancos.
Al utilizar el sistema de rastreo web mencionado anteriormente para recopilar, monitorear y actualizar información relacionada con el cliente en tiempo real, no solo podemos obtener una comprensión más completa de la situación del cliente en tiempo real, sino también predecir las posibles oportunidades de marketing y los riesgos crediticios del cliente. Mejorar eficazmente la eficiencia del marketing del cliente y la gestión de riesgos posteriores al préstamo, mejorar los beneficios integrales de los bancos comerciales y crear una situación beneficiosa para los bancos y los clientes.
Análisis de la competencia
Actualmente, con la llegada de la liberalización de las tasas de interés y el impacto de las finanzas por Internet, la competencia entre los bancos comerciales se está volviendo cada vez más feroz y están surgiendo nuevos participantes en el mercado y nuevos productos. uno tras otro se intensifica la competencia empresarial. En este contexto, es cada vez más importante que todos los bancos comerciales comprendan plenamente la dinámica de los competidores, creen "el banco que mejor conozca a sus competidores" y utilicen esto para adaptarse y aprovechar las oportunidades de manera oportuna.
Al construir una plataforma de visualización y análisis de información en toda la red basada en tecnología de rastreo web, podemos capturar de manera efectiva datos en tiempo real de toda la red, obtener información de productos y noticias de otros bancos de manera oportuna, y obtener otras competiciones por primera vez. Esto facilita la integración y el análisis de datos de la industria local. Los rastreadores web crean una plataforma de datos dinámica al recopilar datos en tiempo real, rastrear datos de la red y almacenarlos localmente para facilitar aplicaciones de análisis y extracción de datos en profundidad en el futuro. La tecnología de rastreo web no solo facilita que los tomadores de decisiones de los bancos comerciales formulen políticas precisas para respaldar las operaciones de la empresa, sino que también extiende el monitoreo de la información de opinión pública en línea de sí mismo y de los clientes a los competidores, lo que facilita comprender la competencia en el mercado de los competidores. en tiempo real la situación y sus ventajas y desventajas, para lograr "conócete a ti mismo y conoce al enemigo" y lograr verdaderamente la simetría de la información.
Búsqueda vertical de la industria
La búsqueda vertical se refiere a subdividir el alcance de la búsqueda en un determinado campo profesional, realizar una integración más profunda de la información de la página web obtenida por primera vez y finalmente formar una "pureza" Mayor información del campo profesional. El personal de datos bancarios puede mejorar en gran medida la eficiencia de la obtención de información efectiva al adoptar este método. Al capturar y analizar temas financieros, los bancos comerciales pueden comprender de manera más integral las tendencias de desarrollo de las políticas regulatorias, comprender la situación de desarrollo de las economías regionales e industriales, así como comprender la dinámica del propio entorno operativo de la industria financiera, verificar y ajustar sus propias estrategias. de manera oportuna, mantenerse al día con las tendencias del mercado y convertirse en “el banco que mejor comprende el entorno operativo”.
La aplicación de la búsqueda vertical en el ámbito financiero puede mejorar las capacidades de procesamiento de información de las entidades financieras. Lo más destacado de la tecnología de búsqueda vertical es que puede realizar operaciones de segmentación profesionales y específicas en datos diversos y a gran escala, reducir la información basura, recopilar información efectiva, mejorar la eficiencia de la búsqueda e incluso proporcionar información en tiempo real bajo ciertas condiciones. Maximizar la integración de grandes cantidades de datos web complejos existentes, permitiendo a los usuarios obtener servicios de recuperación de información más convenientes, más completos y más eficientes.
Conclusión
Con el desarrollo de la tecnología de Internet y la explosión de datos, la tecnología de rastreo web proporciona una nueva vía técnica para la recopilación de datos de los bancos comerciales y las aplicaciones de integración de información. Desde la perspectiva de la práctica de aplicaciones de los bancos comerciales, los rastreadores web tienen un gran potencial de desarrollo en las operaciones y gestión diarias de los bancos. La aplicación de la tecnología de rastreo web puede ayudar a los bancos a transformarse en "bancos inteligentes" que se comprendan mejor a sí mismos, a sus clientes, a sus competidores y a su entorno operativo. Es previsible que la tecnología de rastreo web se convierta en un medio técnico importante para que los bancos comerciales mejoren sus capacidades de gestión refinadas y mejoren su inteligencia en la toma de decisiones.