Puntos extra por el mecanismo de funcionamiento de los motores de búsqueda
Un motor de búsqueda es un producto que depende de la tecnología para ganar. Cada componente del motor de búsqueda, incluido el recopilador de páginas, el indexador, el recuperador, etc., es el foco de la competencia entre los proveedores de productos de motores de búsqueda.
En los últimos años, la comercialización de motores de búsqueda ha logrado un gran éxito, como las famosas empresas de motores de búsqueda Google, Yahoo (cuando se menciona Yahoo en este artículo, se refiere específicamente al inglés Yahoo), Baidu. , etc. se han hecho públicos con éxito, lo que ha provocado que muchas empresas se involucren en este campo, lo que ha llevado a una gran inversión en mano de obra y capital. Incluso el gigante del software Microsoft no puede resistir la tentación y construir activamente su propio motor de búsqueda. Sin embargo, en términos de rendimiento, los motores de búsqueda actuales no son satisfactorios. Los resultados arrojados por la búsqueda a menudo están lejos de los requisitos de recuperación del usuario y la efectividad no es muy alta. Este artículo analizará el principio de funcionamiento de los motores de búsqueda y sus tecnologías de implementación, con el fin de comprender los factores que limitan la mejora de la experiencia del usuario de los motores de búsqueda.
El proceso de trabajo de los motores de búsqueda
Los centros de datos de los motores de búsqueda de Internet a gran escala generalmente ejecutan miles o incluso cientos de miles de ellos, y cada día se añaden docenas de máquinas al grupo de ordenadores para seguir el ritmo del desarrollo de la red. La máquina de recopilación recopila automáticamente información de la página web a una velocidad promedio de docenas de páginas web por segundo, y la máquina de recuperación proporciona una arquitectura escalable y tolerante a fallas para manejar decenas de millones o incluso cientos de millones de solicitudes de consultas de usuarios todos los días. Los motores de búsqueda empresariales se pueden implementar según diferentes escalas de aplicaciones, desde una sola computadora hasta un grupo de computadoras.
El proceso de trabajo general de un motor de búsqueda es: primero, recopila páginas web en Internet, luego preprocesa las páginas web recopiladas, establece una biblioteca de índices de páginas web, responde a las solicitudes de consulta de los usuarios en tiempo real, y realiza consultas de búsqueda. Los resultados obtenidos se clasifican de acuerdo con ciertas reglas y se devuelven al usuario. La función importante de un motor de búsqueda es proporcionar recuperación de texto completo de información textual en Internet.
Figura 1? Flujo de trabajo del motor de búsqueda
Los motores de búsqueda reciben solicitudes de recuperación de los usuarios a través de programas cliente. El programa cliente más común ahora es el navegador. una aplicación web mucho más sencilla desarrollada por un usuario. La solicitud de búsqueda ingresada por el usuario es generalmente una palabra clave o varias palabras clave conectadas con símbolos lógicos. El servidor de búsqueda convierte la palabra clave de búsqueda en ID de palabra de acuerdo con el diccionario de palabras clave del sistema y luego obtiene el ID de documento en la lista de la base de datos de índice (archivo invertido). escanee los objetos en la lista de docID y combínelos con wordID, extraiga las páginas web que cumplen con las condiciones, luego calcule la relevancia de las páginas web y las palabras clave, y combine los K resultados principales (cada página de diferentes motores de búsqueda) según el El valor de correlación (número diferente de resultados de búsqueda) se devuelve al usuario y el flujo de procesamiento se muestra en la Figura 1.
La Figura 2 describe la arquitectura del sistema de un motor de búsqueda general, que incluye recopiladores de páginas, indexadores, recuperadores, archivos de índice, etc. La implementación funcional de las partes principales se presenta a continuación.
Figura 2? ¿La relación entre los distintos componentes del motor de búsqueda?
Coleccionista
La función del recopilador es recorrer Internet, descubrir y recopilar. información que recopila Hay varios tipos de información, incluidas páginas HTML, documentos XML, artículos de grupos de noticias, archivos FTP, documentos de procesamiento de textos, información multimedia, etc. Un buscador es un programa informático cuya implementación a menudo utiliza tecnologías de procesamiento paralelo y distribuido para mejorar la eficiencia del descubrimiento y actualización de la información. Los recopiladores de motores de búsqueda comerciales pueden recopilar millones o más de páginas web cada día. Los buscadores generalmente tienen que funcionar constantemente, recopilando la mayor cantidad y lo más rápido posible de información nueva de todo tipo en Internet. Debido a que la información en Internet se actualiza rápidamente, la información antigua que se ha recopilado debe actualizarse periódicamente para evitar enlaces inactivos y enlaces no válidos. Además, debido a que la información web cambia dinámicamente, los recopiladores, analizadores e indexadores deben actualizar la base de datos periódicamente, y el ciclo de actualización suele ser de semanas o incluso meses. Cuanto más grande sea la base de datos del índice, más difícil será actualizarla.
Hay demasiada información en Internet, e incluso un recopilador poderoso no puede recopilar toda la información en Internet. Por lo tanto, el recopilador utiliza una determinada estrategia de búsqueda para navegar por Internet y descargar documentos. Por ejemplo, una estrategia de búsqueda generalmente utiliza una estrategia de búsqueda en amplitud como principal y una estrategia de búsqueda lineal como complemento.
Cuando se implementa el recopilador, se mantiene una cola o pila de hipervínculos en el sistema, que contiene algunas URL de inicio. El recopilador comienza desde estas URL, descarga las páginas correspondientes y extrae nuevos hipervínculos de ellas. La cadena se agrega a la cola o pila y el proceso anterior se repite hasta que la cola esté vacía. Para mejorar la eficiencia, los motores de búsqueda dividen el espacio web según nombres de dominio, direcciones IP o nombres de dominio de países, y utilizan varios recopiladores para trabajar en paralelo, de modo que cada buscador es responsable de buscar en un subespacio. Para facilitar la futura expansión del servicio, el recopilador debería poder cambiar el alcance de la búsqueda.
1. Estrategia de recopilación lineal
La idea básica de la estrategia de búsqueda lineal es comenzar desde una dirección IP inicial y buscar cada dirección IP posterior de manera creciente. , independientemente de las direcciones de hipervínculo que apunten a otros sitios web en los archivos HTML de cada sitio. Esta estrategia no es adecuada para búsquedas a gran escala (la razón principal es que la IP puede ser dinámica), pero puede usarse para búsquedas integrales a pequeña escala. El recopilador que utiliza esta estrategia puede encontrar otros archivos HTML que sean menos citados o. no se han utilizado. Fuente referenciada de nueva información del archivo HTML.
2. Estrategia de recolección en profundidad
La estrategia de recolección en profundidad es un método comúnmente utilizado en recolectores de desarrollo temprano. Su propósito es alcanzar la estructura de la hoja del punto buscado. . La búsqueda en profundidad sigue los hipervínculos del archivo HTML hasta que no puede ir más lejos, luego regresa al archivo HTML anterior y luego continúa seleccionando otros hipervínculos en el archivo HTML. Cuando no haya más hipervínculos para elegir, la búsqueda habrá finalizado. La búsqueda en profundidad es adecuada para recorrer un sitio específico o un conjunto de archivos HTML profundamente anidados, pero para búsquedas a gran escala, dado que la estructura web es bastante profunda, es posible que nunca pueda salir.
3.?Estrategia de recopilación primero en amplitud
La estrategia de recopilación primero en amplitud es buscar primero el contenido en la misma capa y luego continuar buscando en la siguiente capa. Si hay tres hipervínculos en un archivo HTML, seleccione uno de ellos y procese el archivo HTML correspondiente, luego regrese y seleccione el segundo hipervínculo de la primera página web, procese el archivo HTML correspondiente y luego regrese. Una vez que se hayan procesado todos los hipervínculos en la misma capa, puede comenzar a buscar los hipervínculos restantes en el archivo HTML que acaba de procesar. Esto garantiza que la capa poco profunda se procese primero y que cuando se encuentre una rama profunda e interminable, no se atasque nuevamente. La estrategia de recopilación primero en amplitud es fácil de implementar y ampliamente adoptada, pero lleva mucho tiempo llegar a archivos HTML profundos.
4.?Estrategia de inclusión y recopilación
Algunas páginas web se pueden recopilar mediante el envío del usuario. Por ejemplo, algunos sitios web comerciales envían una solicitud de inclusión a un motor de búsqueda y el recopilador. Puede recopilar y enviar de manera específica. Solicite información de la página web del sitio web y agréguela a la base de datos de índice del motor de búsqueda.
Analizador
Generalmente, la información de la página web o los documentos descargados recopilados por el recopilador deben analizarse primero para crear un índice. La tecnología de análisis de documentos generalmente incluye: Segmentación de palabras (algunas Extracción de palabras). solo de ciertas partes del documento (como Altavista), filtrado (usando listas de exclusión) y conversión (algunos realizan conversión de singular y plural, eliminación de afijos, conversión de sinónimos, etc. en las entradas), estas tecnologías a menudo están relacionadas con idiomas específicos. Y muy relacionado con el modelo de indexación del sistema.
Indizador
La función del indexador es analizar y procesar la información buscada por el buscador, extraer elementos del índice y utilizarlos para representar el documento y generar la tabla de índice. de la biblioteca de documentos.
Hay dos tipos de elementos de índice: elementos de índice de metadatos y elementos de índice de contenido: los elementos de índice de metadatos no tienen nada que ver con el contenido semántico del documento, como el nombre del autor, la URL, la hora de actualización, la codificación, la longitud, la popularidad del enlace, etc. Los elementos del índice de contenido se utilizan para reflejar el contenido del documento, como palabras clave y sus pesos, frases, palabras, etc. Los elementos del índice de contenido se pueden dividir en dos tipos: elementos de índice único y elementos de índice múltiple (o elementos de índice de frases). Para el inglés, los elementos de índice único son palabras en inglés, que son más fáciles de extraer porque hay separadores naturales (espacios) entre las palabras. Para idiomas escritos continuamente como el chino, las palabras deben segmentarse; En los motores de búsqueda, generalmente se asigna un peso a un único elemento del índice para indicar el grado de discriminación del documento por el elemento del índice, y también se utiliza para calcular la relevancia de los resultados de la consulta. Los métodos utilizados generalmente incluyen métodos estadísticos, métodos de teoría de la información y métodos de probabilidad. Los métodos para extraer elementos de índice de frases incluyen métodos estadísticos, métodos de probabilidad y métodos lingüísticos.
Para encontrar rápidamente información específica, la creación de una base de datos de índice es un método común, es decir, el documento se expresa de una manera que facilita la recuperación y se almacena en la base de datos de índice. El formato de la base de datos de índice es un formato de almacenamiento de datos especial que se basa en el mecanismo y algoritmo de indexación. La calidad del índice es uno de los factores clave para el éxito del sistema de recuperación de información web. Un buen modelo de índice debe ser fácil de implementar y mantener, rápido de recuperar y tener pocos requisitos de espacio. Los motores de búsqueda generalmente se basan en modelos de índice de recuperación de información tradicional, incluidos documentos invertidos, modelos de espacio vectorial, modelos de probabilidad, etc. Por ejemplo, en el modelo de índice de espacio vectorial, cada documento d se representa como un vector normalizado V(d)=(t1, w1?(d)…ti, w1(d)…tn, wn(d)). Donde ti es el elemento de entrada, wi(d) es el peso de ti en d, que generalmente se define como una función de la frecuencia de ti en d, tfi(d).
La salida del indexador es una tabla de índice, que generalmente usa la forma invertida (¿Inversión? Lista), es decir, el documento correspondiente se encuentra por elemento de índice. La tabla de índice también puede registrar la posición donde aparecen los elementos del índice en el documento para que el rastreador pueda calcular la relación de adyacencia o proximidad (proximidad) entre los elementos del índice. Los indexadores pueden utilizar algoritmos de indexación centralizados o algoritmos de indexación distribuidos. Cuando la cantidad de datos es grande, se debe implementar la indexación en tiempo real (Indexación instantánea); de lo contrario, no podrá mantenerse al día con el rápido aumento en la cantidad de información. Los algoritmos de indexación tienen un gran impacto en el rendimiento del indexador (como la velocidad de respuesta durante consultas pico a gran escala). La eficacia de un motor de búsqueda depende en gran medida de la calidad de su índice.
Buscador
La función del buscador es consultar rápidamente documentos en la base de datos de índice de acuerdo con la consulta del usuario, evaluar la relevancia del documento y la consulta, y ordenar los resultados. para ser generado e implementar algún tipo de mecanismo de retroalimentación de relevancia para el usuario. Los modelos de recuperación de información comúnmente utilizados por los motores de búsqueda incluyen modelos de teoría de conjuntos, modelos algebraicos, modelos de probabilidad y modelos híbridos. Pueden consultar cualquier palabra en la información del texto, ya sea que aparezca en el título o en el texto.
El recuperador encuentra documentos relacionados con la solicitud de consulta del usuario en el índice y procesa la solicitud de consulta del usuario de la misma manera que analiza los documentos indexados. Por ejemplo, en el modelo de índice de espacio vectorial, la consulta del usuario q se expresa primero como un vector normalizado V(q)=(t1,w1(q);?…;?ti,wi(q);?…;?tn , wn (q)), y luego calcula la correlación entre la consulta del usuario y cada documento en la base de datos de índice de acuerdo con un método determinado, y la correlación se puede expresar como el sándwich entre el vector de consulta V (q) y el vector de documento. V (d) coseno del ángulo y, finalmente, todos los documentos con relevancia mayor que el umbral se organizan en orden de relevancia decreciente y se devuelven al usuario. Por supuesto, el criterio de relevancia del motor de búsqueda no necesariamente coincide plenamente con las necesidades del usuario.
Interfaz de usuario
La función de la interfaz de usuario es proporcionar a los usuarios una interfaz visual de entrada de consultas y salida de resultados, que les facilita ingresar condiciones de consulta, mostrar resultados de consultas y proporcionar Mecanismos de retroalimentación de relevancia del usuario, etc., su objetivo principal es facilitar a los usuarios el uso de los motores de búsqueda y obtener información efectiva de los motores de búsqueda de manera eficiente y de múltiples maneras.
El diseño y la implementación de interfaces de usuario deben basarse en las teorías y métodos de interacción persona-computadora para adaptarse al pensamiento y los hábitos de uso humanos.
En la interfaz de consulta, los usuarios formulan los términos a recuperar y varias condiciones de búsqueda simples o avanzadas según la sintaxis de consulta del motor de búsqueda. La interfaz simple solo proporciona un cuadro de texto para que los usuarios ingresen cadenas de consulta, mientras que la interfaz compleja permite a los usuarios restringir las condiciones de consulta, como operaciones lógicas (Y, O, NO), relaciones de proximidad (adyacentes, CERCA), rangos de nombres de dominio ( como edu, com), posición de aparición (como título, contenido), información de tiempo, información de duración, etc. Algunas empresas e instituciones están considerando actualmente desarrollar estándares para las opciones de consulta.
En la interfaz de salida de la consulta, el motor de búsqueda muestra los resultados de la búsqueda como una lista lineal de documentos, que incluye el título del documento, el resumen, la instantánea, el hipervínculo y otra información. Dado que los documentos relevantes e irrelevantes se mezclan en los resultados de la búsqueda, los usuarios deben navegar uno por uno para encontrar los documentos requeridos.
Tecnología de segmentación de palabras chinas para motores de búsqueda
La segmentación automática de palabras chinas es la base para el análisis de páginas web. En el proceso de análisis de páginas web, el chino y el inglés se procesan de manera diferente. Esto se debe a que existe una diferencia obvia entre la información china y la información en inglés: hay espacios entre las palabras en inglés, pero no hay separación entre las palabras en el texto chino. Esto requiere que antes de analizar la página web china, las oraciones de la página web se corten en una secuencia de palabras. Esta es la segmentación de palabras chinas. La segmentación automática de palabras en chino implica muchas tecnologías de procesamiento del lenguaje natural y estándares de evaluación. En los motores de búsqueda, lo que más nos preocupa es la velocidad y precisión de la segmentación automática de palabras en chino. La precisión de la segmentación de palabras es muy importante para los motores de búsqueda, pero si la velocidad de segmentación de palabras es demasiado lenta, no importa cuán alta sea la precisión, no será utilizable para los motores de búsqueda, porque los motores de búsqueda necesitan procesar cientos de millones de páginas web. Si la segmentación de palabras consume demasiado tiempo, afectará seriamente la velocidad de actualización del contenido del motor de búsqueda. Por lo tanto, los motores de búsqueda tienen altos requisitos en cuanto a la precisión y velocidad de la segmentación de palabras.
En la actualidad, la tecnología relativamente madura para la segmentación automática de palabras chinas es el método de segmentación mecánica de palabras basado en diccionarios de segmentación de palabras. Este método consiste en hacer coincidir la cadena de caracteres chinos que se analizará con las entradas del diccionario de acuerdo con una estrategia determinada. De acuerdo con diferentes estrategias de coincidencia, los métodos mecánicos de segmentación de palabras incluyen los siguientes algoritmos: algoritmo de coincidencia máxima directa, algoritmo de coincidencia máxima inversa, algoritmo de segmentación de mínima palabra, etc. La ventaja de este método es que puede segmentar palabras rápidamente y tiene cierta precisión, pero tiene un efecto de procesamiento deficiente en palabras no registradas. Los resultados experimentales muestran que: La tasa de error de la coincidencia máxima directa es de aproximadamente 1/169 y la tasa de error de la coincidencia máxima inversa es de aproximadamente 1/245. Otro método de segmentación automática de palabras chino comúnmente utilizado es el método de segmentación de palabras basado en estadísticas. Este método cuenta la frecuencia de los grupos de palabras en el corpus y no requiere diccionarios de segmentación. Por lo tanto, también se le llama método de segmentación de palabras sin diccionario. Sin embargo, este método a menudo considera grupos de palabras comunes que no son palabras como palabras, y la precisión del reconocimiento de palabras comunes es pobre y la sobrecarga de tiempo y espacio es relativamente grande. En aplicaciones prácticas en el campo de los motores de búsqueda, el método de segmentación mecánica de palabras generalmente se combina con el método de segmentación estadística de palabras. Primero, se realiza la segmentación de palabras coincidentes y luego se utilizan métodos estadísticos para identificar algunas palabras nuevas que no se han registrado. Esto no solo aprovecha la rápida y eficiente segmentación de palabras coincidentes, sino que también aprovecha las características de reconocimiento automático de nuevas palabras y eliminación automática de la ambigüedad de la segmentación de palabras en la segmentación estadística de palabras.
El diccionario de segmentación de palabras es un factor importante que afecta la segmentación automática de palabras en chino. Su tamaño es generalmente de alrededor de 60.000 palabras, si el diccionario es demasiado grande o demasiado pequeño, es inapropiado. Las palabras se segmentarán. De lo contrario, el diccionario es demasiado grande y el fenómeno de levantamiento aumentará considerablemente durante el proceso de segmentación, lo que también afectará la precisión de la segmentación de palabras. Por tanto, la selección de entradas en el diccionario de segmentación de palabras es muy estricta. Para el campo de Internet donde aparecen constantemente nuevas palabras, no es suficiente usar un diccionario de segmentación de palabras con alrededor de 60,000 palabras. Sin embargo, agregar nuevas palabras al diccionario de segmentación de palabras a voluntad conducirá a una disminución en la precisión de la segmentación de palabras. La solución es utilizar un diccionario auxiliar, que tiene una escala de unas 500.000 entradas. Además, la dificultad de la segmentación automática de palabras chinas radica en el procesamiento de la ambigüedad de la segmentación de palabras y la identificación de palabras no registradas. Cómo abordar estos dos problemas siempre ha sido un tema candente en este campo.
1. Procesamiento de ambigüedad
Ambigüedad significa que puede haber dos o más métodos de segmentación.
Por ejemplo: la frase "superficie", debido a que "superficie" y "superficie" son palabras, esta frase se puede dividir en "superficie" y "superficie". Esto se llama ambigüedad cruzada. La ambigüedad cruzada como esta es muy común, y "maquillaje y ropa" se puede dividir en "maquillaje y ropa" o "maquillaje y ropa". Sin conocimiento humano para comprenderlo, es difícil para una computadora saber qué solución es la correcta.
La ambigüedad cruzada es relativamente fácil de manejar en comparación con la ambigüedad combinada, que debe juzgarse en función de la oración completa.
Por ejemplo, en la oración "Este pomo de la puerta está roto", "manija" es una palabra, pero en la oración "Por favor, retira la mano", "manija" no es una palabra; oración "General" "Se nombró un teniente general", "teniente general" es una palabra, pero en la oración "la producción se triplicará en tres años", "teniente general" ya no es una palabra. ¿Cómo pueden las computadoras identificar estas palabras?
Incluso si las computadoras pueden resolver la ambigüedad cruzada y la ambigüedad combinada, todavía hay otro problema difícil en la ambigüedad, que es la verdadera ambigüedad. La verdadera ambigüedad significa que, dada una oración, la gente no puede decir cuál debería ser una palabra y cuál no. Por ejemplo: "La subasta de tenis de mesa terminó" se puede dividir en "La subasta de tenis de mesa terminó" o "La subasta de tenis de mesa terminó". Si no hay otras oraciones en el contexto, me temo que nadie lo sabrá. si "subasta" cuenta aquí como una palabra.
El método para lidiar con la ambigüedad generalmente utiliza un algoritmo similar a la programación dinámica para transformar la solución del problema de ambigüedad en la solución de un problema de optimización. En el proceso de solución, generalmente se utiliza información auxiliar como la frecuencia o probabilidad de las palabras para obtener el máximo resultado posible de segmentación de palabras, que es el mejor en cierto sentido.
2. Procesamiento de textos no registrados
Las palabras no registradas son palabras que no están en el diccionario de segmentación de palabras, también llamadas palabras nuevas. Los más típicos son nombres de personas, lugares, términos profesionales, etc. Por ejemplo, la gente puede entender fácilmente que en la frase "Wang Junhu fue a Guangzhou", "Wang Junhu" es una palabra porque es el nombre de una persona, pero es difícil para una computadora reconocerla. Si "Wang Junhu" se incluye como palabra en el diccionario, hay tantos nombres en el mundo y cada momento hay nuevos nombres. Incluir estos nombres es un gran proyecto en sí mismo. Incluso si este trabajo se puede completar, todavía habrá problemas, como: en la oración "Wang Junhu cabeza de tigre", ¿puede "Wang Junhu" seguir contando como una palabra?
Además de los nombres personales, las palabras no registradas también incluyen nombres de organizaciones, nombres de lugares, nombres de productos, nombres de marcas comerciales, abreviaturas, abreviaturas, etc., que son difíciles de tratar y resultan ser de uso común. por personas, por lo que para los motores de búsqueda, la identificación de nuevas palabras en el sistema de segmentación de palabras es muy importante. En la actualidad, el procesamiento de palabras no registradas generalmente adopta métodos estadísticos. Primero, los grupos de palabras con mayor frecuencia de aparición se cuentan del corpus y luego se agregan al diccionario auxiliar como nuevas palabras de acuerdo con ciertas reglas.
En la actualidad, la tecnología china de segmentación automática de palabras se ha utilizado ampliamente en los motores de búsqueda y la precisión de la segmentación de palabras ha alcanzado más del 96%. Sin embargo, al analizar y procesar páginas web a gran escala, los chinos existentes. La tecnología de segmentación automática de palabras aún es insuficiente. Hay muchas deficiencias, como el problema de ambigüedad mencionado anteriormente y el procesamiento de palabras no registradas. Por lo tanto, instituciones de investigación científica nacionales y extranjeras, como la Universidad de Pekín, Tsinghua, la Academia de Ciencias de China, el Instituto de Idiomas de Beijing, la Universidad del Noreste, IBM Research, Microsoft China Research, etc., han estado prestando atención y estudiando la tecnología de segmentación automática de palabras china. Esto se debe principalmente a los chinos en Internet. Con cada vez más información, el procesamiento de información china en Internet se convertirá en una industria enorme y un mercado amplio, con oportunidades comerciales ilimitadas. Sin embargo, para que la tecnología de segmentación automática de palabras china sirva mejor al procesamiento de información china en Internet y forme productos, es necesario realizar mucho trabajo en investigación básica e integración de sistemas.
Retos a los que se enfrentan los motores de búsqueda
Es imposible que los motores de búsqueda actuales sean “amplios y profundos” porque son dos aspectos contradictorios y no pueden tener ambos.
Con el rápido crecimiento de la información en Internet, cada vez es más difícil lograr la "amplitud" de los motores de búsqueda y es completamente innecesario desde la perspectiva del uso de la información. Por el contrario, la "profundidad" es un indicador de que la gente paga más y más. más atención y persecución. Además, está lejos de establecerse un sistema de servicios de búsqueda de varios niveles. La búsqueda tradicional enfatiza la navegación y descuida los servicios de información precisos. Es como si un peatón preguntara direcciones, sino también instrucciones específicas sobre las señales de tránsito.
Hoy en día, la gente suele hablar de la próxima generación de motores de búsqueda. Entonces, ¿cuál es la diferencia entre la próxima generación de motores de búsqueda y la segunda generación de motores de búsqueda? ¿Qué importa? ¿Qué características debería incluir? Todas estas son preguntas que deben responderse, pero las respuestas varían. Quizás la próxima generación de motores de búsqueda incorpore inteligencia más poderosa, interacción persona-computadora y otros métodos para mejorar el cálculo de la relevancia. Quizás la próxima generación de motores de búsqueda no solo se ejecute en servidores a gran escala, sino que sea más probable que se ejecute en servidores compartidos. En los grupos de PC con recursos informáticos, o implantados en "chips de búsqueda", tal vez los límites de su base de datos de índice se hayan desdibujado, o tal vez se hayan vuelto más claros, tal vez las barreras comerciales que los actuales gigantes de las búsquedas están levantando constantemente de manera artificial a través de fondos. , marcas, etc., después de todo, no podrán resistirse a vivir la subversión de la tecnología de búsqueda innovadora, tal como Google desintegró silenciosamente Altavista.
————————————————————————————— [Enlaces relacionados]
Escuelas técnicas de búsqueda motores
Las escuelas técnicas de motores de búsqueda se pueden dividir en tres categorías: la primera categoría es la escuela de automatización que utiliza programas informáticos para procesar información automáticamente, con representantes típicos como Google y Ghunt; la segunda categoría es; la clasificación manual de la información, la escuela de procesamiento manual orientada al procesamiento, el representante típico en este sentido es el temprano Yahoo, y la búsqueda comunitaria emergente como la Web 2.0 y los extractos en línea son nuevos desarrollos de esta escuela; es el énfasis en la interacción inteligente persona-computadora, la escuela de fusión colaborativa, el motor de búsqueda actual de Yahoo en inglés está desarrollando esta tecnología, MSN Live también muestra que presta más atención a la tecnología de fusión, la búsqueda profesional IFACE incorpora el conocimiento del usuario y los métodos de aprendizaje automático, que Puede considerarse como un representante típico de la facción de fusión en los motores de búsqueda chinos.
Si se divide según la capacidad de la biblioteca de páginas web, la tecnología de cálculo de relevancia, la experiencia de búsqueda del usuario y el modelo de negocio, el desarrollo de los motores de búsqueda ha pasado por aproximadamente dos generaciones hasta ahora. La primera generación de motores de búsqueda (1994 a 1997) generalmente indexaba millones de páginas web, utilizando tecnología de recuperación de texto completo y tecnología de computación paralela distribuida, pero rara vez recopiló páginas web y actualizó el índice, y otros La velocidad de recuperación es lenta Y la espera suele tardar 10 segundos o más. Al mismo tiempo, las solicitudes de recuperación que puede soportar también son muy limitadas. El modelo de negocio se encuentra en el período de exploración y aún no se ha formado.
La mayoría de los motores de búsqueda de segunda generación (desde 1998 hasta el presente) adoptan soluciones de procesamiento colaborativo distribuido. Sus bases de datos de índice web generalmente tienen decenas de millones de páginas web o más y adoptan una arquitectura de base de datos de índice escalable. de responder a decenas de millones o incluso cientos de millones de solicitudes de recuperación de usuarios todos los días. En noviembre de 1997, los motores de búsqueda más avanzados de la época afirmaban ser capaces de indexar 100 millones de páginas web. El motor de búsqueda de segunda generación representado por Google ha logrado un gran éxito al calcular la relevancia (autoridad de la página web) mediante análisis de enlaces y análisis de clics (popularidad de la página web). Además, los motores de búsqueda que utilizan lenguaje natural para responder preguntas han mejorado en cierta medida la experiencia del usuario. Más importante aún, la segunda generación de motores de búsqueda ha establecido un modelo de negocio maduro comúnmente utilizado por los motores de búsqueda, como Google, Overture y Baidu. , etc. Todos los servicios de búsqueda se benefician de este modelo de negocio.
Explicación de términos relacionados
El motor de búsqueda de texto completo es un programa robótico llamado araña que recopila y descubre automáticamente información en Internet utilizando una determinada estrategia. El indexador construye la información recopilada. una base de datos de índice de página web, y el buscador recupera la base de datos de índice de acuerdo con las condiciones de consulta ingresadas por el usuario y devuelve los resultados de la consulta al usuario. El método de servicio es un servicio de búsqueda de texto completo para páginas web.
El motor de búsqueda de índice de directorio recopila información principalmente de forma manual. Después de que los editores revisan la información, forman manualmente un resumen de la información y la colocan en un marco de clasificación predeterminado. La mayor parte de la información está orientada a sitios web y proporciona servicios de exploración de directorios y servicios de recuperación directa. Los usuarios pueden buscar sin palabras clave y encontrar la información que necesitan basándose únicamente en categorías.
El metabuscador se refiere a un sistema que comparte las bibliotecas de recursos de múltiples motores de búsqueda para proporcionar a los usuarios servicios de información en forma de una interfaz de consulta de usuario unificada y retroalimentación de información. El metabuscador funciona con la ayuda de otros motores de búsqueda y no tiene su propia biblioteca de índices. Envía las solicitudes de consulta del usuario a varios motores de búsqueda al mismo tiempo y, después de excluir y reordenar repetidamente los resultados devueltos, sirve como propio. Los resultados se devuelven al usuario.
La tecnología de clasificación automática es una computadora que clasifica automáticamente documentos en una categoría específica bajo un sistema de categorías (o tema) existente basado en estándares de clasificación. En la actualidad, la clasificación automática no puede reemplazar completamente el trabajo relacionado realizado por humanos, sino que sólo proporciona un método alternativo menos costoso.
La tecnología de agrupamiento de texto es un proceso completamente automático que utiliza computadoras para agrupar grandes cantidades de texto existentes (muchos documentos). La agrupación puede proporcionar una descripción general del contenido de una gran colección de textos, identificar similitudes ocultas y facilitar la búsqueda de textos similares o relacionados.
Los extractos de artículos web también se denominan extractos web. Tiene las funciones de recopilar, clasificar, extraer, agregar etiquetas, guardar en la biblioteca de información y compartir la biblioteca de información para páginas de contenido. usuarios La necesidad de leer contenido en línea y acumular conocimientos de información.