¿Cuál es el proceso de búsqueda en la web?
Todo el proceso de trabajo de un buscador incluye tres partes:
1. Rastreo
Es imposible para un buscador rastrear las páginas de Internet. sitio web Para completarlo manualmente, los ingenieros de Baidu y Google escribieron un programa. Le dieron a este programa de rastreo automático un nombre, araña (también se le puede llamar "robot" o "rastreador web").
La información en Internet se almacena en innumerables servidores. Si algún motor de búsqueda quiere responder a la búsqueda del usuario, primero debe almacenar la página web en su propio servidor local, que depende de rastreadores web. Envía continuamente solicitudes a varios sitios web y almacena las páginas web obtenidas.
El enfoque habitual es utilizar los enlaces entre páginas web para comenzar desde una página web, extraer enlaces a otras páginas, tratarlos como objetos que se solicitarán la próxima vez y repetir este proceso. Hay muchos detalles a considerar. Por ejemplo, evite las páginas web con enlaces circulares; analice los documentos de la página web y extraiga los enlaces internos; maneje los errores cuando los enlaces no se puedan abrir, etc.
2. Índice
El índice ayuda al programa a realizar búsquedas rápidamente. Todo el mundo ha utilizado un diccionario inglés-chino. La parte delante del diccionario ordenada según la primera letra de la palabra es el índice. Lo mismo ocurre con los motores de búsqueda. Aquí presentamos la primera y más importante estructura de datos: la lista invertida.
El buscador dispone de una lista inversa por cada palabra que aparece en el documento. Registra en cuántos documentos aparece esta palabra, qué documentos son, cuántas veces aparece cada segmento de documento y dónde aparece. De esta forma, al buscar palabras relacionadas, Google no necesita recorrer todos los documentos, solo necesita encontrar la lista de inversión correspondiente a cada palabra para saber dónde aparece la palabra.
Cada documento de red contiene algo más que información de texto. También puede incluir partes como nombre de archivo, referencias, etc. Para mejorar la calidad de la búsqueda, los motores de búsqueda deben procesar diferentes partes del documento por separado y construir una lista inversa. Cada parte de la palabra se agrega a la lista de inversión de la parte a la que pertenece la palabra.
3. Buscar
Con el índice podrás encontrar rápidamente lo que necesitas. Como se mencionó anteriormente, los motores de búsqueda encuentran contenido coincidente según las necesidades de información de los usuarios. Las necesidades de información provienen de la entrada del usuario. El motor de búsqueda utiliza los caracteres de búsqueda ingresados por el usuario para procesar el texto de manera similar a cuando se crea un índice y luego genera un árbol de análisis. En resumen, el objetivo final de las técnicas anteriores es ayudar a los motores de búsqueda a comprender mejor las necesidades de información de los usuarios para encontrar documentos de mayor calidad.
4. Ordenar
El contenido relevante se puede ver según las palabras clave ingresadas por el usuario. En este momento, se mostrará uno por uno, quién ocupa el primer lugar y quién ocupa el segundo lugar. A esta clasificación de resultados la llamamos clasificación.
La clasificación será muy complicada. El sistema realizará una serie de análisis complejos y, en función de las conclusiones del análisis, buscará una serie de páginas web que mejor coincidan con él en la base de datos del índice, y en consecuencia. a las palabras clave introducidas por el usuario, se puntúan la solidez de las necesidades reflejadas y la calidad de las páginas web, y se clasifican según la puntuación final.