¿Qué es un rastreador web?
Los rastreadores web (también conocidos como arañas web, robots web y más comúnmente conocidos como cazadores web en la comunidad FOAF) son un tipo de rastreadores que capturan automáticamente información de la World Wide Web de acuerdo con ciertas reglas o programas. guion. Otros nombres utilizados con menos frecuencia incluyen hormigas, autoindexadores, emuladores o gusanos.
Ant (ant), indexador automático o (en el concepto de software FOAF) web scutter (WEB
scutter) es una especie de programa de "navegación automatizada de Internet", o una especie de robot de red. Son ampliamente utilizados por los motores de búsqueda de Internet u otros sitios web similares para obtener o actualizar el contenido y los métodos de recuperación de estos sitios web.
Pueden recopilar automáticamente el contenido de todas las páginas a las que pueden acceder para su posterior procesamiento por parte de los motores de búsqueda (clasificación y clasificación de páginas descargadas), de modo que los usuarios puedan recuperar la información que necesitan más rápido.
Un rastreador web comienza con una lista de direcciones de recursos uniformes (URL) llamadas semillas. Cuando los rastreadores web visitan estos localizadores uniformes de recursos, identificarán todos los hipervínculos en la página y los escribirán en una "lista de lugares por visitar", el llamado "territorio de rastreo" (frontera de rastreo
).
Se accederá cíclicamente a las direcciones de recursos unificados en este territorio de acuerdo con un conjunto de políticas. Si el rastreador copia y archiva información en el sitio web durante su ejecución, estos archivos generalmente se almacenan para poder verlos. Lea y explore información actualizada en vivo en su sitio web y guárdela como una "instantánea" del sitio web. El gran tamaño significa que los rastreadores web sólo pueden descargar un número limitado de páginas web en un tiempo determinado, por lo que es necesario priorizar sus descargas.
Una tasa de cambio alta significa que la página web puede haber sido actualizada o eliminada. Algunas URL (localizadores uniformes de recursos) generadas por software del lado del servidor también dificultan que los rastreadores web eviten recuperar contenido duplicado.