¿Cómo entender los movimientos de las arañas de los motores de búsqueda a través de los registros de sitios web?
Encontré la respuesta en Rich Marketing Forum. Puedes usarla como referencia. Si estás interesado, puedes ir al Rich Marketing Forum para obtener conocimientos relevantes.
Google spider: googlebot
bd spider: baiduspider
yahoo spider: slurp
soso spider: sosospider
msn Spider: msnbot
Youdao Spider: YodaoBot y OutfoxBot
Sogou Spider: sougouspider
Déjame explicarte este código:
1 2010-11-15 18:18:10 es la fecha y hora en que llegó bd spider.
2. GET /post/5.html es la página visitada por bd spider.
3. 80 es el puerto
4.220.181.108.166 es la dirección IP de bd spider
5. ) se refiere a bd spider
7.200 significa que el rastreo se realizó correctamente. Este es el código devuelto por bd spider después del rastreo.
También hay algunos otros códigos:
2xx Success
200 OK solicitud completada.
201 Normal; seguido inmediatamente del comando POST.
202 OK; aceptado para procesamiento, pero el procesamiento aún no se ha completado.
203 OK; información parcial: solo se devuelve parte de la información.
204 OK; Sin respuesta: se recibió la solicitud, pero no hay información para enviar.
Redirecciones 3xx
301 movidas: los datos solicitados tienen una nueva ubicación y el cambio es permanente.
302 Encontrado: los datos solicitados tienen temporalmente un URI diferente.
303 Ver otros: la respuesta a la solicitud se puede encontrar en otro URI y debe recuperarse mediante el método GET.
304 No modificado: el documento no se modificó como se esperaba.
305 Uso de proxy: se debe acceder al recurso solicitado a través del proxy proporcionado en el campo de ubicación.
306 Sin usar: ya no se usa; este código se conserva para uso futuro.
Errores 4xx en el cliente
400 Solicitud incorrecta: hay un problema de sintaxis en la solicitud o la solicitud no se puede cumplir.
401 No autorizado - El cliente no está autorizado a acceder a los datos.
402 Pago requerido: indica que el sistema de facturación está vigente.
403 Prohibido: no se requiere acceso incluso si está autorizado.
404 No encontrado: el servidor no puede encontrar el recurso dado; el documento no existe.
Solicitud de autenticación de proxy 407: el cliente primero debe autenticarse mediante un proxy.
410 La página web solicitada no existe (permanente);
415 Tipo de medio no admitido: el servidor se negó a atender la solicitud porque el formato de la entidad solicitada no es compatible.
Errores 5xx en el servidor
500 Error interno - El servidor no pudo completar la solicitud debido a condiciones inesperadas.
501 No ejecutado: el servidor no admite la herramienta solicitada.
502 Puerta de enlace incorrecta: el servidor recibió una respuesta no válida de un servidor ascendente.
503 No disponible: el servidor no pudo procesar la solicitud debido a una sobrecarga temporal o mantenimiento.