Imitación del navegador rastreándose en la araña (User-Agent)
? Algunos sitios web imponen ciertas restricciones en el acceso al sitio web para evitar que las arañas obtengan información del cliente o que otra información sea utilizada por otros. Sin embargo, se puede acceder a estas páginas web normalmente a través de navegadores. rastrear la página web disfrazando la araña como un navegador. Estos pasos se completan agregando encabezados a urlopen (url, encabezados).
1. Abra la página de inicio de un blogger csdn a través de spider y encontrará que el código de estado devuelve 403, lo que significa que esta página de blog tiene restricciones.
Primero abrimos este blog csdn (/jizhen_tan/article/details/51661203) a través del navegador Chrome de Google, luego abrimos la herramienta de captura de paquetes a través de F12, buscamos la barra de opciones de red y actualizamos la página web. cosas:
Cuando hacemos clic en el primer Nombre51661203, encontraremos tres elementos en los encabezados: General, Encabezados de respuesta y Encabezados de solicitud. Lo que tenemos que hacer es imitar el método de escritura en Requset Headers para disfrazar la araña como un navegador para acceder a la página web.
2. La biblioteca utilizada esta vez es urllib2, que es una extensión de urllib.
Hay cuatro elementos principales agregados a los encabezados: User-Agent, Host y GET, que se pueden encontrar en Requset Headers. encabezados es un léxico.
3. Algunos sitios web detectarán el User-Agent si hay demasiadas visitas en un periodo de tiempo, la IP se bloqueará por lo que podremos acceder cambiando aleatoriamente el User-Agent:
p>
Logrado mediante un bucle: