¿Cuál es la relación entre Python y los reptiles?
¿Por qué Python es adecuado para ciertos reptiles?
1) Capturar la interfaz de la propia página web.
En comparación con otros lenguajes de programación estáticos, como java, c#, C++ y python, la interfaz para capturar documentos web es más sencilla. En comparación con otros lenguajes de secuencias de comandos dinámicos como Perl, Shell y Python, el paquete urllib2 proporciona una API relativamente completa para acceder a documentos web. (Por supuesto, Ruby también es una buena opción).
Además, rastrear una página web a veces requiere simular el comportamiento de un navegador y muchos sitios web prohíben el rastreo contundente. Es por eso que necesitamos simular el comportamiento del agente de usuario para construir una solicitud adecuada, como simular el inicio de sesión del usuario y simular el almacenamiento y la configuración de sesiones/cookies. Existen excelentes paquetes de terceros en Python que pueden ayudarlo, como Requests y mechanize.
2) Procesamiento después del rastreo web
Las páginas web rastreadas generalmente necesitan ser procesadas, como filtrar etiquetas html, extraer texto, etc. Beautifulsoap de Python proporciona funciones simples de procesamiento de documentos y puede completar la mayor parte del procesamiento de documentos con códigos muy cortos.
De hecho, muchos lenguajes y herramientas pueden realizar las funciones anteriores, pero Python es el más rápido y limpio. La vida es corta, necesitas Python.