Red de conocimiento del abogados - Respuesta jurídica de la empresa - ¿Cuál es más adecuado para escribir rastreadores, Python o Node.js?

¿Cuál es más adecuado para escribir rastreadores, Python o Node.js?

Rastreo direccional simple:

Python urlib2 RegExp bs4

o

Node.js co, cualquier marco dom o analizador html Solicitar RegExp También es muy fácil de usar.

Para mí, las dos opciones anteriores son casi equivalentes, pero principalmente porque estoy más familiarizado con JS, ahora elegiré más la plataforma Node.

Rastreo de todo el sitio a gran escala:

Python Scrapy

Si la araña DIY en las dos soluciones anteriores es Xiaomi más un rifle, entonces Scrapy es Simply Heavy Cannon es extremadamente fácil de usar, con reglas de rastreo personalizadas, manejo de errores http, XPath, RPC, mecanismo de canalización, etc. Además, dado que Scrapy se implementa en base a Twisted, tiene muy buena eficiencia. En términos relativos, la única desventaja es que es más problemático de instalar y tiene más dependencias. Todavía soy relativamente nuevo en OSX. no hay forma de instalar scrapy directamente.

Además, si introduce xpath en spider y luego instala el complemento xpath en Chrome, la ruta de análisis será clara de un vistazo y la eficiencia del desarrollo. será extremadamente alto.