Características del programa ladrón
1. Más del 80% de los sitios se pueden recopilar simplemente configurando las reglas de recopilación y reemplazo en segundo plano.
2. Rompiendo el sistema anti-hotlinking de imágenes, puede descargar las imágenes del sitio de destino al servidor, mejorar la eficiencia del acceso y aumentar la inclusión de imágenes de Baidu.
3. Admite generación estática Incluso si hay un error en el servidor del sitio de destino, el sitio aún no se verá afectado (siempre que la generación estática y la descarga de imágenes al servidor local estén habilitadas).
4. La versión autorizada puede habilitar la función de subestación nacional y generar automáticamente palabras clave de cola larga, lo cual es adecuado para industrias de servicios nacionales y servicios de consulta de información.
Código de idioma 1.Perl
#!/usr/bin/perl
# A través de [Ver]->[Archivo fuente] en el archivo HTML del navegador IE Se puede ver el contenido.
# En Perl, puede obtener directamente el contenido de los archivos HTML sin pasar por el navegador.
# es el módulo de Perl libWWW
uso estricto;
usa LWP::UserAgent;
usa hilos::shared;
mi $URL = /cgi-bin/news_qq_search?city=&city&
aquí configure la dirección de la página que se rastreará. Por supuesto, también puede especificar una dirección directamente sin usar variables
wstr=getHTTPPage(url)
Obtenga todos los datos de. la página especificada
start=Newstring(wstr, )
Aquí está el encabezado de los datos que deben procesarse. Esta variable debe configurarse de acuerdo con diferentes situaciones. El contenido específico se puede ver viendo la página que debe rastrearse para determinarlo. Debido a que necesitamos rastrear toda la página en este programa, lo configuramos para que rastree todas las páginas. Tenga en cuenta que el contenido establecido debe ser exclusivo del contenido de la página y no se puede repetir.
over=Newstring(wstr, )
El inicio corresponde a la cola de los datos que deben procesarse. De manera similar, el contenido establecido debe ser el único. en la pagina.
body=mid(wstr,start,over-start)
'Establece el rango de la página mostrada
Entonces es hora de usar Qiankun Shift+++, mediante reemplazar, puede reemplazar los caracteres especificados en los datos con algunos caracteres.
cuerpo = reemplazar(cuerpo,skin1,Pronóstico meteorológico de Sina - Maithief Network)
cuerpo = reemplazar(cuerpo,/cgi-bin/news_qq_search?city,tianqi.asp?id )
El trabajo de reemplazo se ha completado en este programa. Si hay otras necesidades, puede continuar realizando operaciones de reemplazo similares.
cuerpo de respuesta.write
%>
Después de reemplazar el contenido que necesita modificarse, el contenido modificado se puede mostrar en la página. Este es el final del proceso