Red de conocimiento del abogados - Preguntas y respuestas jurídicas - ¿Qué es el protocolo de robots? Cómo escribir y utilizar robots.txt en el sitio web

¿Qué es el protocolo de robots? Cómo escribir y utilizar robots.txt en el sitio web

El nombre completo del protocolo Robots (también conocido como protocolo de rastreo, protocolo de robot, etc.) es "Protocolo de exclusión de robots". El sitio web utiliza el protocolo Robots para indicar a los motores de búsqueda qué páginas se pueden rastrear y qué páginas. No se puede agarrar.

Método de escritura de archivos

Agente de usuario: * El * aquí representa todos los tipos de motores de búsqueda, * es un carácter comodín

No permitir: /admin/ definido aquí Está prohibido rastrear el directorio en el directorio de administración

Disallow: /require/ La definición aquí es prohibir el rastreo del directorio en el directorio require

Disallow: /ABC/ El La definición aquí es prohibir el rastreo de directorios en el directorio ABC

No permitir: /cgi-bin/*.htm prohíbe el acceso a todas las URL con el sufijo ".htm" (incluidos los subdirectorios) en /cgi-bin / directorio.

Disallow: /*?* prohíbe el acceso a todas las URL que contengan signos de interrogación (?) en el sitio web

Disallow: /.jpg$ prohíbe el rastreo de todas las imágenes en formato .jpg en el página web

Disallow:/ab/adc.html prohíbe el rastreo del archivo adc.html en la carpeta ab.

Permitir: /cgi-bin/ La definición aquí es permitir el rastreo de directorios bajo el directorio cgi-bin

Permitir: /tmp La definición aquí es permitir el rastreo de todo el directorio directorio de tmp

Permitir: /cgi-bin/ p>

Permitir: .htm$ solo permite el acceso a URL con el sufijo ".htm".

Permitir: .gif$ permite rastrear páginas web e imágenes en formato gif

Mapa del sitio: el mapa del sitio le indica al rastreador que esta página es un mapa del sitio

Archivo Uso

Ejemplo 1. Prohibir que todos los motores de búsqueda accedan a cualquier parte del sitio web

Agente de usuario: *

No permitir: /

Análisis de ejemplo: archivo Taobao Robots.txt

Agente de usuario: Baiduspider

No permitir: /

Agente de usuario: baiduspider

No permitir: /

Obviamente Taobao no permite que los robots de Baidu accedan a todos los directorios de su sitio web.

Ejemplo 2. Permitir el acceso de todos los robots (o puede crear un archivo vacío "/robots.txt")

Agente de usuario: *

Permitir: /

Ejemplo 3. No permitir el acceso a un motor de búsqueda

Agente de usuario: BadBot

No permitir: /

Ejemplo 4 . Permitir el acceso a un determinado motor de búsqueda

User-agent: Baiduspider

allow: /

Ejemplo 5. Un ejemplo sencillo

. En este ejemplo, el sitio web tiene tres directorios que restringen el acceso a los motores de búsqueda, es decir, los motores de búsqueda no accederán a estos tres directorios.

Cabe señalar que cada directorio debe declararse por separado, en lugar de escribirse como "Disallow: /cgi-bin/ /tmp/".

Agente de usuario: El * después tiene un significado especial y representa "cualquier robot", por lo que no puede haber "Disallow: /tmp/*" o "Disallow: *.gif" en este archivo. aparece.

Agente de usuario: *

No permitir: /cgi-bin/

No permitir: /tmp/

No permitir: /~joe /

Parámetros especiales del robot:

Permitir el robot de Google:

Si desea bloquear el acceso de todos los robots, excepto el robot de Google, a su página web, puede utilizar la siguiente sintaxis :

Agente de usuario:

No permitir: /

Agente de usuario: Googlebot

No permitir:

El robot de Google sigue filas que apuntan a sí mismo, no filas que apuntan a todos los robots.

Extensión "Permitir":

Googlebot reconoce la extensión estándar del archivo robots.txt llamada "Permitir". Es posible que los robots de otros motores de búsqueda no reconozcan esta extensión, así que utilice otros motores de búsqueda que le interesen para buscarla. La línea "Permitir" funciona exactamente igual que la línea "No permitir". Simplemente enumere los directorios o páginas que desea permitir.

También puedes utilizar "No permitir" y "Permitir" al mismo tiempo. Por ejemplo, para bloquear todas las páginas menos una en un subdirectorio, utilice la siguiente entrada:

Agente de usuario: Googlebot

Permitir: /carpeta1/miarchivo.html

No permitir: /carpeta1/

Estas entradas bloquearán todas las páginas en el directorio carpeta1 excepto myfile.html.

Si desea bloquear el robot de Google y permitir el acceso a otro robot de Google (como Googlebot-Mobile), utilice la regla "Permitir" para permitir el acceso a ese robot. Por ejemplo:

Agente de usuario: Googlebot

No permitir: /

Agente de usuario: Googlebot-Mobile

Permitir:

Utilice el signo * para hacer coincidir una secuencia de caracteres:

Puede utilizar un asterisco (*) para hacer coincidir una secuencia de caracteres. Por ejemplo, para bloquear el acceso a todos los subdirectorios que comienzan con privado, utilice la siguiente entrada: User-Agent: Googlebot

Disallow: /private*/

Para bloquear el acceso a todos los subdirectorios que contienen Para acceder a una URL con un signo de interrogación (?), utilice las siguientes entradas:

Agente de usuario: *

No permitir: /*?*

Usar $ para que coincida con la URL El carácter final de

Puede utilizar el carácter $ para especificar una coincidencia con el carácter final de la URL. Por ejemplo, para bloquear las URL que terminan en .asp, use la siguiente entrada: User-agent: Googlebot

Disallow: /*.asp$

Puede hacer coincidir este patrón con Permitir usado junto con las instrucciones. Por ejemplo, si ? representa un ID de sesión, puede excluir todas las URL que contengan ese ID para garantizar que el robot de Google no rastree páginas duplicadas. Sin embargo, las URL que terminan en ? pueden ser la versión de la página que desea incluir.

En este caso, se pueden realizar las siguientes configuraciones en el archivo robots.txt:

Agente de usuario: *

Permitir: /*?$

No permitir : / *?

No permitir: / *?

Una línea bloqueará las URL que contengan ? (específicamente, bloqueará todas las URL que comiencen con su nombre de dominio, seguidas de cualquier cadena, y luego hay un signo de interrogación (?), seguido de la URL de cualquier cadena).

Permitir: una línea de /*?$ permitirá cualquier URL que termine en ? (específicamente, permitirá cualquier URL que comience con su nombre de dominio, seguida de cualquier cadena y luego un signo de interrogación (? ), una URL sin caracteres después del signo de interrogación).

Aunque el archivo robots.txt existe desde hace muchos años, los principales motores de búsqueda lo interpretan de forma ligeramente diferente. Tanto Google como Baidu proporcionan herramientas robóticas en sus propias herramientas para webmasters. Si ha escrito un archivo robots.txt, se recomienda que lo pruebe en ambas herramientas, ya que las dos tienen implementaciones de análisis ligeramente diferentes.