¿Qué es el protocolo de robots? Cómo escribir y utilizar robots.txt en el sitio web
El nombre completo del protocolo Robots (también conocido como protocolo de rastreo, protocolo de robot, etc.) es "Protocolo de exclusión de robots". El sitio web utiliza el protocolo Robots para indicar a los motores de búsqueda qué páginas se pueden rastrear y qué páginas. No se puede agarrar.
Método de escritura de archivos
Agente de usuario: * El * aquí representa todos los tipos de motores de búsqueda, * es un carácter comodín
No permitir: /admin/ definido aquí Está prohibido rastrear el directorio en el directorio de administración
Disallow: /require/ La definición aquí es prohibir el rastreo del directorio en el directorio require
Disallow: /ABC/ El La definición aquí es prohibir el rastreo de directorios en el directorio ABC
No permitir: /cgi-bin/*.htm prohíbe el acceso a todas las URL con el sufijo ".htm" (incluidos los subdirectorios) en /cgi-bin / directorio.
Disallow: /*?* prohíbe el acceso a todas las URL que contengan signos de interrogación (?) en el sitio web
Disallow: /.jpg$ prohíbe el rastreo de todas las imágenes en formato .jpg en el página web
Disallow:/ab/adc.html prohíbe el rastreo del archivo adc.html en la carpeta ab.
Permitir: /cgi-bin/ La definición aquí es permitir el rastreo de directorios bajo el directorio cgi-bin
Permitir: /tmp La definición aquí es permitir el rastreo de todo el directorio directorio de tmp
Permitir: /cgi-bin/ p>
Permitir: .htm$ solo permite el acceso a URL con el sufijo ".htm".
Permitir: .gif$ permite rastrear páginas web e imágenes en formato gif
Mapa del sitio: el mapa del sitio le indica al rastreador que esta página es un mapa del sitio
Archivo Uso
Ejemplo 1. Prohibir que todos los motores de búsqueda accedan a cualquier parte del sitio web
Agente de usuario: *
No permitir: /
Análisis de ejemplo: archivo Taobao Robots.txt
Agente de usuario: Baiduspider
No permitir: /
Agente de usuario: baiduspider
No permitir: /
Obviamente Taobao no permite que los robots de Baidu accedan a todos los directorios de su sitio web.
Ejemplo 2. Permitir el acceso de todos los robots (o puede crear un archivo vacío "/robots.txt")
Agente de usuario: *
Permitir: /
Ejemplo 3. No permitir el acceso a un motor de búsqueda
Agente de usuario: BadBot
No permitir: /
Ejemplo 4 . Permitir el acceso a un determinado motor de búsqueda
User-agent: Baiduspider
allow: /
Ejemplo 5. Un ejemplo sencillo
. En este ejemplo, el sitio web tiene tres directorios que restringen el acceso a los motores de búsqueda, es decir, los motores de búsqueda no accederán a estos tres directorios.
Cabe señalar que cada directorio debe declararse por separado, en lugar de escribirse como "Disallow: /cgi-bin/ /tmp/".
Agente de usuario: El * después tiene un significado especial y representa "cualquier robot", por lo que no puede haber "Disallow: /tmp/*" o "Disallow: *.gif" en este archivo. aparece.
Agente de usuario: *
No permitir: /cgi-bin/
No permitir: /tmp/
No permitir: /~joe /
Parámetros especiales del robot:
Permitir el robot de Google:
Si desea bloquear el acceso de todos los robots, excepto el robot de Google, a su página web, puede utilizar la siguiente sintaxis :
Agente de usuario:
No permitir: /
Agente de usuario: Googlebot
No permitir:
El robot de Google sigue filas que apuntan a sí mismo, no filas que apuntan a todos los robots.
Extensión "Permitir":
Googlebot reconoce la extensión estándar del archivo robots.txt llamada "Permitir". Es posible que los robots de otros motores de búsqueda no reconozcan esta extensión, así que utilice otros motores de búsqueda que le interesen para buscarla. La línea "Permitir" funciona exactamente igual que la línea "No permitir". Simplemente enumere los directorios o páginas que desea permitir.
También puedes utilizar "No permitir" y "Permitir" al mismo tiempo. Por ejemplo, para bloquear todas las páginas menos una en un subdirectorio, utilice la siguiente entrada:
Agente de usuario: Googlebot
Permitir: /carpeta1/miarchivo.html
No permitir: /carpeta1/
Estas entradas bloquearán todas las páginas en el directorio carpeta1 excepto myfile.html.
Si desea bloquear el robot de Google y permitir el acceso a otro robot de Google (como Googlebot-Mobile), utilice la regla "Permitir" para permitir el acceso a ese robot. Por ejemplo:
Agente de usuario: Googlebot
No permitir: /
Agente de usuario: Googlebot-Mobile
Permitir: p >
Utilice el signo * para hacer coincidir una secuencia de caracteres:
Puede utilizar un asterisco (*) para hacer coincidir una secuencia de caracteres. Por ejemplo, para bloquear el acceso a todos los subdirectorios que comienzan con privado, utilice la siguiente entrada: User-Agent: Googlebot
Disallow: /private*/
Para bloquear el acceso a todos los subdirectorios que contienen Para acceder a una URL con un signo de interrogación (?), utilice las siguientes entradas:
Agente de usuario: *
No permitir: /*?*
Usar $ para que coincida con la URL El carácter final de
Puede utilizar el carácter $ para especificar una coincidencia con el carácter final de la URL. Por ejemplo, para bloquear las URL que terminan en .asp, use la siguiente entrada: User-agent: Googlebot
Disallow: /*.asp$
Puede hacer coincidir este patrón con Permitir usado junto con las instrucciones. Por ejemplo, si ? representa un ID de sesión, puede excluir todas las URL que contengan ese ID para garantizar que el robot de Google no rastree páginas duplicadas. Sin embargo, las URL que terminan en ? pueden ser la versión de la página que desea incluir.
En este caso, se pueden realizar las siguientes configuraciones en el archivo robots.txt:
Agente de usuario: *
Permitir: /*?$
No permitir : / *?
No permitir: / *?
Una línea bloqueará las URL que contengan ? (específicamente, bloqueará todas las URL que comiencen con su nombre de dominio, seguidas de cualquier cadena, y luego hay un signo de interrogación (?), seguido de la URL de cualquier cadena).
Permitir: una línea de /*?$ permitirá cualquier URL que termine en ? (específicamente, permitirá cualquier URL que comience con su nombre de dominio, seguida de cualquier cadena y luego un signo de interrogación (? ), una URL sin caracteres después del signo de interrogación).
Aunque el archivo robots.txt existe desde hace muchos años, los principales motores de búsqueda lo interpretan de forma ligeramente diferente. Tanto Google como Baidu proporcionan herramientas robóticas en sus propias herramientas para webmasters. Si ha escrito un archivo robots.txt, se recomienda que lo pruebe en ambas herramientas, ya que las dos tienen implementaciones de análisis ligeramente diferentes.