Red de conocimiento de abogados - Derecho de sociedades - ¿Qué son los robots y cómo crear archivos de robots correctamente?

¿Qué son los robots y cómo crear archivos de robots correctamente?

¿Qué son los robots?

Robots es un protocolo. Es un archivo de texto que termina en (robots.txt) establecido en el directorio raíz del sitio web. Es una instrucción restrictiva para las arañas de los motores de búsqueda. Es la primera página que el programa araña necesita para rastrear el sitio web. El sitio web puede utilizar el protocolo de robots para indicarle al programa araña del motor de búsqueda qué páginas se pueden rastrear y cuáles no.

El protocolo de robots se utiliza para indicar a los motores de búsqueda qué páginas se pueden rastrear y qué páginas no se pueden rastrear. Generalmente usamos robots para bloquear algunas páginas de spam, páginas duplicadas, enlaces inactivos y dinámicas en el sitio web. La misma página que la ruta múltiple estática. La ventaja de esto es que puede ahorrar parte del ancho de banda del servidor y también facilitar que el programa araña rastree mejor el contenido del sitio web. De hecho, los robots son como una guía que guía a los programas araña para rastrear las páginas de un sitio web.

Introducción a los símbolos de robots

Primero, conozcamos los caracteres que se usan comúnmente al escribir robots

Agente de usuario: Escriba el tipo de motor de búsqueda, aquí El La primera letra de debe estar en mayúscula U y se debe agregar una barra espaciadora después de los dos puntos:, como User-agent: * sin espacio, User-agent: * con un espacio.

* El asterisco aquí es un carácter comodín, que coincide con 0 o más caracteres

$ es un terminador

No permitir: indica que no deseas ser Directorio o URL accedido

Permitir: indica el directorio o URL al que desea que se acceda

La forma correcta de escribir robots

Forma 1: prohibir todas las búsquedas motores rastreen cualquier parte de la página del sitio web

Agente de usuario: * (* aquí también se puede escribir para prohibir el rastreo de una araña, como el Agente de usuario de Baidu: Baiduspider)

No permitir: /

Método de escritura 2: Permitir que todos los motores de búsqueda rastreen cualquier página del sitio web

Agente de usuario: *

Permitir: /

Por supuesto, si está permitido, puede escribir un archivo robots.txt vacío y colocarlo en el directorio raíz del sitio web

Otros ejemplos de escritura:

Agente de usuario: * representa todos los motores de búsqueda

No permitir: /abc/ significa que está prohibido rastrear el directorio bajo el directorio abc

No permitir: /abc/*.html significa que está prohibido para rastrear todas las URL con .html como sufijo en este directorio, incluidos los subdirectorios

Disallow: /*? *¿Desactivar el agarre de todas las tiras? URL del signo de interrogación

No permitir: /*jpg$ prohíbe todas las imágenes que terminan en .jpg

No permitir: /ab prohíbe el rastreo de todos los archivos que comienzan con ab

No permitir : /ab/a.html prohíbe rastrear el archivo a.html en la carpeta ab

Permitir: /ABC/ indica que se permite el rastreo del directorio en el directorio abc

Cómo escribir robots Baidu

Cómo escribir robots Taobao

Finalmente, aquí se explica cómo escribir robots en mi propio sitio web

Bien, primero demos estos ejemplos. y finalmente, recordarles a todos que se detengan, escriba cuidadosamente el acuerdo de robots, asegúrese de que todos los problemas se resuelvan antes de que el sitio web esté en línea y cree el texto robots.txt en el directorio raíz.

85. Sr. Song 94-80 Tarea