¿Qué son los robots y cómo crear archivos de robots correctamente?
¿Qué son los robots?
Robots es un protocolo. Es un archivo de texto que termina en (robots.txt) establecido en el directorio raíz del sitio web. Es una instrucción restrictiva para las arañas de los motores de búsqueda. Es la primera página que el programa araña necesita para rastrear el sitio web. El sitio web puede utilizar el protocolo de robots para indicarle al programa araña del motor de búsqueda qué páginas se pueden rastrear y cuáles no.
El protocolo de robots se utiliza para indicar a los motores de búsqueda qué páginas se pueden rastrear y qué páginas no se pueden rastrear. Generalmente usamos robots para bloquear algunas páginas de spam, páginas duplicadas, enlaces inactivos y dinámicas en el sitio web. La misma página que la ruta múltiple estática. La ventaja de esto es que puede ahorrar parte del ancho de banda del servidor y también facilitar que el programa araña rastree mejor el contenido del sitio web. De hecho, los robots son como una guía que guía a los programas araña para rastrear las páginas de un sitio web.
Introducción a los símbolos de robots
Primero, conozcamos los caracteres que se usan comúnmente al escribir robots
Agente de usuario: Escriba el tipo de motor de búsqueda, aquí El La primera letra de debe estar en mayúscula U y se debe agregar una barra espaciadora después de los dos puntos:, como User-agent: * sin espacio, User-agent: * con un espacio.
* El asterisco aquí es un carácter comodín, que coincide con 0 o más caracteres
$ es un terminador
No permitir: indica que no deseas ser Directorio o URL accedido
Permitir: indica el directorio o URL al que desea que se acceda
La forma correcta de escribir robots
Forma 1: prohibir todas las búsquedas motores rastreen cualquier parte de la página del sitio web
Agente de usuario: * (* aquí también se puede escribir para prohibir el rastreo de una araña, como el Agente de usuario de Baidu: Baiduspider)
No permitir: /
Método de escritura 2: Permitir que todos los motores de búsqueda rastreen cualquier página del sitio web
Agente de usuario: *
Permitir: / p>
Por supuesto, si está permitido, puede escribir un archivo robots.txt vacío y colocarlo en el directorio raíz del sitio web
Otros ejemplos de escritura:
Agente de usuario: * representa todos los motores de búsqueda
No permitir: /abc/ significa que está prohibido rastrear el directorio bajo el directorio abc
No permitir: /abc/*.html significa que está prohibido para rastrear todas las URL con .html como sufijo en este directorio, incluidos los subdirectorios
Disallow: /*? *¿Desactivar el agarre de todas las tiras? URL del signo de interrogación
No permitir: /*jpg$ prohíbe todas las imágenes que terminan en .jpg
No permitir: /ab prohíbe el rastreo de todos los archivos que comienzan con ab
No permitir : /ab/a.html prohíbe rastrear el archivo a.html en la carpeta ab
Permitir: /ABC/ indica que se permite el rastreo del directorio en el directorio abc
Cómo escribir robots Baidu
Cómo escribir robots Taobao
Finalmente, aquí se explica cómo escribir robots en mi propio sitio web
Bien, primero demos estos ejemplos. y finalmente, recordarles a todos que se detengan, escriba cuidadosamente el acuerdo de robots, asegúrese de que todos los problemas se resuelvan antes de que el sitio web esté en línea y cree el texto robots.txt en el directorio raíz.
85. Sr. Song 94-80 Tarea