¿Qué significa robots?
Robots es una palabra en inglés que significa "robot(s)". En informática, "robots.txt" es un formato de archivo, generalmente ubicado en el directorio raíz de un sitio web, que se utiliza para indicar a los rastreadores de los motores de búsqueda qué reglas se deben seguir al visitar el sitio web, como qué páginas se deben permitir rastrear. y qué páginas deberían rastrearse no deberían rastrearse, etc. Este archivo está diseñado para ayudar a los webmasters a optimizar los motores de búsqueda y controlar el comportamiento de rastreo de los motores de búsqueda.
En los protocolos de red, robots.txt es un protocolo estándar utilizado por los administradores de sitios web para indicar a los robots de los motores de búsqueda qué páginas no deben rastrearse. Cuando el rastreador de un motor de búsqueda visita un sitio web, primero buscará el archivo robots.txt en el directorio raíz del sitio y analizará el contenido del archivo para determinar a qué páginas se puede acceder y cuáles están prohibidas.
Uso de robots.txt:
1. Cree el archivo robots.txt. Normalmente, este archivo debe guardarse en el directorio raíz del sitio web.
2. Determine las páginas web a las que se les niega el acceso a los motores de búsqueda. Para hacer esto, debe determinar qué páginas no desea que aparezcan en los resultados de búsqueda porque estas páginas contienen información confidencial. fecha, y no se vuelven a aplicar, o páginas web que pertenecen a un solo propósito (como páginas de resultados), etc. Para las páginas que desea permitir que aparezcan en los motores de búsqueda, no es necesario definirlas en el archivo robots.txt.
3. Indique qué páginas son inaccesibles según el User-Agent. También puede utilizar la directiva Sitemap en el archivo robots.txt para indicarle al motor de búsqueda la dirección del mapa del sitio, de modo que el motor de búsqueda. Puede rastrear tu sitio web mejor.
4. Cargue el archivo robots.txt en el directorio raíz de su sitio web y asegúrese de que los permisos del archivo estén configurados correctamente para que los rastreadores de los motores de búsqueda puedan leerlo.
El formato del archivo robots.txt es relativamente simple e incluye principalmente los dos comandos siguientes:
1. Comando usuario-agente: se utiliza para especificar el nombre o identificador de la búsqueda. oruga del motor.
2. Comando Disallow: se utiliza para indicar la dirección URL de la página que los rastreadores de los motores de búsqueda no deben rastrear.
Por ejemplo, aquí hay un ejemplo de un archivo robots.txt simple:
Agente de usuario: *
No permitir: /iniciar sesión
No permitir: /admin
No permitir: /assets (este archivo indica que no desea que ningún rastreador de motores de búsqueda rastree las páginas bajo las rutas /login, /admin y /assets).
notas de robots.txt
1. La importancia del archivo robots.txt requiere atención. En pocas palabras, el archivo robots.txt puede controlar a qué páginas pueden acceder y rastrear los rastreadores de los motores de búsqueda. y qué páginas deben ignorarse. Por lo tanto, escribir y configurar correctamente el archivo robots.txt puede ayudar a proteger la seguridad del contenido del sitio web, mejorar la eficacia de la inclusión y optimización del sitio web por parte de los motores de búsqueda, aumentando así el tráfico y los ingresos del sitio web.
2. Tenga cuidado al escribir el archivo robots.txt. Al escribir el archivo robots.txt, debe verificar cuidadosamente a qué páginas se debe prohibir el acceso a los motores de búsqueda y a qué páginas se puede acceder. Si se configura incorrectamente, puede causar algunos efectos adversos, como provocar que los motores de búsqueda no puedan acceder a contenido importante del sitio web, reduciendo así el peso y la clasificación del sitio web.