Los robots o arañas son unos programas que usan los buscadores para rastrear la web. Cuando llegan a tu sitio, lo primero que hacen es buscar el archivo robots.txt y dependiendo de lo que diga en él, continúan en tu sitio o se van a otro.
Puedes entender el archivo robots.txt como una lista de instrucciones administrativas de esos robots, la cual te permite restringir el acceso a tu sitio selectivamente. Si hay páginas que prefieres mantener fuera del alcance de los buscadores, puedes configurarlo aquí, y si hay un buscador al que quieres denegar el acceso, también.
Puedes generar el archivos robots.txt con Notepad++ o similar y lo pones en la raiz de sitio web.
Estas etiquetas son:
Indica qué tipo de robot debe cumplir con las directivas que se indiquen a continuación.
Deniega el acceso a un directorio o página concreta.
Funciona al contrario que la directiva Disallow, permitiendo el acceso a directorios y páginas. Se puede utilizar para sobrescribir la directiva Disallow parcial o totalmente.
Indicar la ruta donde se encuentra un mapa del sitio en XML.
Indica al robot el número de segundos que debe esperar entre cada página. Puede ser útil en casos en los que se necesita reducir la carga del servidor.
Adicionalmente, puedes utilizar comodines para aumentar o reducir la concordancia
Comando | Descripción |
---|---|
Disallow: a* | No indexar las URLs que inicien con la letra a |
Disallow: *a | No indexar las URLs con cualquier cadena de caracteres antes de la letra a |
Disallow: *a$ | No indexar las cadenas de caracteres que termine con la letra a |
Disallow /*.jpg$ | No indexar los archivos tipo jpg. |
Comando | Descripción |
---|---|
User-agent: * | Incluir todos los robots |
User-agent: Googlebot | Especificar el robot de Google |
User-agent: Bingbot | Especificar el robot de Bing |
Disallow: / | Denegar todo el sitio |
Disallow: /directorio/ | Denegar un directorio |
Disallow: /algo*/ | Denegar directorios que comienzan por “algo” |
Disallow: /pagina-web.htm | Denegar la página-web.htm |
Disallow: /algo | Denegar directorios y páginas que comienzan por “algo” |
Disallow: /*.gif$ | Denegar la extensión .gif |
Allow: /directorio/subdirectorio/ | Permitir un subdirectorio |
Sitemap: https://apuntes.perut.org/HTML/sitemap.xml | Señalar el mapa del sitio |
User-Agent: * Disallow: /*.css$ Disallow: /*.js$ Sitemap: https://apuntes.perut.org/HTML/sitemap.xml
User-Agent: * Disallow: /privada Allow: / Sitemap: https://apuntes.perut.org/HTML/sitemap.xml