Use del archivo robots.txt

Los robots o arañas son unos programas que usan los buscadores para rastrear la web. Cuando llegan a tu sitio, lo primero que hacen es buscar el archivo robots.txt y dependiendo de lo que diga en él, continúan en tu sitio o se van a otro.

Puedes entender el archivo robots.txt como una lista de instrucciones administrativas de esos robots, la cual te permite restringir el acceso a tu sitio selectivamente. Si hay páginas que prefieres mantener fuera del alcance de los buscadores, puedes configurarlo aquí, y si hay un buscador al que quieres denegar el acceso, también.

Puedes generar el archivos robots.txt con Notepad++ o similar y lo pones en la raiz de sitio web.

Estas etiquetas son:

1. User-agent

Indica qué tipo de robot debe cumplir con las directivas que se indiquen a continuación.

2. Disallow

Deniega el acceso a un directorio o página concreta.

3. Allow

Funciona al contrario que la directiva Disallow, permitiendo el acceso a directorios y páginas. Se puede utilizar para sobrescribir la directiva Disallow parcial o totalmente.

4. Sitemap

Indicar la ruta donde se encuentra un mapa del sitio en XML.

5. Crawl-delay

Indica al robot el número de segundos que debe esperar entre cada página. Puede ser útil en casos en los que se necesita reducir la carga del servidor.

6. Comodines

Adicionalmente, puedes utilizar comodines para aumentar o reducir la concordancia

ComandoDescripción
Disallow: a*No indexar las URLs que inicien con la letra a
Disallow: *aNo indexar las URLs con cualquier cadena de caracteres antes de la letra a
Disallow: *a$No indexar las cadenas de caracteres que termine con la letra a
Disallow /*.jpg$No indexar los archivos tipo jpg.

7. Ejemplos simples

ComandoDescripción
User-agent: *Incluir todos los robots
User-agent: GooglebotEspecificar el robot de Google
User-agent: BingbotEspecificar el robot de Bing
Disallow: /Denegar todo el sitio
Disallow: /directorio/Denegar un directorio
Disallow: /algo*/Denegar directorios que comienzan por “algo”
Disallow: /pagina-web.htmDenegar la página-web.htm
Disallow: /algoDenegar directorios y páginas que comienzan por “algo”
Disallow: /*.gif$Denegar la extensión .gif
Allow: /directorio/subdirectorio/Permitir un subdirectorio
Sitemap: https://apuntes.perut.org/HTML/sitemap.xmlSeñalar el mapa del sitio

8. Ejemplos completos

User-Agent: *
Disallow: /*.css$
Disallow: /*.js$

Sitemap: https://apuntes.perut.org/HTML/sitemap.xml
User-Agent: *
Disallow: /privada
Allow: /

Sitemap: https://apuntes.perut.org/HTML/sitemap.xml