Javier Primo

robots.txt: qué es y cómo funciona

robots.txt: qué es

El archivo robots.txt es un protocolo estandarizado para evitar que ciertos bots que analizan los sitios Web agreguen información innecesaria o privada, es decir, indica a qué partes no quieres que accedan los rastreadores en general y a Google muy especialmente.

robots.txt: componentes del archivo

User-agent – especifica qué robot.
Disallow – sugiere que los robots no rastreen esta área.
Allow – permite a los robots rastrear esta área.
Crawl-delay – indica a los robots que esperen un cierto número de segundos antes de continuar con el rastreo.
Sitemap: especifica la ubicación del mapa del sitio.
Noindex: le indica a Google que elimine páginas del índice.
# – comenta una línea para que no se lea.
* – coincide con cualquier texto.
$ – la URL debe terminar aquí.
Otras cosas que debe saber sobre robots.txt:

  • Las URL y el archivo robots.txt distinguen entre mayúsculas y minúsculas.
  • EL robots.txt debe estar en la carpeta principal, es decir, domain.com/robots.txt.
  • Cada subdominio necesita su propio robots.txt – www.domain.com/robots.txt no es lo mismo que domain.com/robots.txt.
  • Google no respeta el retraso de rastreo, pero puede administrar la configuración de rastreo en Google Search Console.

robots.txt nike

Meta Robots vs robots.txt

Los rastreadores pueden ignorar el robots.txt. Prohibir simplemente sugiere que los rastreadores no vayan a un lugar. Muchas personas usan esto para intentar desindexar las páginas, pero no funcionará si alguien enlaza a una página externamente, todavía se mostrará en los SERPs. Es mejor noindex a través de meta robots o x-robots.
Permitir CSS y JS, de acuerdo con Gary Illyes de Google.

Meta robots es una etiqueta en HTML que se utiliza para dar instrucciones a los buscadores. Al igual que el archivo robots.txt, se puede utilizar para impedir el rastreo e indexación de una página web, sin embargo, hay una diferencia.

Mientras que el archivo robots.txt pide a los buscadores que no rastreen una página (y por tanto que no la indexen), la etiqueta meta robots les da permiso para rastrear una página, pero no almacenarla en su índice.

Dado que los buscadores utilizan enlaces para descubrir las páginas de un sitio web, la etiqueta meta robots tiene una ventaja, y es que permite evitar la indexación de ciertas páginas sin convertirse en un obstáculo para el buscador en su tarea de descubrir nuevas páginas en el sitio.

Be Sociable, Share!
Facebook Twitter Email

Javier Primo

Empiezo a trabajar en marketing online en la web de búsqueda de pareja edarling.es, donde me encargaba de redactar artículos optimizados para la página, analizar el tráfico de la web, buscar webs de calidad con las que llegar a acuerdos y gestionar la política de enlaces. También era encargado del linkbuilding, de buscar y analizar la estrategia de los competidores, de la negociación con webmasters y la gestión de las redes sociales (google +, facebook y twitter), además de escribir y optimizar artículos dentro de la web. Actualmente trabajo como SEO Global Manager para NH Hoteles, gestionando ocho dominios diferentes.

This entry was posted in General. Bookmark the permalink.