Si quieres optimizar el rastreo de tu sitio web para los robots de Google o para cualquier otro tipo de robot, este archivo va a hacerte la vida mucho más sencilla.
En resumen este documento no es más que un conjunto de directrices que le indicamos a los robots para decirles que pueden y que no pueden rastrear dentro de un sitio web. Por regla general, la mayor parte de webs están elaboradas por un CMS que ya tiene un archivo básico, que claramente recomendamos que edites según tus necesidades.
Aunque vamos a explicarte todo lo que debes saber a nivel SEO de este archivo, te recomendamos encarecidamente que le des un vistazo a la documentación que nos ofrece Google acerca de este archivo.
Un archivo robots.txt indica a los rastreadores de los buscadores a qué URLs de tu sitio pueden acceder. Principalmente, se utiliza para evitar que las solicitudes que recibe tu sitio lo sobrecarguen; no es un mecanismo para impedir que una página web aparezca en Google. Si quieres que una página web no aparezca en Google, bloquea la indexación con noindex o protege la página con una contraseña.
Este documento, no deja de ser un archivo con extensión .txt, que añadimos a nuestro sitio web para marcar el camino a las arañas o robots de las partes de nuestro sitio web pueden rastrear o no. Hay que tener en cuenta, que si no permitimos que los rastreadores pasen por una url, tampoco podrá ser indexada principalmente porque para ser indexada primero debe ser rastreable.
En este archivo, simplemente especificamos rápida y fácilmente los directorios, subdirectorios, y como ya hemos dicho, páginas que NO deben ser rastreados por los buscadores, pero también los que SÍ pueden ser rastreados. También podemos indicarles los robots que pueden rastrear el sitio web, esto reducirá las peticiones al servidor y no perjudicará al rendimiento del sitio web.
Como ya hemos comentado, este archivo está directamente relacionado con la indexación, que veremos en otro post. Normalmente, y si tienes wordpress, no tienes que preocuparte demasiado, ya que por defecto los robots podrán rastrear todo tu sitio web sin problemas, aunque esto se puede optimizar para que solo pase por los lugares que nos interesa y mejorar nuestro crawl budget o presupuesto de rastreo.
A continuación, veremos los principales elementos que conforman este archivo:
User-agent: Googlebot [solo para los robots de Google]
User-agent: * [para todos los robots]
Disallow: /productos/ [NO permite rastrear este directorio concreto]
Disallow: / [NO permite rastrear el sitio web]
User-agent: Googlebot
Disallow: /
[Le estamos indicando que el robot de google no puede rastrear el sitio web]
User Agent: Googlebot-Image
Disallow: /
[Le estamos indicando que el robot de imágenes de google no puede rastrear las imágenes sitio web]
User-agent: *
Disallow: /*.html$
[Le estamos indicando a cualquier robot que NO puede rastrear las urls que acaban según lo indicado]
Siempre es recomendable que después de hacer cambios en este archivo utilices la herramienta de Google para ver si esos cambios se han aplicado tal y como querías en tu sitio web.
Gracias a esta herramienta podemos ver que páginas son rastreables por su robot, que en definitiva es el que más nos importa a los SEO. En el caso que una página NO sea rastreable te indicará que fila es la que no le permite el rastreo para que puedas identificar cuales son las directrices que le impiden el paso a los bots.
Como ya hemos ido explicando a lo largo de este post, gracias a este archivo permitimos el acceso a diversos bots a nuestro sito web y gracias a este acceso también podrán indexar nuestras páginas. Siempre y cuando no hayamos indicado un no index en esa página en concreto.
Lógicamente, es un archivo clave para el posicionamiento en buscadores simplemente porque si no le permitimos el acceso no habrá posibilidad de que se indexen nuestros sitios webs en Google o cualquier otro buscador.
Para crear un archivo robot.txt, tan solo han que conocer las directrices y como aplicarlas, si esto está claro el resto es muy sencillo. Como ya hemos comentado, este archivo no es mas que un archivo de texto plano donde añadimos todas las directrices que queremos para nuestro sitio web.
Ahora que ya sabes como crearlo, es posible que no sepas donde tienes que añadirlo. Existen varias formas, pero la más rápida es subiendo este archivo al servidor mediante FTP, te recomendamos que consultes la documentación de Google que ya hemos compartido al principio de este mismo post. También, puedes usar plugins como Rank Math que tienen la funcionalidad de modificar este archivo y otros como el sitemap.xml.