¿Qué es Robots.txt?

Robots.txt es un archivo que le indica a las arañas de rastreo de los motores de búsqueda que no rastreen ciertas páginas o secciones completas de un sitio web.

Los motores de búsqueda son capaces de interpretar y cumplir estas solicitudes sin problemas.

¿Por qué es importante el archivo Robots.txt?

La mayoría de los sitios web no requieren crear un archivo robots.txt, debido a que Google es capaz de indexar fácilmente todas las páginas relevantes de un sitio web, y no indexando las páginas que no seas relevantes de indexar, bien sea por ser contenido duplicado de la misma web o por otros motivos.

Sin embargo, existen motivos de interés para tener un archivo Robots.txt en tu sitio web. Entre ellas:

1. Bloquear páginas no públicas

En ocasiones se busca que un conjunto páginas no sean indexadas en los motores de búsqueda.

Por ejemplo, es posible que tengas una versión de prueba de tu página web y quieres evitar la duplicidad.

Si tienes una sección de inicio de sesión, lo más probable es que no quieras que se indexen, como suele pasar con CMS como WordPress donde se especifica que el archivo /wp-admin no sea rastreado.

Disallow: /wp-admin/

2. Maximizar el presupuesto de rastreo

Si tienes un sitio web con miles de páginas internas y te resulta difícil indexar todas tus páginas, es posible que tengas un problema de crawl budget.

Al bloquear las páginas sin importancia mediante el archivo robots.txt, podrás dedicar más presupuesto de rastreo a las páginas importantes.

3. Evitar la indexación de recursos

El uso de meta directivas puede funcionar tan bien como el Robots.txt para evitar que las páginas sean rastreadas.

Sin embargo, las meta directivas no funcionan bien para los recursos multimedia, como las imágenes o documentos.

Es allí donde entra en juego el archivo robots.txt, para que le indique a las arañas de los motores de búsqueda que no rastreen páginas específicas de un sitio web.

Puedes comprobar cuántas páginas tienes indexadas en Google Search Console.

Si el número de páginas indexadas es igual al número de páginas que deseas indexar, no necesitas molestarte en crear un archivo Robots.txt.

Pero si el número es mayor de lo que esperabas, entonces es el momento de crear un archivo robots.txt óptimo para tu sitio web.

Crear un archivo Robots.txt

Al tratarse de un archivo de texto, puedes crearlo empleando el bloc de notas de Windows.

Y no importa cómo lo hagas, ya que el archivo robots.txt y el formato es exactamente el mismo:

User-agent: X
Disallow: Y

User-agent es el bot específico al que te diriges.

Y todo lo que viene después de «disallow» son páginas o secciones que quieres bloquear.

Otro ejemplo:

User-agent: googlebot
Disallow: /images

Esta regla le diría a Googlebot que no indexe la carpeta de imágenes de su sitio web.

También puedes utilizar un asterisco para dirigirse a todos los bots que pasen por su sitio web.

He aquí un ejemplo:

User-agent: *
Disallow: /images

El «*» indica a todas las arañas de rastreo que NO rastreen tu carpeta de imágenes.

Esta es sólo una de las muchas maneras de utilizar un archivo robots.txt.

Esta guía de Google contiene un montón de información útil sobre las diferentes reglas que puede utilizar para bloquear o permitir que los robots rastreen diferentes páginas de tu sitio.

Haz un archivo Robots.txt fácil de encontrar

Una vez que tengas tu archivo robots.txt, es el momento de activarlo.

Técnicamente, puedes colocar el archivo robots.txt en cualquier directorio principal de su sitio.

Pero para aumentar las probabilidades de que su archivo robots.txt sea encontrado, es recomiendable ubicarlo en:

https://ejemplo.com/robots.txt

(Ten en cuenta que el archivo robots.txt distingue entre mayúsculas y minúsculas, es por ello que te debes de asegurar de emplear la «r» minúscula en el nombre del archivo)

Comprueba errores

Es importante que el archivo robots.txt esté configurado correctamente.

Un simple error y todo tu sitio podría ser desindexado.

Afortunadamente, Google tiene una herramienta muy útil que permite una rápida comprobación de robots.txt que puedes utilizar:

Te muestra tu archivo robots.txt y los errores y advertencias que encuentra.

Robots.txt vs. Meta Directivas

¿Por qué usar robots.txt cuando puedes bloquear páginas con la etiqueta meta «noindex«?

La etiqueta noindex es difícil de implementar en ciertos recursos como los archivos multimedia, videos, PDFs, entre otros.

Además, si tienes un sitio web con miles y miles de páginas internas que deseas bloquear, es mucho más fácil bloquear toda la sección completa de un sitio con robots.txt en lugar de añadir manualmente una etiqueta noindex a cada página.

También hay casos extremos en los que no se quiere desperdiciar el presupuesto de rastreo de Google en las páginas con la etiqueta noindex.

Fuera de esos 3 casos extremos, es recomendable emplear las meta directivas en lugar de robots.txt.

Son más fáciles de implementar y tienen menos posibilidades de que ocurra un desastre garrafal, como bloquear todo tu sitio web.

Información complementaria

Si deseas conocer a profundidad todo acerca del archivo robots.txt visita la documentación de Google.