
¿Qué es un Archivo Robots.txt y Cómo se Utiliza?. El archivo robots.txt
es un archivo de texto que permite ejecutar acciones de administración para el posicionamiento a través de la optimización en motores de búsqueda o SEO (Search Engine Optimization, por sus siglas en inglés). Además se puede utilizar para realizar acciones útiles en su sitio de WordPress. En este tutorial presentamos información útil sobre este archivo.
¿Qué es un Archivo Robots.txt?
Robots.txt
es un archivo de texto ubicado en el directorio raíz de un sitio web. Este archivo especifica a los motores de búsqueda o a las arañas/rastreadores web, cuáles páginas y archivos del sitio web usted quiere que visiten. Por lo general, los propietarios de sitios se esfuerzan por hacerse notar en los motores de búsqueda, pero en algunos casos esto no es necesario. Por ejemplo: si usted almacena datos sensibles o si quiere ahorrar ancho de banda al no indexar o excluir algunas páginas con imágenes.
Cuando un rastreados accede a un sitio, lo primero que hace es solicitar el archivo /robots.txt
. Si ese archivo se encuentra, el rastreador lo comprueba en busca de instrucciones de indexación del sitio.
Nota: Solo puede haber un archivo robots.txt
para cada sitio web. Un archivo robots.txt
para un dominio adicional necesita ser dispuesto en el document root correspondiente.
Un archivo robots.txt
está compuesto de líneas que contienen dos campos: una línea tiene el nombre del usuario agente (rastreadores de motores de búsqueda) y otras varias líneas que comienzan con la directiva Disallow:
.
Un archivo robots.txt
debe ser creado en el formato de texto de UNIX.
Sintaxis básica del archivo robots.txt
En general, un archivo robots.txt
tiene la siguiente estructura:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~different/
En este archivo de ejemplo, se pide excluir los directorios /cgi-bin/
, /tmp/
y /~different/
de la indexación.
Nota: cada directorio está escrito en una línea separada. No puede escribir Disallow: /cgi-bin/ /tmp/
en una sola línea. Tampoco puede dividir una directiva Disallow
o User-agent
en varias líneas —utilice una nueva línea para separar las directivas entre sí—.
Un asterisco (*
) en el campo User-agent
significa «cualquier rastreador web». En consecuencia, las directivas del tipo: Disallow: .gif' or 'User-agent: Mozilla
no son soportada. Por favor preste atención a este tipo de errores lógicos ya que son los más comunes.
Otro problema común son los errores tipográficos —directorios mal escritos, user-agents
, dos puntos faltantes después de User-agent
o Disallow
, etc. A medida que sus archivos robots.txt
se vuelen más complicados es más fácil que se nos deslice algún error, para estos casos hay herramientas de revisión útiles como https://tool.motoricerca.info/robots-checker.phtml.
Ejemplos de uso
Aquí hay algunos ejemplos útiles del uso de robots.txt
.
- Prevenir que todo el contenido del sitio se indexe por los rastreadores web:
User-agent: * Disallow: /
- Permitir que los rastreadores web indexen el sitio completamente:
User-agent: * Disallow:
- Prevenir solo la indexación de algunos directorios (por ejemplo
/cgi-bin/
):User-agent: * Disallow: /cgi-bin/
- Prevenir la indexación del sitio por un rastreador web específico (por ejemplo
Opera 9
):User-agent: Opera 9 Disallow: User-agent: * Disallow: /
- Prevenir que todos los archivos sean indexados excepto uno. Esto es difícil ya que la directiva opuesta a
Disallow
no existe. En cambio, puede mover todos los archivos a un cierto subdirectorio y prevenir su indexación, lo que permitiría acceder al único archivo fuera de ese subdirectorio.User-agent: * Disallow: /docs/
También puede usar el siguiente generador de archivos robots.txt
.
Robots.txt y posicionamiento SEO
Eliminar exclusiones de imágenes
En algunas versiones de CMSs el archivo predeterminado robots.txt
está configurado para excluir su directorio de imágenes. Este problema no ocurre en versiones más recientes de CMSs, pero debe comprobar si posee alguna versión más antigua.
Esta exclusión significa que sus imágenes no serán indexadas e incluidas en la búsqueda de imágenes de Google, lo que es algo que —en general— no será conveniente, porque esto aumenta el posicionamiento SEO.
En caso de querer cambiar este comportamiento abra su archivo robots.txt
y elimine la siguiente línea:
Disallow: /images/
Agregar referencia a su archivo sitemap.xml
Si usted tiene un archivo sitemap.xml
(y debería tenerlo porque aumenta su posicionamiento SEO), es bueno incluir la siguiente línea en su archivo robots.txt
:
sitemap:https://www.ejemplo.com/sitemap.xml
Remplazando con los valores reales de su dominio y la ubicación del archivo sitemap.xml
.
Comentarios adicionales
- No bloquee archivos CSS, Javascript u otros archivos de recursos por defecto. Esto evitaría que Googlebot reproduzca su página apropiadamente y comprenda que su sitio está optimizado para dispositivos móviles.
- También puede usar el archivo para prevenir que ciertas páginas sean indexadas, como las páginas de inicio de sesión o del error 404. Sin embargo, la mejor manera de lograr esto es colocando y configurando etiquetas
<meta name="robots" content="NOINDEX">
dentro del archivo HTML. - Agregar declaraciones
Disallow
en un archivorobots.txt
no elimina el contenido. Simplemente bloquea el acceso a las arañas web. Si hay contenido que desea eliminar, lo mejor es usar unmeta
con el argumentonoindex
. - Como una regla, el archivo
robots.txt
nunca debería ser utilizado para manejar contenido duplicado. Hay mejores formas de abordar este problema, por ejemplo: usando la etiquetaRel=canonical
, la cual pertenece al encabezado HTML de una página web. - Tenga siempre en cuenta que el archivo
robots.txt
no es único. Frecuentemente hay otras herramientas a su disposición que pueden hacer un mejor trabajo, como las herramientas de gestión de parámetros de Google y las herramientas para webmaster de Bing, la etiquetax-robots-tag
y la etiquetameta
pararobots
.
Robots.txt para su sitio web de WordPress
WordPress crea un archivo robots.txt
virtual una vez que hace su primera publicación. Aunque si ya creó un archivo robots.txt
en su servidor, entonces WordPress no agregará uno nuevo ni lo reescribirá.
Un archivo virtual robots.txt
no existe en el servidor y solo puede acceder a él a través del siguiente enlace: https://www.ejemplo.com/robots.txt
(recuerde sustituir con su dominio real).
Por defecto, este archivo permitirá la indexación a través del Mediabot de Google, se rechazarán un grupo de spambots y se deshabilitarán algunos directorios y archivos de WordPress.
En caso de no haber creado un archivo robots.txt
aún, cree uno con cualquier editor de texto y súbalo al directorio raíz de su servidor usando algún cliente FTP.
Bloquear los directorios principales de WordPress
Hay 3 directorios estándar en cada instalación de WordPress: wp-content
, wp-admin
y wp-includes
. Estos directorios no necesitan ser indexados.
Tampoco puede seleccionar el rechazo de toda la carpeta wp-content
, ya que esta contiene un subdirectorio (uploads
) con todos los archivos multimedia de su sitio web y no querrá bloquearlo. Es por esto que debe proceder como sigue:
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Bloquear con base en la estructura de su sitio
Cada blog puede estar estructurado de las siguientes maneras:
—en categorías.
—en etiquetas.
—con base en los dos anteriores, o en ninguno.
—con base en los archivos por fechas.
- Si su sitio está estructurado en categorías, no tiene que tener los archivos
Tag
indexados. Encuentre su base de etiquetas en la opción Enlaces permanentes de su escritorio de administración de WordPress. Si el campo correspondiente a la etiqueta está en blanco, entonces la etiqueta base es simplementetag
:Disallow: /tag/
- Si su sitio está estructurado por etiquetas, necesita bloquear los archivos de categoría. Encuentre la categoría base y utilice la siguiente directiva:
Disallow: /category/
- Si utiliza tanto categorías como etiquetas, no necesita usar ninguna directiva. En caso de que no utilice ninguna, debe bloquearlas:
Disallow: /tags/ Disallow: /category/
- Si su sitio está estructurado en una base de archivos por fecha, puede bloquear estas de la siguiente manera:
Disallow: /2010/ Disallow: /2011/ Disallow: /2012/ Disallow: /2013/
Nota: aquí no puede utilizar Disallow: /20*/
como una directiva, porque bloquearía absolutamente todas las publicaciones que comiencen con el número «20».
Problemas de contenido duplicado en WordPress
Por defecto, WordPress tiene páginas duplicadas que no son buenas para el posicionamiento SEO. Para arreglar esto, recomendamos no usar el archivo robots.txt
, sino más bien hacerlo de una manera más sutil: la etiqueta rel = canonical
utilizada para colocar la única dirección canónica URL correcta en la sección de su sitio. De esta manera, los rastreadores web solo rastrearían la versión canónica de una página.
Recursos adicionales
Puede consultar los siguientes recursos en busca de información que complemente nuestra guía. Recuerde que no podemos certificar la actualidad o precisión de los contenidos externos.
- Artículo oficial de Google sobre los archivos robots.txt.
- Puede visitar Codex de WordPress: el manual oficial en línea de WordPress y un repositorio con información y documentación.