El fichero robots.txt es un archivo de texto que dicta unas recomendaciones para que todos los crawlers y robots de buscadores cumplan. Veamos como crearlos y configurarlos.

optimizacion web
118

Escrito por

El fichero robots.txt es un archivo de texto que dicta unas recomendaciones para que todos los crawlers y robots de buscadores cumplan (¡ojo! recomendaciones, no obligaciones). Pero comencemos por el principio.

Un crawler es un robot de una entidad (generalmente buscadores) que acceden a las páginas web de un sitio para buscar información en ella, añadirla en los buscadores, etc. También son llamados spiders, arañas, bots o indexadores.

crawler spider robot indexador araña googlebot slurp

Por ejemplo, Googlebot es el nombre del crawler del buscador Google. También existen otros como:

  • Mediapartners-Google, que es el crawler que se encarga de revisar los anuncios de Google Adsense.
  • Googlebot-Image, robot indexador de imagenes del buscador de Google.
  • Googlebot-News, robot indexador de noticias para Google News.
  • Bingbot, crawler de indexación del buscador Bing
  • Slurp, crawler de indexación del antiguo buscador Yahoo!
  • Scooter, del clásico buscador Altavista.

Y muchísimos más. Si establecemos un control en nuestro robots.txt, podremos conseguir una serie de beneficios:

crawlers robots txt robots.txt spiders index
  • Impedir acceso a robots determinados: Puede parecer contradictorio, pero algunos crawlers no nos proporcionarán sino problemas. Algunos robots no son de buscadores, e incluso algunos robots no son ni amigos. Pero de eso ya hablaremos más tarde.
  • Reducir la sobrecarga del servidor: Podrás controlar el flujo de algunos robots. Algunos de ellos son un verdadero descontrol de peticiones que pueden llegar a saturar tu servidor.
  • Prohibir zonas: Nos puede interesar tener disponible una zona en nuestra web, que sea accesible para algunos, pero que no aparezca en buscadores.
  • Eliminar contenido duplicado: Uno de los casos más importantes, que casi siempre es olvidado por los webmasters. Si eliminamos la duplicidad de contenido, los buscadores nos puntuaran muy alto, aumentando el flujo de visitas.
  • Fijar mapas del sitio: También es posible acoplar un sitemap para indicar el buen camino a los robots.

Creación del fichero robots.txt

¿Y entonces, que hay que hacer? Es muy sencillo.

Sólo tenemos que crear un fichero de texto robots.txt y comenzar a escribir en él. Partiré del siguiente ejemplo donde permitimos la entrada a todos los crawlers (igual que sin ningún robots.txt):

User-agent: *
Disallow:

En User-agent debemos introducir el nombre del robot, y a continuación las rutas donde queremos prohibir que acceda. Algunos ejemplos:

  • Disallow: / prohibe la entrada a todo el sitio.
  • Disallow: /foro/ prohibe la entrada a los documentos del directorio foro.
  • Disallow: permite la entrada a todo el sitio.

En algunos casos suele utilizarse en lugar de Disallow, la palabra Allow. Aunque por definición es correcta, es conveniente no utilizarla, puesto que las rutas omitidas se asumen que están permitidas por defecto, y algunos crawlers no entienden la palabra Allow.

Es posible acumular varios Disallow bajo un mismo User-agent, pero no podemos utilizar varios User-agent encima de un Disallow. Veamos un ejemplo:

# Crawler de Bing
User-agent: bingbot
Disallow: /links.html
Disallow: /private/
Disallow: /photos/

Este código impide al crawler del buscador de Bing (Microsoft) acceder a la página links.html, y las carpetas private y photos (y todo su contenido) de nuestro sitio.

Añadiendo el carácter # al principio de una linea podemos escribir comentarios que no interpretará el crawler.

Opciones avanzadas: Comodines

Es posible ir acumulando reglas para distintos crawlers, formando un robots.txt más largo y completo. Cada vez que escribamos un User-agent deberemos dejar una linea en blanco de separación. Además, existe una ligera adaptación que permiten usar comodines ($ y *) en las rutas en algunos crawlers (sólo Googlebot y Slurp):

User-agent: Slurp
Disallow: /*.js$
Disallow: /2006/*
Disallow: /2007/*
Disallow: /articulos/*/pagina/*

Se está indicando al robot de Yahoo, que no indexe los ficheros que terminen en .js (javascript), direcciones que empiecen por 2007 o 2006 (fechas), ni artículos con la palabra pagina (paginado de comentarios). Estos casos pertenecen a la idea de no indexar contenido duplicado.

En la mayoría de los blogs, puedes acceder a un mismo artículo por las direcciones:

  • blog.com/articulo/titulo, la dirección principal.
  • blog.com/2007/04/, el archivo del mes.
  • blog.com/articulo/titulo/feed, feed RSS del artículo.
  • blog.com/articulo/titulo/pagina/2, pagina 2 de comentarios.

Todo esto es contenido duplicado, una de las razones más importantes de penalización para un buscador, a no ser, claro, que te las ingenies para que sólo sea accesible desde una dirección. A la hora de ver los resultados te asombrarás lo bien que estarás quedando ante los ojos de Google, por ejemplo.

Hay que tener mucho cuidado con usar cosas como Disallow: /pagina o Disallow: /*pagina, puesto que en lugar de bloquear lo que queríamos (carpeta pagina o artículos paginados), terminen bloqueando direcciones como /decorar-mi-pagina o /paginas-para-amigos/.

Reducir frecuencia de rastreo

Si revisas estadísticas y demás, también puedes observar que a veces algunos crawlers «se pasan» revisando nuestro sitio, y funden a peticiones a nuestro pobre servidor. Existe una manera de tranquilizar a los robots:

User-agent: noxtrumbot
Crawl-delay: 30

Con esto le decimos al robot de noxtrum que espere 30 segundos entre cada acceso. Cuidado, porque Crawl-delay puede que no lo soporten todos los crawlers. Bing y Google si lo soportan.

Incluir Sitemap

Finalmente, podemos también incluir un mapa del sitio en nuestro robots.txt de la siguiente forma:

Sitemap: http://www.emezeta.com/sitemap.xml

En RobotsTXT.org podrás encontrar documentación oficial si quieres profundizar y en esta búsqueda de Google encontrarás muchos robots.txt de ejemplo, incluso robots.txt optimizados para tu tipo de web. Además, también tienes un validador de robots.txt.

Conclusiones

Recordar a todos que con el fichero robots.txt no podemos bloquear los accesos por «fuerza bruta». Robots.txt es una recomendación del webmaster a los buscadores, que como son «robots buenos», las seguirán al pie de la letra.

Existen formas alternativas para indicar a los crawlers que secciones deben o no deben indexar, como los meta tag Robots o la cabecera X-Robots-Tag, creados para casos más específicos. Si quieres más información sobre optimización web, te recomiendo el artículo Optimizar el rendimiento de tu página web.

Existen otros «robots malos» (que buscan direcciones de correos o formularios para hacer SPAM) que no dudarán en acceder a los lugares que hayas prohibido si lo desean. Para bloquear estos otros robots, deberemos echar mano al fichero .htaccess, pero como decía Michael Ende, eso ya es otra historia...

RELACIONADOS Robots: Accesos no humanos a la web RELACIONADOS The Dig: La aventura gráfica de Spielberg RELACIONADOS La gran guía de supervivencia de la terminal de Linux
x Robots: Accesos no humanos a la web
Manz

118 comentarios

1 2 3

Francisco G
54

El texto de mi archivo robots.txt esta así: User-agent: * Disallow: /_private/ Disallow: /_vti_cnf/ Disallow: /_vti_log/ Disallow: /_vti_pvt/ Disallow: /_vti_script/ Disallow: /_vti_txt/ Quiero saber si esto es correcto o tengo que hacer algún cambio para que pueda agregarse a las busquedas. Por favor ayundeme.

consejos para par
55

justo el tema que esta buscando la verdad que son unos tromes muchas gracias por publicar estos temas que son muy interesantes sobre todo para los que tenemos blogs

miriam
56

hola emezeta: muy bueno tu articulo, te cuento que he creado mi archivo robots.txt y segun las instrucciones que le he dado solo debe permitir entrar a los crawlers mas conocidos y al resto no, sin embargo entro a mis estadistica y encuentro la siguiente linea: Unknown robot (identified by 'spider') 180 solicitudes, 3.27 MB de trafico y la fecha 09 Jul 2010 - 03:05 Entonces no entiendo si solo solicita pero no llega a entrar o si llega a entrar. Te agradeceria me respondieras. :D Miriam

elmagiconegro
57

Ahi les van algunos robot comocidos:Googlebot, MSNBot, Slurp,Teoma, Gigabot, Scrubby, Robozilla,: Nutch,ia_archiver, yahoo-mmcrawler, psbot,asterias, yahoo-blogs/v3.9,

Jonay Pelluz
59

Me ha servido bastante, tenía un lío montado con los allow y los disallow...había oido que no era recomendable poner allow: / ... Gracias por el post, a ver si ahora google me indexa más páginas y me desindexa las carpetas que no me interesan... :-)

Dinkysclub
61

Muy buen articulo ! Estoy haciendo SEO para mi blog www.dinkysclub.com en blogger, solo que me gustaria saber donde y como incorporar en la plantilla, o edicion HTML, el archivo robots.txt ? Seria un bueno articulo ! Aun asi gracias por el aporte, tu sitio me ha ayudado ya en varias ocasiones desde que empeze, felicidades !

Laura Silva
64

Mil gracias... estaba hecha un lío con este tema. En adsenses lo piden y hasta te dan las instrucciones pero desconocía el cómo y el para qué. Ahora me iré a aplicar lo aprendido y a practicar para indexar bien mi página y evitar la duplicidad... Felicidades también por lo claro del tema, es difícil lograr hablar de tecnicismos y al mismo tiempo hacerlo comprensible. Saludos, Atte. Laura Silva http://laurasilvagvo.com/blog

Alberto Masogo
65

Hola Ando bastante perdido en esta materia y me gustaria saber si es normal que al acceder a acceso a rastreadores de la webmastertools aparece otra web que ni conozco Archivo robots.txt http://www.tusofertasdeviaje.com/robots.txt Hace 1 horas 200 (Correcta) Texto de http://www.tusofertasdeviaje.com/robots.txt User-agent: * Allow: / Sitemap: http://www.viajamus.com/sitemap_57.xml no se quien es viajamus.com ni que pinta aqui os agradeceria la informacion UN saludo y feliz navidad

Jorge Luis
66

Es una lastima que Blogger no permita hechar mano del robots txt ya que no se pueden indexar las etiquetas que figuran en su plataforma.

Elios
70

Hola y como puedo hacer para que no se indexen resultados como: blog/parte-2 blog/parte-3 blog/parte-4 Esto porque en el home ya ves que aparecen los post, pero al pasar a la siguiente pagina se indexa. Como se puede corregir, ya sea desde robots.tx o desde all in one seo pack (plugin wp) espero me ayudes con esa duda..

Dirtyboss
73

La mera verdad no entiendo nada de robots... voy a tener que leer por aqui y por allá sobre esto porque al parecer es importante tenerlo. Saludos

xisco-electronica
75

hola,saludos a todos,mi problema es que no se como subir el archivo robots.txt a blogger, si alguien me puede ayudar lo agradeceria.gracias anticipadas yfelicidades por tan buen trabajo.

nahuel_70
78

Hola! Quería hacerte una consulta. Los anuncios de Adsense no se ven en mi sitio. Si pongo en vista previa cuando voy crear una entrada si se ven. Buscando que puede estar pasando encuentro lo sig. URL bloqueada http://www.bing.com/images/search?q=imagenes+de+un+arbol&view=detail&id=4CD5AE9B78D6398ECC356741E4C95CA8E289DF34&first=0&FORM=IDFRIR Motivo del bloqueo:Archivo robots.txt Último intento de rastreo: 6 ene Si me pudieras ayudar te lo agradecería.

Vision
79

Gracias por tu artículo, tengo problemas para identificar mi sitio en bing por el robots.txt, revisaré el linck que nos dejas, saludos

Juanefe
80

Hola Manz, tu página esta genial. Te sigo hace muchos años, y creo que me he leído todos tus articulos. Ahora te escribo por lo siguiente, tengo un blog bastante sencillo, pero ayer revisando las herramientas para webmasters, me encuentro con que tengo 26 errores de rastreo restringidos por el robots.txt, y no se si eso es bueno o malo. ¿Que tendría que hacer? De antemano muchas gracias por todo

fernando
83

Esta bueno esto, yo también bloqueo a ciertos robots User-agent: * Disallow: ya que hay ciertos robots no me especifica en el cpanel que consumen 5gb al dia eso me paso y en una semana todo mi ancho de banda era gastada y tuve que poner Disallow: para ciertos Bots gracias por el aporte.

luis pagan
84

Había mejorado mi pagina, y la encontraba mas fácil en los buscados, no se que fue lo que cambie y ahora no aparece ni con el nombre. podrías ayudarme. esta es mi pagina Peliculas Online Movies en Guia Multimedia Free es gratis Revise la pagina de angel, Cherada. Sale hasta con los detalles. podrias explicarme como hacer eso. aqui te pego mi robots.txt User-Agent: * Allow: / Allow: /* Sitemap: http://www.guiamultimedia.tk/sitemap.xml User-agent: Mediapartners-Google Allow: /

Francisco
86

Interesante artículo. Tengo una pregunta: Para bloquear el acceso a un subdominio se haría igual que a un directorio ? Por ejemplo, si quiero impedir el acceso al subdominio PRUEBA , la orden correcta sería esta? Disallow: /PRUEBA/ Mi duda se debe a que la url del subdominio PRUEBA (http://PRUEBA.XXXX.COM) no es la misma que la del directorio PRUEBA (http://XXXX.COM/PRUEBA) Un saludo Francisco

onlinetelco
87

Buen artículo, me gusta como aclaras que el archivo robots.txt no es de obligado cumplimiento para los crawlers, sino meramente informativo.

  • 1
Oskilla
97

Este tema es interesante ya que a todos los que tenemos un blog nos interesa "caerle bien" a los buscadores. Bien explicado!! Gracias.

Jose Luis Llop
98

La verdad es que esto es muy importante y mucha gente no lo tiene en cuenta, es importante que Google esto lo tenga en cuenta, muy buen post, alguien tiene que explicar como y por que, esto tiene que ser asi, muchas gracias por tus enseñanzas, teinvito a que nos sigas enseñando tu sabiduria, un abrazo muy grande

Erickson
99

Hola manz, no se si veas este comentario, pero te ahí voy, Estuve verificando en el registro de mi servidor por que tengo problemas con el consumo de CPU y hay registros de bots con el nombre Python-urllib/2.6 de diferentes direcciones IP,s. Ejemplo: User-Agent: Python-urllib/2.6 IP:37.228.105.254 ¿Que es este bot?

desarrollando
100

buen día, me a servido de mucho esta información ya que casi no puedo encontrar todo completo, pero este articulo me a dado todo lo que necesito para crear mi archivo robots, veo que es muy importante en el posicionamiento seo y es por eso que me intereso, ya que quiero posicionar mi pagina web que es una empresa de sofware espero sigas aportando tan valiosa malformación, gracias.

1 2 3

Publica tu opinión