Sábado, 11 Agosto 2007

Robots.txt : Todo lo que deberia saber

José Román Hernández | 98 comentarios | optimizacion web

El fichero robots.txt es un archivo de texto que dicta unas recomendaciones para que todos los crawlers y robots de buscadores cumplan (¡ojo! recomendaciones, no obligaciones). Pero comencemos por el principio.

Un crawler es un robot de una entidad (generalmente buscadores) que acceden a las páginas web de un sitio para buscar información en ella, añadirla en los buscadores, etc. También son llamados spiders, arañas, bots o indexadores.

Por ejemplo, Googlebot es el nombre del crawler del buscador Google. También existen otros como:

  • Mediapartners-Google, que es el crawler que se encarga de revisar los anuncios de Google Adsense.
  • Googlebot-Image, robot indexador de imagenes del buscador de Google.
  • Bingbot, crawler de indexación del buscador Bing
  • Slurp, crawler de indexación del antiguo buscador Yahoo!
  • Scooter, del clásico buscador Altavista.

Y muchísimos más. Si establecemos un control en nuestro robots.txt, podremos conseguir una serie de beneficios:

  • Impedir acceso a robots determinados: Puede parecer contradictorio, pero algunos crawlers no nos proporcionarán sino problemas. Algunos robots no son de buscadores, e incluso algunos robots no son ni amigos. Pero de eso ya hablaremos más tarde.
  • Reducir la sobrecarga del servidor: Podrás controlar el flujo de algunos robots. Algunos de ellos son un verdadero descontrol de peticiones que pueden llegar a saturar tu servidor.
  • Prohibir zonas: Nos puede interesar tener disponible una zona en nuestra web, que sea accesible para algunos, pero que no aparezca en buscadores.
  • Eliminar contenido duplicado: Uno de los casos más importantes, que casi siempre es olvidado por los webmasters. Si eliminamos la duplicidad de contenido, los buscadores nos puntuaran muy alto, aumentando el flujo de visitas.
  • Fijar mapas del sitio: También es posible acoplar un sitemap para indicar el buen camino a los robots.

Creación del fichero robots.txt

¿Y entonces, que hay que hacer? Es muy sencillo.

Sólo tenemos que crear un fichero de texto robots.txt y comenzar a escribir en él. Partiré del siguiente ejemplo donde permitimos la entrada a todos los crawlers (igual que sin ningún robots.txt):

User-agent: *
Disallow:

En User-agent debemos introducir el nombre del robot, y a continuación las rutas donde queremos prohibir que acceda. Algunos ejemplos:

  • Disallow: / prohibe la entrada a todo el sitio.
  • Disallow: /foro/ prohibe la entrada a los documentos del directorio foro.
  • Disallow: permite la entrada a todo el sitio.

En algunos casos suele utilizarse en lugar de Disallow, la palabra Allow. Aunque por definición es correcta, es conveniente no utilizarla, puesto que las rutas omitidas se asumen que están permitidas por defecto, y algunos crawlers no entienden la palabra Allow.

Es posible acumular varios Disallow bajo un mismo User-agent, pero no podemos utilizar varios User-agent encima de un Disallow. Veamos un ejemplo:

# Crawler de Bing
User-agent: bingbot
Disallow: /links.html
Disallow: /private/
Disallow: /photos/

Este código impide al crawler del buscador de Bing (Microsoft) acceder a la página links.html, y las carpetas private y photos (y todo su contenido) de nuestro sitio.

Añadiendo el carácter # al principio de una linea podemos escribir comentarios que no interpretará el crawler.

Opciones avanzadas: Comodines

Es posible ir acumulando reglas para distintos crawlers, formando un robots.txt más largo y completo. Cada vez que escribamos un User-agent deberemos dejar una linea en blanco de separación. Además, existe una ligera adaptación que permiten usar comodines ($ y *) en las rutas en algunos crawlers (sólo Googlebot y Slurp):

User-agent: Slurp
Disallow: /*.js$
Disallow: /2006/*
Disallow: /2007/*
Disallow: /articulos/*/pagina/*

Se está indicando al robot de Yahoo, que no indexe los ficheros que terminen en .js (javascript), direcciones que empiecen por 2007 o 2006 (fechas), ni artículos con la palabra pagina (paginado de comentarios). Estos casos pertenecen a la idea de no indexar contenido duplicado.

En la mayoría de los blogs, puedes acceder a un mismo artículo por las direcciones:

  • blog.com/articulo/titulo, la dirección principal.
  • blog.com/2007/04/, el archivo del mes.
  • blog.com/articulo/titulo/feed, feed RSS del artículo.
  • blog.com/articulo/titulo/pagina/2, pagina 2 de comentarios.

Todo esto es contenido duplicado, una de las razones más importantes de penalización para un buscador, a no ser, claro, que te las ingenies para que sólo sea accesible desde una dirección. A la hora de ver los resultados te asombrarás lo bien que estarás quedando ante los ojos de Google, por ejemplo.

Hay que tener mucho cuidado con usar cosas como Disallow: /pagina o Disallow: /*pagina, puesto que en lugar de bloquear lo que queríamos (carpeta pagina o artículos paginados), terminen bloqueando direcciones como /decorar-mi-pagina o /paginas-para-amigos/.

Reducir frecuencia de rastreo

Si revisas estadísticas y demás, también puedes observar que a veces algunos crawlers «se pasan» revisando nuestro sitio, y funden a peticiones a nuestro pobre servidor. Existe una manera de tranquilizar a los robots:

User-agent: noxtrumbot
Crawl-delay: 30

Con esto le decimos al robot de noxtrum que espere 30 segundos entre cada acceso. Cuidado, porque Crawl-delay puede que no lo soporten todos los crawlers. Bing y Google si lo soportan.

Incluir Sitemap

Finalmente, podemos también incluir un mapa del sitio en nuestro robots.txt de la siguiente forma:

Sitemap: http://www.emezeta.com/sitemap.xml

En RobotsTXT.org podrás encontrar documentación oficial si quieres profundizar y en esta búsqueda de Google encontrarás muchos robots.txt de ejemplo, incluso robots.txt optimizados para tu tipo de web. Además, también tienes un validador de robots.txt.

Conclusiones

Recordar a todos que con el fichero robots.txt no podemos bloquear los accesos por «fuerza bruta». Robots.txt es una recomendación del webmaster a los buscadores, que como son «robots buenos», las seguirán al pie de la letra.

Existen formas alternativas para indicar a los crawlers que secciones deben o no deben indexar, como los meta tag Robots o la cabecera X-Robots-Tag, creados para casos más específicos. Si quieres más información sobre optimización web, te recomiendo el artículo Optimizar el rendimiento de tu página web.

Existen otros «robots malos» (que buscan direcciones de correos o formularios para hacer SPAM) que no dudarán en acceder a los lugares que hayas prohibido si lo desean. Para bloquear estos otros robots, deberemos echar mano al fichero .htaccess, pero como decía Michael Ende, eso ya es otra historia...

Madrid: Doy un curso sobre Adsense y publicidad y optimización web para conseguir más visitas. ¡Apúntate!

Murcia: ¡Curso gratuito de CursoBloggers para jóvenes desempleados!


Relacionados

Más sobre el autor

Escrito por (Manz), Ingeniero técnico en Informática de Gestión y residente en Santa Cruz de Tenerife.

98 comentarios

Páginas: 1 2

Muy buena información y descripción de los robots que rondan por la web, necesario para identificar y valorar nuesrto contenido dentro de la web

buscador de video · hace 6 años

Responder Permalink URL
Mozilla Firefox 2.0.0.1 / Windows XP

Buen artículo, aunque para complementarlo sugeriria añadir un enlace a la lista de los robots conocidos:

http://www.robotstxt.org/wc/active.html

emarts · hace 6 años

Responder Permalink URL
Mozilla Firefox 2.0.0.4 / Macintosh

Especialmente interesante el apartado del contenido duplicado, sobre todo las direcciones de los feeds, se posicionan mucho (al menos en Google) y es bastante incómodo pinchar un resultado que lleva a un feed y no a una entrada.

Liamngls · hace 6 años

Responder Permalink
Mozilla Firefox 2.0.0.6 / Ubuntu Linux

emarts la verdad es que la lista de la página de robotstxt.org está muy bien, pero un poco anticuada.

En ipron tenían una buena lista de crawlers famosos con sus respectivos rangos de IP, pero desgraciadamente, ya no está disponible.

Manz · hace 6 años

Responder Permalink URL
Mozilla Firefox 2.0.0.6 / Windows XP

Interesante articulo.

Ya que por medio de Robots.txt le decimos al buscador si se desea indexar la página y/o se desean seguir los links.

Saludos!

Tecnometro · hace 6 años

Responder Permalink URL
Mozilla Firefox 2.0.0.6 / Windows XP

Impresionante articulo!

Pernan · hace 6 años

Responder Permalink URL
Mozilla / Macintosh

Esta re buena la chica de la pelicula bueno chau

franco · hace 6 años

Responder Permalink
Internet Explorer 7.0 / Windows XP

Caramba, justo lo que necesitaba, muy buen post, gracias amigos

carlos · hace 6 años

Responder Permalink
Mozilla Firefox 1.5.0.12 / Ubuntu Linux

Vaya! muchisimas gracias! ahora ya tengo un Robots.txt decente! jejejeje. Te voy a enlazar desde mi blog explicando un poco el tema.

carballo · hace 6 años

Responder Permalink URL
Mozilla Firefox 2.0.0.7 / Windows XP

Artículo interesante.

joan · hace 6 años

Responder Permalink URL
Mozilla Firefox 2.0.0.7 / Windows XP

Si fuese un hacker, irónicamente diría:

Gracias por utilizar el fichero robots.txt, gracias a él todos podremos saber un poco más sobre vuestras webs, como por ejemplo, la URL de vuestro panel de administración, al que hacer un SQL injection....

;)

Cuidadin cuidadin · hace 6 años

Responder Permalink
Mozilla Firefox 2.0.0.1 / Windows XP

Con vista no?

SaSsEriNa · hace 5 años

Responder Permalink URL
Internet Explorer 7.0 / Windows Vista

EXELENTE INFORMACION.
Buena calidad y cantidad.

matias-tv.com.ar · hace 5 años

Responder Permalink URL
Opera 9.23 / Windows XP

Como se puede optimizar el ingreso de robots a nuestro sitio www.tvalterna.com

Rodrigo oviedo · hace 5 años

Responder Permalink URL
Internet Explorer 7.0 / Windows XP

Revisa tu robots.txt porque contiene errores.

Andreas · hace 5 años

Responder Permalink
Mozilla Firefox 3.0 / Windows XP

¿Que errores, Andreas?

Manz · hace 5 años

Responder Permalink URL
Mozilla Firefox 3.0 / Windows XP

Buen tema

jean · hace 5 años

Responder Permalink URL
Internet Explorer 7.0 / Windows XP

Qué buen trozo de explicación Manz.

Angel · hace 5 años

Responder Permalink URL
Internet Explorer 6.0 / Windows XP

Le he puesto estas reglas al googlebot:

Disallow: /blogs/*/*/*/*.html$
Allow: /blogs/*/*/*/*/*.html$


Y he conseguido estos resultados al analizar el robots.txt en las herramientas de google:

http://www.cherada.com/blogs/do/view/id/2588/como-consentirte-estas-vacaciones.html Permitido por la línea 108: Allow: /blogs/*/*/*/*/*.html$
http://www.cherada.com/blogs/do/view/id/2588.html Bloqueado por la línea 107: Disallow: /blogs/*/*/*/*.html$

Para otros archivos que terminan en .html obtengo:
http://www.cherada.com/search.html Autorizado
Entonces te quería preguntar cuál es la diferencia entre Permitido y Autorizado y si también es conveniente usar la sintaxis Allow en lugar de Disallow y en caso que no cómo lo harías tú, teniendo en cuenta que lo que se desea (para evitar duplicidad) es que se permita los blogs que tengan nombre y se impidan los que solo tienen el numero sin ningun nombre.


Angel · hace 5 años

Responder Permalink URL
Internet Explorer 6.0 / Windows XP

La verdad es que no estoy muy seguro que entiende Google por Permitido y Autorizado, para tu caso necesitaría más datos, pero deduzco que uno será cuando encuentra el Allow (y le permites algo expresamente) y el otro será cuando no ha encontrado ningún impedimento (o se ha autorizado al bot a entrar en una sección con contraseñas). Son los términos que utiliza Google en cada caso.

Mi idea es siempre asumir que todo está permitido, y evitar indexación con Disallow.

Tu ejemplo de utilizar Allow es perfecto, no sólo en la práctica sino como ejemplo teórico. Se debe utilizar para permitir algo que anteriormente fue prohibido con Disallow.

En estos casos lo que se suele hacer es modificar las URLs a golpe de modrewrite, ya que también tienes que tener en cuenta que a Google no le gustan las URLs con muchos niveles de profundidad.

Manz · hace 5 años

Responder Permalink URL
Mozilla Firefox 3.0.1 / Windows XP

Tiene mucho sentido todo ahora con eso que decís de permitir expresamente y no dejar pasar. Lo de URLs cortas es lo mejor sí, defitivamente es de echarle un vistazo.

Angel · hace 5 años

Responder Permalink URL
Internet Explorer 6.0 / Windows XP

E·stoy en Blogger y me dicen que no se puede modificar el archivo robot.txt ¿es sierto esto? y si no lo es ¿como se hace?

Corto Maltes · hace 5 años

Responder Permalink URL
Mozilla Firefox 2.0.0.11 / Windows XP

En Blogger no se puede, como es un servicio de Google ellos lo controlan. Los robots.txt se utilizan en websites propios.

fafa · hace 5 años

Responder Permalink URL
Mozilla Firefox 3.0.1 / Windows XP

Y si no quiero robots.txt en las url de mi blog como hago para eliminarlo??

juanshot · hace 5 años

Responder Permalink URL
Mozilla Firefox 3.0.1 / Windows XP

Excelente artículo! me habían pedido que escribiese un artículo sobre robots.txt, y francamente sólo me queda recomendar este artículo, porque no se puede enriquecer más. Un saludo :)

Seo · hace 5 años

Responder Permalink URL
Mozilla Firefox 3.0.1 / Windows XP

Me puede decir e qué parte se pone en archivo, jejeje, en raíz, o en el theme?
Graciaas

-que conste que dije que era pregunta tonta-

La pregunta tonta · hace 5 años

Responder Permalink URL
Mozilla Firefox 2.0.0.4 / Windows XP

@La pregunta tonta: Se coloca en el raiz de tu sitio.

Manz · hace 5 años

Responder Permalink URL
Mozilla Firefox 3.0.3 / Windows Vista

Ótimo tópico, bem completo! Parabéns

Cleo Morgause · hace 5 años

Responder Permalink URL
Mozilla Firefox 2.0.0.17 / Windows Vista

Magnífico tutorial, aguanta bien el paso del tiempo, lo recomendé hace unas semanas en mi blog como uno de los sitios más interesantes. Felicidades y gracias por tu trabajo, que es mucho y de calidad :)

todotuto · hace 5 años

Responder Permalink URL
Mozilla Firefox 2.0.0.17 / Macintosh

Hola Alguien sabe como o donde se tiene que subir el robot, en el caso o los casos para los blogs de google (blogger) o directamente no se pueden usar los robots!
Gracias!

al · hace 4 años

Responder Permalink URL
Mozilla Firefox 3.0.5 / Windows XP

Impresionante articulo, por otra parte, Internet viene del mundo oculto, no?, un proyecto de la Defensa que se le entrego al comercio estadounidense.

yo tengo esta duda: si se aplica disallow al archivo, digamos, xyz.html este archivo no debe aparecer en el sitemap??

ilanda68 · hace 4 años

Responder Permalink URL
Internet Explorer 6.0 / Windows XP

Muchisimas gracias che si me puedes ayudar con algunas cosas hacerca de los metas te dejo mi correco en msn por fa necesito ayuda corcelespi@hotmail.com
un abrazo

Fernando espinoza · hace 4 años

Responder Permalink URL
Internet Explorer 7.0 / Windows XP

Eres un Genio.

Gracias

Roxana · hace 4 años

Responder Permalink URL
Mozilla Firefox 3.0.10 / Windows XP

Muy buen post Manz! claridad y calidad de la misma mano, un saludo

josema · hace 4 años

Responder Permalink URL
Mozilla Firefox 3.0.10 / Windows XP

Necesito que no aparezcan en el cache de google solamente 3 palabreas del contenido de una pagina, ¿como hago para colocar esto en un robots.txt ?
Por ejemplo: en la pagina todos.net/lista/socios.htm tengo dos nombre y un teléfono que no quiero que los indexen los buscadores, y que no aparezcan en el cache.

Si alguien sabe por favor dejen un ejemplo.

Muchas gracias
Marcelo

Marcelo · hace 4 años

Responder Permalink URL
Internet Explorer 8.0 / Windows XP

Me encanto tu post. Gracias por tu trabajo.

Robert Gordon · hace 4 años

Responder Permalink URL
Chrome 2.0.172.39 / Windows Vista

Muy buen post Manz! claridad y calidad de la misma mano, un saludo

Blue Eyes · hace 4 años

Responder Permalink URL
Chrome 2.0.172.39 / Windows Vista

La verdad, clarisimo. el mejor articulo de la web de explicacion de robots.txt.
Estaria bueno algo para wordpress bien detallado para no ser penalizado por duplicar contenido y ademas para conocer exactamte los ejemplos que hay dando vuelta por la web, pero lo que esta, esta muy claro.
Muchas gracias.

Alejandro · hace 4 años

Responder Permalink
Mozilla Firefox 3.5.2 / Windows XP

Hola Manz si en blogger no podemos modificar el robot.txt entonces porque aparece en la plantilla? A mi me gustaria modificarla y saber cuales son los robots mas importanmtes ademas de yahoo, google y msn.
Saludos.

elios · hace 4 años

Responder Permalink URL
Internet Explorer 7.0 / Windows XP

Completa la guia, muy buena, gracias

jbmondeja · hace 4 años

Responder Permalink URL
Mozilla Firefox 3.5.2 / Windows 2003 Server

Algo me de claro de esto, aunque para mi es bastante complicado. LLegue aqui por el articulo en tu pagina de ocmo tener masvisitas en nuestro blog, pero aun asi no entedi como aplicarlo :/ no me queda claro aun.

porfavor, agradeceria mucho una explicacion mas practica :p
Saludos
Felicitaciones por la pagina.

gabriel · hace 4 años

Responder Permalink URL
Mozilla Firefox 3.5.2 / Windows XP

De acuerdo con #11. Cuidadito, que dejáis la puerta abierta a cualquiera! En algunos casos hay que saber combinar correctamete los Allow/Disallow!!

jaja · hace 4 años

Responder Permalink
Mozilla Firefox 3.5.3 / Windows XP

Gracias por le post me sirvio de mucho para crear el archivo de robots en mi web :-)

Daniel · hace 4 años

Responder Permalink URL
Mozilla Firefox 3.0.14 / Windows Vista

Me gustaria posicionar mi blog

puzzle · hace 4 años

Responder Permalink URL
Internet Explorer 7.0 / Windows XP

Si señor, una explicación bien detallada de como hacer un archivo robots.txt y que la mayoria de los desarroladores web tienen olvidado. Generan miles de páginas con sistemas como joomla, foros, script de anuncios etc que generan miles de páginas duplicadas y no se les ocurre instalar un robots.txt

Codigos postales · hace 4 años

Responder Permalink URL
Mozilla Firefox 3.5.5 / Windows XP

Realmente espectacular el artículo!

Bendiciones

José María · hace 4 años

Responder Permalink URL
Mozilla Firefox 3.5.5 / Windows XP

Muy buen articulo, muy interesante

Diseño web · hace 3 años

Responder Permalink URL
Mozilla Firefox 3.0.13 / Windows XP

Excelente artículo! Me sirvió mucho. Muchas gracias!

Hdg · hace 3 años

Responder Permalink
Chrome 3.0.195.38 / Windows XP

Lo que me gustaria saber es si para montar un Robots.txt y que funcione en mi sitio basta solamente con hospedarlo o es necesario agregar algun codigo a la pagina principal de mi web para que sea detectado por los crawlers de los buscadores.

Por cierto, aprovecho para invitarlos a descubrir la ventaja que ofrece buscar lo que quieras en los principales buscadores de internet desde un mismo punto http://www.ring.comyr.com

Alvaro Martínez V · hace 3 años

Responder Permalink URL
Internet Explorer 6.0 / Windows XP

Hola, explicas todo pero aun no me he enterado: tengo un fichero en un blog de blogger "robots.txt" está mal y tengo que cambiarlo por otro robots.txt (bis) ¿como lo hago, paso a paso?. La verdad no recuerdo como lo subí en su dia.
gracias

elaguadetodos · hace 3 años

Responder Permalink URL
Internet Explorer 8.0 / Windows XP

¡Atención! Hay más páginas de comentarios...

Páginas: 1 2

Deja tu opinión

Emezeta blog

Acepto las condiciones y políticas de privacidad de este sitio web.
Suscribirme a través de FeedBurner a los nuevos artículos del blog por email.

Previsualización

Aquí se previsualizará su comentario. Revise que sea correcto antes de publicarlo.