Credit image

¿Te gusta el diseño web? ¡Echa un vistazo a la documentación de LenguajeCSS.com!

Robots: Accesos no humanos a la web

Análisis de los accesos no-humanos (eliminando lectores y usuarios) a un artículo web durante sus primeras 24 horas de vida.

Por lo general, estamos acostumbrados a pensar que todo acceso o visita registrada en una página web es un visitante o lector interesado en lo que allí se publicó. Sin embargo, muchos de estos accesos son realizados por un sistema automático y se denominan robots, crawlers o bots.

Los robots o bots son la forma más genérica de estos sistemas automatizados. Por otro lado, los crawlers (también llamados spiders) son unos bots más específicos, encargados de recopilar información para procesar e incorporarla posteriormente a un sistema concreto, como por ejemplo, un buscador web.

En este análisis he realizado un seguimiento de los accesos recibidos a un artículo concreto durante sus primeras 24 horas de vida. He eliminado todos los accesos de lectores reales, mostrando sólo los pertenecientes a robots.

Para identificar el acceso de los diferentes robots se examina el llamado User Agent, un campo de texto que envía obligatoriamente el sistema que realiza el acceso.

Sin embargo, este texto es fácilmente falsificable, por lo que se recomienda examinar también el rango de IP (y su DNS inverso) para comprobar si es realmente quien dice ser. Muchos spam bots se hacen pasar por robots legítimos con el objetivo de recopilar emails o enviar spam.

La mayoría de estos robots siguen un código de buenas conductas definido en el robots.txt. Por aquí tienes una guía detallada sobre robots.txt. Sin embargo, sólo son recomendaciones, lee esto si quieres bloquear accesos por la fuerza.

Es importante remarcar que este análisis no intenta ser un caso representativo universal. Simplemente es útil para hacernos una idea y saber datos como la velocidad de algunos robots o crawlers, la variedad existente o lo activos que son en los primeros momentos de vida de un artículo.

Para mayor claridad visual, he dividido los accesos en 3 gráficas diferentes: los primeros 5 minutos, los primeros 60 minutos y las primeras 24 horas. Además, he omitido los bots que repetían accesos.

Gráfica 1: Accesos durante los primeros 5 minutos de la publicación del artículo.

Kcy / MediaPartners

Nada más publicar el artículo, en el primer segundo, ya recibimos dos accesos de dos bots. Por una parte, Kcy, que es el crawler de Karmacracy, que se encarga de acortar las URL de este blog. Nos visita desde su subdominio nono.

El otro crawler, es Mediapartners-Google, el mismísimo robot de Google Adsense, encargado de examinar el artículo para enviar anuncios relacionados con el contenido de la página.

Googlebot / Yahoo Slurp / Twitterbot

Poco antes de cumplirse los dos minutos, acceden varios pesos pesados. El primero de ellos es Googlebot, crawler hermano del anterior (accede desde la misma IP) que se encarga de indexar el contenido de un artículo para mostrarlo en el buscador.

Tras el, llega Twitterbot, un bot oficial de Twitter que se ha puesto en funcionamiento probablemente tras la publicación de un tweet con un enlace hacia el artículo. Proviene del subdominio spiderduck.

El tercer crawler en cuestión es Yahoo! Slurp, el robot de indexación del buscador de Yahoo!. Que por cierto, la genial imagen del robot de Yahoo! es obra de Anekdamian.

Además, acceden algunos otros bots como InAGist o JS-Kit resolver, y un poco más tarde Suggybot.

Butterfly / Bitlybot / MSNBot

Alrededor de los 3 minutos, varios robots como Butterfly, el crawler del buscador social a tiempo real Topsy, Bitlybot, robot acortador de Bit.ly u otros menos conocidos que utilizan el módulo AnyEvent o un misterioso y desconocido BiruBot.

Finalmente, cerca de los 6 minutos, nos encontramos con un caso curioso. Dos accesos de los crawlers MSNBot, correspondiente al buscador MSN de Microsoft, que posteriormente se convirtió en Live y más tarde en Bing.

Ni siquiera el enlace que nos provee la identificación del User Agent funciona, sin embargo, supongo que la información recolectada la utilizarán para el buscador Bing (ver más adelante). El primer crawler corresponde a msnbot, mientras que el segundo a msnbot-NewsBlogs.

Gráfica 2: Accesos durante los primeros 60 minutos de la publicación del artículo.

TweetMeme / FlipboardProxy / FacebookExternalHit

Entre los primeros 10 y 15 minutos, nos encontramos el acceso de varios robots. El primero de ellos, TweetmemeBot, un buscador de tendencias de Twitter, llamado TweetMeme. Nos visita desde el subdominio ravenpub.

Más adelante, visitarían dos crawlers más. Por un lado, FlipboardProxy, un robot que se encarga de procesar la información obtenida para mostrarla de forma más amigable en otros entornos, por ejemplo, tablets.

Poco después llegaría el bot FacebookExternalHit, un bot de Facebook que se encarga de visitar una página web compartida en Facebook por algún usuario, y realizar una recopilación de varios datos: descripción, título y una imagen de previsualización.

Summify / DailyPerfect / Spinn3r

A los 20 minutos, aproximadamente, nos llega Summify, el crawler de un servicio que se encarga de crear un sumario de varios artículos a modo de resumen, algo muy utilizado en Twitter.

Antes de llegar a los 45 minutos, nos visitan varios bots más, entre los que destaco radian6, DailyPerfect o Printful, todos servicios de monitorización de información capturada de redes sociales o reformateo para otras plataformas. Este último nos visita desde el subdominio hades.

Rozando la hora de vida del artículo, recibimos la visita de Spinn3r, un crawler de información para buscadores y estadísticas y TweetedTimesBot, otro generador de sumarios personalizados.

Gráfica 3: Accesos durante las primeras 24 horas de la publicación del artículo.

Una vez pasamos la primera hora de vida del artículo, podemos observar que el acceso de robots no es tan frecuente y se encuentra más disperso.

Durante las dos primeras horas, recibimos de visita a bots variados, entre los que destacamos PaperLiBot (otro generador de sumarios), ProxiMic, TrendictionBot u OutBrain.

LinkedInBot / YandexBot

Antes de llegar a las primeras 5 horas, también accede el crawler LinkedInBot, encargado de revisar enlaces dirigidos desde la famosa red social de trabajo.

Tampoco falta el acceso de YandexBot, el crawler del buscador más utilizado en Rusia, por encima de Google (65% frente a 25%). Más robots variados acceden posteriormente, como Magpie-Crawler, StrawberryJ.am o MetaURI.

Baidu / NetVibes / BingBot

Cerca de las 9 horas, el robot BaiduSpider, perteneciente al buscador chino Baidu, hace aparición, junto al crawler del famoso escritorio online NetVibes.

Rozando las 10 horas desde la publicación del artículo, hace aparición BingBot, ahora sí, el crawler del buscador actual de Microsoft, Bing.

Continuan accediendo más bots como el robot de Worio, el de Trunk.ly o ScoutJet, crawler de Blekko, entre muchos otros.

ia_archive

Finalmente, terminamos el informe mencionando la llegada, casi a las 24 horas de la publicación inicial, de ia_archiver, el crawler de Alexa, utilizado también por la famosa Wayback Machine.

En Emezeta publicamos una vez El paso del tiempo en 20 sitios webs, un artículo con 20 páginas webs famosas y como eran en sus inicios.

Es importante recalcar, que aunque en el pasado su UserAgent fue ia_archiver, en la actualidad es ia_archiver(OS-Wayback), y conviene comprobar que su rango IP pertenece a 207.241.224.0 - 207.241.239.255, ya que es un bot muy propenso a ser falsificado por bots de spam.

Escrito por Manz, el , en webmasters. Comentarios recibidos: 18.

18 comentarios de lectores
q256
q256
1

¡Fantástico artículo! Para ser un tema tan "espeso", está explicado estupendamente.

  • 1
Salvador
Salvador
2

Así que las cuatro visitas que llegan a mi web son bots, que desencanto! xDD Estupenda publicación, bien detallada e interesante!

  • 2
IGC
IGC
3

Muy interesante, como todo lo que publicas en tu blog ;)

  • -1
Alex Angelico
Alex Angelico
4

El articulo es muy interesante pero para que las cosas queden claras sería bueno indicar como se registran los accesos de los bots. Por ejemplo si se utiliza Google Analytics para conocer las visitas al sitio, este se ejecuta mediante un codio JavaScript. Segun entiendo la mayoria de los bots NO EJECUTAN javascript. Es decir que dicha visita no será registrada por GA. Como el js es un codigo que se ejecuta en el cliente es muy poco probable que algún bot lo haga. Entonces, las herramientas que registran las visitas a través de JavaScript no se enteran de los bots.

Alex Angelico
Alex Angelico
5

@Salvador: Depende de como registres las visitas, fijate mi comentario mas arriba

Manz
Manz
6

@Alex Angelico: Efectivamente, como bien dices, muchos bots no pueden interpretar javascript, y por lo tanto no pueden acceder a las funciones que proveen, entre ellas registrar las visitas. Aunque... ¡Ojo! Esto siempre era así antiguamente, pero actualmente no. Muchos robots ya pueden interpretar javascript sin problemas. Por ejemplo, como se puede ver en el enlace, Googlebot puede ejecutar javascript. Otra cuestión a añadir es que algunos sistemas incluyen un noscript o método alternativo para registrar también las visitas en sistemas sin javascript activado.

Iñaki
Iñaki
7

Muy buen artículo Manz. Un par de apuntes. En donde hablas de Yandex ("aún por encima de Google"): recordar que en cifras de este año la cuota de mercado del buscador en Rusia ronda el 65% frente al 25% de Google. Y te refieres a Netvibes como agregador, que si bien es cierto que agregas rss es más bien un escritorio online o página de inicio. Vaya curro de enlaces te has pegado. Buen artículo, de nuevo.

Manz
Manz
8

@Iñaki: Tienes toda la razón, modificaré los puntos que comentas. ¡Gracias!

Germán
Germán
9

Excelente artículo!! Original manera de encarar algo tan técnico y que le interesa más que nada a algunos webmasters o SEOs =D Saludos!

despedidascoruna
despedidascoruna
10

Buen articulo, me ha sido de mucha ayuda para algunos temas de mi web. Un saludo

Sergi
Sergi
11

Ahora me surge una duda... de que me fio mas: de Google Analytics o de las estadisticas que da blogger?

Manz
Manz
12

@Sergi: ¿A qué estadísticas te refieres?

Nebel
Nebel
13

Excelente articulo... saludos

  • 1
cucoalmeria
cucoalmeria
14

Y cual seria el archivo perfecto robots.txt para blog en wordpress? Saludos SoyFranAlmeria en Twitter.

Manz
Manz
15

@cucoalmeria: Yo creo que no hay archivo robots.txt genérico "perfecto" (si puede existir uno optimizado para un WP base), pero todo depende de la estructura que tu le des a su sitio con WP. Si no lo has visto, echa un ojo a este artículo: Robots.txt, todo lo que debería saber.

cucoalmeria
cucoalmeria
16

ok gracias pero esto estaria bien: User-Agent: * Allow: / # BEGIN XML-SITEMAP-PLUGIN Sitemap: http://cucoalmeria.net/sitemap.xml.gz # END XML-SITEMAP-PLUGIN

Manz
Manz
17

@cucoalmeria: La palabra Allow a pesar de ser correcta (la interpretan varios buscadores) no es necesaria, ya que por defecto está permitido acceder a todo. Lo de los sitemaps es correcto.

cucoalmeria
cucoalmeria
18

Gracias amigo. Saludos.

Publica tu opinión

Si lo deseas, puedes utilizar el siguiente formulario para publicar tu opinión o responder a alguna de las existentes:

Previsualización

Aquí se previsualizará su comentario. Revise que sea correcto antes de publicarlo.