¡Envia tu foto al Fotomaton!
Cada vez que nosotros (o algún sistema) accede a una página web determinada, este acceso es registrado en un log, donde se guardan varios datos, entre ellos el User-agent, que no es más que una identificación del sistema para que los webmasters conozcan de quién se trata.
Pero como siempre, la ley hace la trampa, y muchos robots maliciosos pululando por la red. A continuación voy a crear un pequeño diccionario con los crawlers, robots y spiders más famosos, alguna referencia y una breve descripción.
WordPress/2.0 WordPress 2.1.2 WordPress/1.9
Googlebot/2.1 (+http://www.googlebot.com/bot.html) Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
msnbot/1.0 (+http://search.msn.com/msnbot.htm) msnbot-media/1.0 (+http://search.msn.com/msnbot.htm)
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
noxtrumbot/1.0 (crawler@noxtrum.com)
Mozilla/5.0 (compatible; Google Desktop)
psbot/0.1 (+http://www.picsearch.com/bot.html)
FAST MetaWeb Crawler (helpdesk at fastsearch dot com)
Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)
Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follow it)
Mozilla/2.0 (compatible; Ask Jeeves/Teoma; +http://about.ask.com/en...
Scooter/3.3
Snapbot/1.0 (Snap Shots, +http://www.snap.com)
W3C_Validator/1.555 Jigsaw/2.2.5 W3C_CSS_Validator_JFouffa/2.0
TestCrawler/Nutch-0.9 (Testing Crawler for Research ; http://chitchit... TestCrawler/Nutch-0.9 (Testing Crawler for Research ; http://balihoo.com... test/Nutch-0.8.1 (Test robot; http://test.com; info at test.com
BlogPulseLive (support@blogpulse.com)
Gigabot/2.0 (http://www.gigablast.com/spider.html)
ConveraCrawler/0.9e (+http://www.authoritativeweb.com/crawl)
MJ12bot/v1.2.0 (http://majestic12.co.uk/bot.php?+)
Microsoft-WebDAV-MiniRedir/5.1.2600 Jakarta Commons-HttpClient Microsoft URL Control - 6.00.8169 Microsoft URL Control - 6.00.8862 Microsoft URL Control - 6.00.8877 Microsoft URL Control - 6.01.9782
Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 ...
Mozilla/5.0 (Twiceler-0.9 http://www.cuill.com/twiceler/robot.html)
Attentio/Nutch-0.9-dev (Attentio's beta blog crawler;...
Moreoverbot/5.00 (+http://www.moreover.com)
Mozilla/5.0 (compatible; woriobot heritrix/1.10.0 +http://worio.com)
EmeraldShield.com Web Spider ...
Sogou Orion spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07
Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.2.1; aggregator:Tailrank; ...
webcollage 1.93 webcollage 1.129 webcollage 1.125 webcollage 1.114 webcollage 1.117
Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)
Technoratibot/0.7
Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/...
Mozilla/5.0 (iphone; u; cpu like mac os x; en) applewebkit/420+ ... Opera/9.10 (nintendo wii; u; ; 1621; es-es) Mozilla/4.0 (psp (playstation portable); 2.00)
Evidentemente faltan muchos, pero me he preocupado de poner los más comunes (al menos desde mi experiencia). Confío en ir ampliando el diccionario según lleguen webmasters interesados en el tema. ¡No duden en comentar para ampliar la lista!
6 Comentarios
¿Sabes cual es el Crawler del web.archive.org?, pensaba que era el de Alexa pero no estoy seguro.
Disculpa emarts. Tienes toda la razón. Fui yo el que cometió el fallo. ia_archive es el crawler que trabaja conjunto con Alexa y con Internet Archive, como se puede observar en los links.
Te traigo otro para tu diccionario de crawlers, a mi blog llega uno que se llama LookSmartbot, con el código:
LookSmartbot#2_yukabot
ppiy_9264t
No se que pueda ser, pero entra mas o menos 2 veces por semana.
Saludos.
Nacho001, si puedes, pega la petición completa (para saber el rango de IPs, user-agent exacto, etc...) del log.
Bueno, el tal LookSmartbot es el robot indexador de un buscador que se llama Look Smart
http://search.looksmart.com/
Hola!!! Mi nombre es Aimee. Soy de la Republica Dominicana. Estaba buscando algunos conceptos sobre informatica en la web y vi tu foto. Que chistoso porque nunca le habia escrito a nadie. Si quieres contactarme aqui te dejo mi correo.
Saluditos,
Aimee
en Internet.
Envia tu fotografía al fotomatón de Emezeta. Puedes enviar varias y saldrás en la portada de Emezeta.
10 consultas efectuadas / Página generada en 0.039 segundos
Programado íntegramente por José Román (Manz) en XHTML y CSS estándar.
Sindicado bajo Feed RSS. Contenido bajo licencia Creative Commons
Estadísticas de visitas · Términos y condiciones · Contacto · Publicidad · Preguntas frecuentes (FAQ)