Diccionario de Crawlers (2007)

6 comentarios · 2.165 lecturas · internet

Cada vez que nosotros (o algún sistema) accede a una página web determinada, este acceso es registrado en un log, donde se guardan varios datos, entre ellos el User-agent, que no es más que una identificación del sistema para que los webmasters conozcan de quién se trata.

crawlers spiders robots arañas bender

Pero como siempre, la ley hace la trampa, y muchos robots maliciosos pululando por la red. A continuación voy a crear un pequeño diccionario con los crawlers, robots y spiders más famosos, alguna referencia y una breve descripción.

  • Mediapartners-Google: Se trata del robot que se encarga de realizar el mantenimiento de los anuncios de Adsense. Si lo bloqueas Adsense no podrá leer el contenido de tu web para renovar los anuncios y ofrecer publicidad contextual.
  • WordPress: Es la identificación que usa el famoso CMS para realizar trackbacks, pero también es muy utilizado por robots malignos para realizar spam en trackbacks o comentarios. Mi recomendación es revisar los logs y las IP/Hosts. En mi caso, las malignas son todas de dominios rusos.
    WordPress/2.0
    WordPress 2.1.2
    WordPress/1.9
  • Googlebot: Es el robot indexador de Google. ¡Cuidado! No le deniegues la entrada, probablemente sea el mayor promotor de tu web, así que tratalo con cariño y respeto. En algunos casos añade el prefijo "Mozilla/4.0" y demás para ser más compatible con muchas páginas webs, en otros casos son simplemente usuarios que utilizan una extensión de Firefox.
    Googlebot/2.1 (+http://www.googlebot.com/bot.html)
    Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • msnbot: Se trata del robot de Live, el buscador de Microsoft, antiguamente conocido como MSN Search. También deberíamos permitir su entrada. msnbot-media es el crawler de imágenes.
    msnbot/1.0 (+http://search.msn.com/msnbot.htm)
    msnbot-media/1.0 (+http://search.msn.com/msnbot.htm)
    
  • Yahoo! Slurp: Es el buscador de Yahoo!. Después de Googlebot y antes de msnbot, se puede considerar uno de los tres crawlers más importantes de la actualidad. ¡No bloquear!
    Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
    Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
  • noxtrumbot: Se trata del buscador de TPI (paginas amarillas). Ultimamente se está detectando un volumen muy alto de tráfico de este crawler, puedes utilizar Crawl-delay para controlar el tráfico de este robot en nuestra página.
    noxtrumbot/1.0 (crawler@noxtrum.com)
  • Google Desktop: Widget de escritorio, con buscador y gadgets integrados. Muchos usuarios lo utilizan como agregador RSS de webs. No es conveniente bloquearlo.
    Mozilla/5.0 (compatible; Google Desktop)
  • psbot: Robot indexador de imagenes del buscador PicSearch.
    psbot/0.1 (+http://www.picsearch.com/bot.html)
  • ia_archiver: Robot indexador de Alexa e Internet Archive. Si estas especialmente interesado en los rankings de Alexa, te conviene no bloquearlo.
  • FAST MetaWeb Crawler: Antiguamente era el propietario de un buscador que casi hacía sombra a Google: AllTheWeb, hoy prácticamente casi nadie lo utiliza.
    FAST MetaWeb Crawler (helpdesk at fastsearch dot com)
  • HTTrack: Software que se encarga de descargar copias íntegras de una página web, siguiendo todos sus enlaces. Conviene bloquearlo, aunque el usuario que utilice el programa, puede simular ser un navegador corriente, pasando a ser más difícil de detectar.
    Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)
  • Yeti: Se trata de un robot coreano que simular ser un crawler de Naver.com. Sin embargo es un robot de spam.
    Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follow it)
  • Ask Jeeves: Se trata de la antigua unión de Ask y Teoma. Actualmente es un buscador de blogs similar a Google Blog Search.
    Mozilla/2.0 (compatible; Ask Jeeves/Teoma; +http://about.ask.com/en...
  • Scooter: Es el robot indexador del buscador Altavista.
    Scooter/3.3
  • Snapbot: Este robot es el crawler que se encarga de realizar capturas de pantalla de páginas webs para utilizar en el servicio de snapshots.
    Snapbot/1.0 (Snap Shots, +http://www.snap.com)
  • W3C: Robot del validador HTML y CSS, que comprueba los errores de tu web. Es un servicio de la web del consorcio W3C.
    W3C_Validator/1.555
    Jigsaw/2.2.5 W3C_CSS_Validator_JFouffa/2.0
  • TestCrawler: Se auto-catalogan como «supuestos» robots indexadores de investigación. Vamos, robots spam casi seguro. Mi recomendación, bloquearlos.
    TestCrawler/Nutch-0.9 (Testing Crawler for Research ; http://chitchit...
    TestCrawler/Nutch-0.9 (Testing Crawler for Research ; http://balihoo.com...
    test/Nutch-0.8.1 (Test robot; http://test.com; info at test.com
    
  • BlogPulseLive: Robot indexador de esta herramienta de seguimiento de blogs, al más puro estilo Google Blog Search, Technorati o Agregax.
    BlogPulseLive (support@blogpulse.com)
  • GigaBlast: Es el robot indexador que se encarga de recopilar información para el buscador Gigablast.
    Gigabot/2.0 (http://www.gigablast.com/spider.html)
  • Wells Search II: Robot Spammer, confirmado. Usa IPs actualmente marcadas en lista negra (blacklist) 24.132.27.125.
  • ConveraCrawler: Afirma ser un buscador que indexa información para investigaciones en relación a la web 2.0 y otros propósitos, como por ejemplo SearchMedica. Yo por mi parte, bloqueado.
    ConveraCrawler/0.9e (+http://www.authoritativeweb.com/crawl)
  • Jyxobot/1: Parece ser el crawler de un buscador de la República Checa llamado Jy Xo.
  • MJ12bot: Parece ser el robot de un recopilador de datos de redes distribuidas llamado Majestic12.
    MJ12bot/v1.2.0 (http://majestic12.co.uk/bot.php?+)
  • VadixBot: Bot spammer, catalogado en lista negra (blacklist) 70.112.175.196.
  • Microsoft-WebDAV-MiniRedir/5.1.2600: Esta identificación no es ningún crawler o robot. Se trata de un protocolo para programadores que brinda Microsoft para acceder a documentos almacenados en Internet de forma nativa. Probablemente software que accede a sitios web. Otro proyecto similar es el llamado Jakarta.
    Microsoft-WebDAV-MiniRedir/5.1.2600
    Jakarta Commons-HttpClient
    Microsoft URL Control - 6.00.8169
    Microsoft URL Control - 6.00.8862
    Microsoft URL Control - 6.00.8877
    Microsoft URL Control - 6.01.9782
    
  • VoilaBot: Se trata del robot del buscador francés Voila. En algunos casos también se ha detectado que hace uso masivo de peticiones en el servidor.
    Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 ...
  • studybot/1.0: Robot que se hace pasar por crawler, pero en realidad es un bot spammer de viet-nam. Confirmado e incluido en blacklist: 58.186.51.174.
  • Twiceler: Parece el crawler de un buscador legítimo.
    Mozilla/5.0 (Twiceler-0.9 http://www.cuill.com/twiceler/robot.html)
  • Attentio/Nutch: Crawler que realiza operaciones de tracking y análisis sociales en blogs, foros de discusión.
    Attentio/Nutch-0.9-dev (Attentio's beta blog crawler;...
  • Moreoverbot: Robot de noticias online y actualidad.
    Moreoverbot/5.00 (+http://www.moreover.com)
  • Woriobot Heritrix: Robot de un buscador británico de Colombia llamado Worio.
    Mozilla/5.0 (compatible; woriobot heritrix/1.10.0 +http://worio.com)
  • EmeraldShield: Robot crawler legítimo de una empresa llamada EmeraldShield.
    EmeraldShield.com Web Spider ...
  • Sogou Orion Spider: Buscador chino llamado Sogou.
    Sogou Orion spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07
  • TailRank: Robot-crawler que hace las veces de agregador de blogs.
    Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.2.1; aggregator:Tailrank; ...
  • WebCollage: Robot indexador, que se encarga de realizar collages con imagenes encontradas por internet.
    webcollage 1.93
    webcollage 1.129
    webcollage 1.125
    webcollage 1.114
    webcollage 1.117
  • Speedy Spider: Robot indexador del buscador EntireWeb.
    Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)
  • ISC Systems iRc Search 2.1: Robot crawler spammer. Confirmado en 196.209.64.115 (blacklist).
  • http://www.abcdatos.com/botlink/
  • Botlink ABCDatos: Robot que comprueba enlaces rotos de la base de datos de enlaces de . No soporta el uso de robots.txt, pero porque la comprobación con cabecera es mucho más pequeña que hacer una lectura de ese fichero.
  • Yahoo-MMCrawler/3.x: Antiguamente se trataba del robot del buscador de imagenes de Yahoo. Actualmente creo que ha cambiado a ser la tecnología usada en el buscador de imagenes de AllTheWeb (también pertenece a Yahoo).
  • Technoratibot: Robot indexador de actualizaciones y referencias de Technorati.
    Technoratibot/0.7
  • YodaoBot: Buscador chino, bautizado con el nombre de Yo Dao.
    Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/...
  • Consolas y teléfonos: Existen muchas consolas como la PSP, Wii o iPhone que permiten navegar desde el dispositivo, a través de una red inalámbrica. Entre muchos otros teléfonos nokia, ericsson y otros, podemos destacar por uso medio los siguientes:
    Mozilla/5.0 (iphone; u; cpu like mac os x; en) applewebkit/420+ ...
    Opera/9.10 (nintendo wii; u; ; 1621; es-es)
    Mozilla/4.0 (psp (playstation portable); 2.00)

Evidentemente faltan muchos, pero me he preocupado de poner los más comunes (al menos desde mi experiencia). Confío en ir ampliando el diccionario según lleguen webmasters interesados en el tema. ¡No duden en comentar para ampliar la lista!


Adsense: Ganar dinero con tu web

85 comentarios · 20.291 lecturas · adsense

Últimamente recibo bastantes e-mails de lectores que le gustaría inscribirse en Adsense, el servicio de publicidad de Google, pero que no saben o no se atreven a darse de alta sin un manual detallado de los pasos a seguir, por miedo a introducir datos en un lugar erroneo o similar.

Google

Lo primero, hay que aclarar que es Google Adsense: Es un servicio de publicidad que pone a disposición de todo el mundo (poseedor de una página web, portal, blog...) para recibir ingresos a cambio de colocar una publicidad altamente controlable en dicho sitio web.

Además, antes de darse de alta se debe saber que su página web no puede tener contenido ilegal o pornográfico, el autor debe de ser mayor de 18 años (o un tutor mayor que asuma las responsabilidades y reciba los pagos) y el idioma utilizado en la página sea el español, inglés u otros idiomas de ésta lista (actualmente no se permiten idiomas como el catalán, gallego, etc..).

Primera parte


Darse de alta en este servicio es muy sencillo, sólo hay que ingresar en Adsense y seguir los siguientes pasos que detallaré minuciosamente.

Pulsamos el botón que está justo debajo de ¡Empezar es fácil!:

adsense 01

Acto seguido, nos aparecerá un formulario para rellenar con nuestros datos. En Información del sitio web escribiremos la dirección del sitio web donde pensamos incluir la publicidad (si vamos a hacerlo en varias páginas, pondremos la principal de ellas) y el idioma del mismo. Esta dirección no afecta en sí a la publicidad, ya que se usará por los «moderadores» de Google para comprobar que tu web es lícita para el servicio.

En Información de contacto publicaremos los datos del usuario que va a recibir los ingresos. El Tipo de cuenta dependerá de si la web forma parte de una empresa o no (en la mayoría de nuestros casos: Individual), a continuación datos sencillos como la dirección, provincia y demás. En la Selección de productos marcaremos las dos opciones disponibles (Adsense para contenido y adsense para búsqueda) y en Políticas debemos aceptar, marcando todas las casillas y pulsando en Enviar información.

A continuación procederemos a crear o asociar una cuenta de correo como nombre de usuario para Google Adsense:

adsense 02

Marcamos la respuesta correspondiente a nuestro caso, y en la segunda pregunta decidiremos si queremos crear una nueva cuenta Gmail o usar una cuenta de correo existente (no hace falta que sea gmail) para usar en Adsense. ¡Ojo! Este correo no se podrá cambiar posteriormente (la contraseña si, la cuenta no).

adsense 03

Hemos terminado la primera parte de la inscripción. Ahora sólo nos queda esperar a que el equipo de Google revise nuestro sitio (tardan entre 2 días y 1 semana más o menos) para comenzar a colocar la publicidad y generar ingresos en nuestro sitio web.

Segunda parte


Después, y sólo después de haber recibido el email que nos acepta como usuarios de Adsense, podremos ingresar en el panel de control del mismo. Para ello accedemos al panel de Google Adsense identificandonos con el correo electrónico y la contraseña de la inscripción de la primera parte.

Nos aparecerá un panel similar al siguiente:

adsense 04

Accedemos a la pestaña Mi cuenta. Una vez ahí, revisaremos todos los datos para comprobar que están correctos (¡Si los datos son incorrectos, el dinero no llega!). Especialmente importante es el apartado de Detalles de pago, donde podemos especificar la forma en la que recibiremos el dinero: Transferencia bancaria (bastante eficaz) o mediante cheque estándar (por correo postal tardando de 2 a 3 semanas) o seguro rápida (por mensajero tardando 1 semana).

Accedemos, en la zona superior, al apartado Información fiscal donde seleccionaremos la opción Editor extranjero sin actividades en EE.UU que es la respuesta correcta en nuestro caso (a no ser que tengamos a algun trabajador residente en EEUU). Por norma general, tener un hosting en EEUU no significa que tengamos que escoger otra opción.

Listo. Ya estamos preparados para insertar publicidad en nuestra página web. Ahora sólo nos queda informarnos un poco sobre consejos y trucos para adsense, formas de potenciar los ingresos o como aumentar la efectividad de adsense, para conocer la mejor forma de utilizar en nuestro sitio los anuncios.


Páginas: 1 ... ... 1


Artículo de http://www.emezeta.com/

6 consultas efectuadas / Página generada en 0.035 segundos

Programado íntegramente por José Román (Manz) en XHTML y CSS estándar.

Sindicado bajo Feed RSS. Contenido bajo licencia Creative Commons

Estadísticas de visitas · Términos y condiciones · Contacto · Publicidad · Preguntas frecuentes (FAQ)