La historia de los navegadores (Browser Wars)

3 comentarios · 396 lecturas · internet

En el blog de Foxkeh podrás encontrar un detallado diagrama de la famosa Guerra de navegadores (Browser Wars, en analogía a la saga Star Wars) del panorama informático, incluyendo desde los inicios del arcaico navegador Mosaic hasta los actuales Mozilla Firefox, Safari e Internet Explorer.

browser wars guerra navegadores

Además de la historia original de las Browser Wars, también puedes encontrar un detallado artículo en la wikipedia sobre la Guerra de los navegadores, junto a una detallada línea cronológica con múltitud de navegadores en formato de gráficos vectoriales escalables (SVG).

Si te interesa conocer la historia de los navegadores desde su inicio, ¡que no se te olvide echarle un ojo!


Diccionario de Crawlers (2007)

6 comentarios · 2.560 lecturas · internet

Cada vez que nosotros (o algún sistema) accede a una página web determinada, este acceso es registrado en un log, donde se guardan varios datos, entre ellos el User-agent, que no es más que una identificación del sistema para que los webmasters conozcan de quién se trata.

crawlers spiders robots arañas bender

Pero como siempre, la ley hace la trampa, y muchos robots maliciosos pululando por la red. A continuación voy a crear un pequeño diccionario con los crawlers, robots y spiders más famosos, alguna referencia y una breve descripción.

  • Mediapartners-Google: Se trata del robot que se encarga de realizar el mantenimiento de los anuncios de Adsense. Si lo bloqueas Adsense no podrá leer el contenido de tu web para renovar los anuncios y ofrecer publicidad contextual.
  • WordPress: Es la identificación que usa el famoso CMS para realizar trackbacks, pero también es muy utilizado por robots malignos para realizar spam en trackbacks o comentarios. Mi recomendación es revisar los logs y las IP/Hosts. En mi caso, las malignas son todas de dominios rusos.
    WordPress/2.0
    WordPress 2.1.2
    WordPress/1.9
  • Googlebot: Es el robot indexador de Google. ¡Cuidado! No le deniegues la entrada, probablemente sea el mayor promotor de tu web, así que tratalo con cariño y respeto. En algunos casos añade el prefijo "Mozilla/4.0" y demás para ser más compatible con muchas páginas webs, en otros casos son simplemente usuarios que utilizan una extensión de Firefox.
    Googlebot/2.1 (+http://www.googlebot.com/bot.html)
    Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • msnbot: Se trata del robot de Live, el buscador de Microsoft, antiguamente conocido como MSN Search. También deberíamos permitir su entrada. msnbot-media es el crawler de imágenes.
    msnbot/1.0 (+http://search.msn.com/msnbot.htm)
    msnbot-media/1.0 (+http://search.msn.com/msnbot.htm)
    
  • Yahoo! Slurp: Es el buscador de Yahoo!. Después de Googlebot y antes de msnbot, se puede considerar uno de los tres crawlers más importantes de la actualidad. ¡No bloquear!
    Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
    Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
  • noxtrumbot: Se trata del buscador de TPI (paginas amarillas). Ultimamente se está detectando un volumen muy alto de tráfico de este crawler, puedes utilizar Crawl-delay para controlar el tráfico de este robot en nuestra página.
    noxtrumbot/1.0 (crawler@noxtrum.com)
  • Google Desktop: Widget de escritorio, con buscador y gadgets integrados. Muchos usuarios lo utilizan como agregador RSS de webs. No es conveniente bloquearlo.
    Mozilla/5.0 (compatible; Google Desktop)
  • psbot: Robot indexador de imagenes del buscador PicSearch.
    psbot/0.1 (+http://www.picsearch.com/bot.html)
  • ia_archiver: Robot indexador de Alexa e Internet Archive. Si estas especialmente interesado en los rankings de Alexa, te conviene no bloquearlo.
  • FAST MetaWeb Crawler: Antiguamente era el propietario de un buscador que casi hacía sombra a Google: AllTheWeb, hoy prácticamente casi nadie lo utiliza.
    FAST MetaWeb Crawler (helpdesk at fastsearch dot com)
  • HTTrack: Software que se encarga de descargar copias íntegras de una página web, siguiendo todos sus enlaces. Conviene bloquearlo, aunque el usuario que utilice el programa, puede simular ser un navegador corriente, pasando a ser más difícil de detectar.
    Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)
  • Yeti: Se trata de un robot coreano que simular ser un crawler de Naver.com. Sin embargo es un robot de spam.
    Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follow it)
  • Ask Jeeves: Se trata de la antigua unión de Ask y Teoma. Actualmente es un buscador de blogs similar a Google Blog Search.
    Mozilla/2.0 (compatible; Ask Jeeves/Teoma; +http://about.ask.com/en...
  • Scooter: Es el robot indexador del buscador Altavista.
    Scooter/3.3
  • Snapbot: Este robot es el crawler que se encarga de realizar capturas de pantalla de páginas webs para utilizar en el servicio de snapshots.
    Snapbot/1.0 (Snap Shots, +http://www.snap.com)
  • W3C: Robot del validador HTML y CSS, que comprueba los errores de tu web. Es un servicio de la web del consorcio W3C.
    W3C_Validator/1.555
    Jigsaw/2.2.5 W3C_CSS_Validator_JFouffa/2.0
  • TestCrawler: Se auto-catalogan como «supuestos» robots indexadores de investigación. Vamos, robots spam casi seguro. Mi recomendación, bloquearlos.
    TestCrawler/Nutch-0.9 (Testing Crawler for Research ; http://chitchit...
    TestCrawler/Nutch-0.9 (Testing Crawler for Research ; http://balihoo.com...
    test/Nutch-0.8.1 (Test robot; http://test.com; info at test.com
    
  • BlogPulseLive: Robot indexador de esta herramienta de seguimiento de blogs, al más puro estilo Google Blog Search, Technorati o Agregax.
    BlogPulseLive (support@blogpulse.com)
  • GigaBlast: Es el robot indexador que se encarga de recopilar información para el buscador Gigablast.
    Gigabot/2.0 (http://www.gigablast.com/spider.html)
  • Wells Search II: Robot Spammer, confirmado. Usa IPs actualmente marcadas en lista negra (blacklist) 24.132.27.125.
  • ConveraCrawler: Afirma ser un buscador que indexa información para investigaciones en relación a la web 2.0 y otros propósitos, como por ejemplo SearchMedica. Yo por mi parte, bloqueado.
    ConveraCrawler/0.9e (+http://www.authoritativeweb.com/crawl)
  • Jyxobot/1: Parece ser el crawler de un buscador de la República Checa llamado Jy Xo.
  • MJ12bot: Parece ser el robot de un recopilador de datos de redes distribuidas llamado Majestic12.
    MJ12bot/v1.2.0 (http://majestic12.co.uk/bot.php?+)
  • VadixBot: Bot spammer, catalogado en lista negra (blacklist) 70.112.175.196.
  • Microsoft-WebDAV-MiniRedir/5.1.2600: Esta identificación no es ningún crawler o robot. Se trata de un protocolo para programadores que brinda Microsoft para acceder a documentos almacenados en Internet de forma nativa. Probablemente software que accede a sitios web. Otro proyecto similar es el llamado Jakarta.
    Microsoft-WebDAV-MiniRedir/5.1.2600
    Jakarta Commons-HttpClient
    Microsoft URL Control - 6.00.8169
    Microsoft URL Control - 6.00.8862
    Microsoft URL Control - 6.00.8877
    Microsoft URL Control - 6.01.9782
    
  • VoilaBot: Se trata del robot del buscador francés Voila. En algunos casos también se ha detectado que hace uso masivo de peticiones en el servidor.
    Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 ...
  • studybot/1.0: Robot que se hace pasar por crawler, pero en realidad es un bot spammer de viet-nam. Confirmado e incluido en blacklist: 58.186.51.174.
  • Twiceler: Parece el crawler de un buscador legítimo.
    Mozilla/5.0 (Twiceler-0.9 http://www.cuill.com/twiceler/robot.html)
  • Attentio/Nutch: Crawler que realiza operaciones de tracking y análisis sociales en blogs, foros de discusión.
    Attentio/Nutch-0.9-dev (Attentio's beta blog crawler;...
  • Moreoverbot: Robot de noticias online y actualidad.
    Moreoverbot/5.00 (+http://www.moreover.com)
  • Woriobot Heritrix: Robot de un buscador británico de Colombia llamado Worio.
    Mozilla/5.0 (compatible; woriobot heritrix/1.10.0 +http://worio.com)
  • EmeraldShield: Robot crawler legítimo de una empresa llamada EmeraldShield.
    EmeraldShield.com Web Spider ...
  • Sogou Orion Spider: Buscador chino llamado Sogou.
    Sogou Orion spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07
  • TailRank: Robot-crawler que hace las veces de agregador de blogs.
    Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.2.1; aggregator:Tailrank; ...
  • WebCollage: Robot indexador, que se encarga de realizar collages con imagenes encontradas por internet.
    webcollage 1.93
    webcollage 1.129
    webcollage 1.125
    webcollage 1.114
    webcollage 1.117
  • Speedy Spider: Robot indexador del buscador EntireWeb.
    Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)
  • ISC Systems iRc Search 2.1: Robot crawler spammer. Confirmado en 196.209.64.115 (blacklist).
  • http://www.abcdatos.com/botlink/
  • Botlink ABCDatos: Robot que comprueba enlaces rotos de la base de datos de enlaces de . No soporta el uso de robots.txt, pero porque la comprobación con cabecera es mucho más pequeña que hacer una lectura de ese fichero.
  • Yahoo-MMCrawler/3.x: Antiguamente se trataba del robot del buscador de imagenes de Yahoo. Actualmente creo que ha cambiado a ser la tecnología usada en el buscador de imagenes de AllTheWeb (también pertenece a Yahoo).
  • Technoratibot: Robot indexador de actualizaciones y referencias de Technorati.
    Technoratibot/0.7
  • YodaoBot: Buscador chino, bautizado con el nombre de Yo Dao.
    Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/...
  • Consolas y teléfonos: Existen muchas consolas como la PSP, Wii o iPhone que permiten navegar desde el dispositivo, a través de una red inalámbrica. Entre muchos otros teléfonos nokia, ericsson y otros, podemos destacar por uso medio los siguientes:
    Mozilla/5.0 (iphone; u; cpu like mac os x; en) applewebkit/420+ ...
    Opera/9.10 (nintendo wii; u; ; 1621; es-es)
    Mozilla/4.0 (psp (playstation portable); 2.00)

Evidentemente faltan muchos, pero me he preocupado de poner los más comunes (al menos desde mi experiencia). Confío en ir ampliando el diccionario según lleguen webmasters interesados en el tema. ¡No duden en comentar para ampliar la lista!


Acid2: El test de los navegadores

14 comentarios · 3.406 lecturas · html y css

Las páginas webs en realidad están formadas por código: HTML, CSS, XML, Javascript, etc... Existen unas recomendaciones realizadas por la W3C que indican como debe estar construido un código correcto para tener una experiencia satisfactoria para el mayor número de usuarios (incluyendo usuarios con lectores de pantalla, PDA, móviles WAP , etc...). Hasta aquí podríamos hablar perfectamente de usuarios que siguen los estandares y usuarios que no los siguen. Pero la cosa no es tan bonita como la pintan. Diseñadores web y usuarios más allegados sabrán de que hablo.

Existe una amplia variedad de navegadores donde elegir, pero una gran mayoría de ellos, aún leyendo una página con código HTML, CSS, etc. estándar no sería correctamente interpretado, por la razón de que el navegador no interpreta el lenguaje de forma correcta.

Para ello, los chicos de Web Standards han realizado un «examen» para navegadores web llamado Acid2 Browser Test.

El test se basa en mostrar una simple imagen:

acid2 test

Pero en realidad, esa imagen no es tal, sino que se construye siguiendo una serie de códigos (algo rebuscados eso si) con diferentes lenguajes, comprobando así si el navegador sigue correctamente los estándares. Usan técnicas tan interesantes como selectores CSS, pseudoclases, etiquetas con nombres inválidos (para comprobar si el navegador los ignora como debería o los pasa por alto), etc.

En definitiva, en cada navegador se podrá comprobar el grado de efectividad que tiene mostrando páginas web observando simplemente la fidelidad con el dibujo original. Es ideal puesto que los usuarios llanos o sin conocimientos de dicho código, pueden hacerse una idea a como tratan una web los diferentes navegadores:

acid2 ejemplos samples test

Muchos se darán cuenta ahora porque criticamos tanto al Internet Explorer y sucedáneos.

Se rumorea que la beta del Opera en su versión 9 aprueba el test correctamente, al igual que el Konqueror 3.5 y el Safari 2.0.2.


Páginas: 1 ... ... 1


Artículo de http://www.emezeta.com/

6 consultas efectuadas / Página generada en 0.032 segundos

Programado íntegramente por José Román (Manz) en XHTML y CSS estándar.

Sindicado bajo Feed RSS. Contenido bajo licencia Creative Commons

Estadísticas de visitas · Términos y condiciones · Contacto · Publicidad · Preguntas frecuentes (FAQ)