Redes de bots, spam, virus y botnets

3 comentarios · 1.429 lecturas · seguridad

Existe un tipo de estrategia que se basa en una infección masiva de ordenadores (en algunos casos servidores, en otros casos usuarios domésticos -entre otros-) de forma transparente e invisible para el dueño de la máquina, de forma que se convierten en los llamados ordenadores zombie.

Los dueños de estas redes de bots, descubren servidores con problemas de configuración o diseño (relays abiertos en servidores de correo, o vulnerabilidades en servidores web) y los aprovechan para conseguir controlar la máquina, realizar infecciones de virus y troyanos en equipos domésticos (clientes zombie de IRC camuflados en programas completos), y tretas de todo tipo con la finalidad de convertir el equipo en un zombie de la red.

Así, van consiguiendo un gran número de equipos que obedecerán cualquier orden del dueño de estas redes, llamadas redes de zombies, botnets o redes de bots.

La potencia de estas redes es inmensa, puesto que utilizan una cantidad ingente de equipos destinados a un mismo fin -como por ejemplo- enviar spam, intentar colapsar servidores, ataques de denegación de servicio (D.O.S.), etc.

botnet zombie spam pcs

Por esta razón es muy importante no delegar la seguridad de nuestros equipos informáticos a un segundo plano, sino tener un buen antivirus (¡actualizado!) y un firewall o cortafuegos (bien configurado).

A continuación, una lista de enlaces interesantes para comprobar la seguridad de nuestro sistema y/o tener en cuenta otras posibles amenazas.

Para servidores:

  • Zombie Detection System: Este sistema te muestra información acerca de la posibilidad de formar parte de una botnet. Se basa en tu IP y puede ser bastante interesante en sistemas que no funcionen con IP dinámica. (Vía Kriptopolis).
  • Open Relay Test: Si tu caso es el de un servidor de correo, puedes hacer este test para saber si tienes un relay abierto. En ese caso, deberás tomar medidas oportunas porque es posible que te estén usando como zombie para hacer spam.
  • Whois DomainTools: Se trata de un sistema de whois, que a parte de darnos información sobre el dominio, nos muestra si dicha IP pertenece a la lista negra del sitio.
  • SpamHaus: De los mejores sitios para comprobar si una determinada IP forma parte de una red de botnet o está en alguna blacklist. Dispone de tres tipos de listas negras: SBL (spamhaus block list), XBL (Exploits block list) y PBL (Policy block list). El link de ejemplo, muestra información acerca de la IP 84.59.117.82, perteneciente a la lista negra PBL.

Para usuarios domésticos:

  • Nanoscan: Se trata de un análisis rápido e instantáneo de posibles amenazas en tu ordenador. Es el primero (que conozco) que no necesita necesariamente ActiveX, por lo que funciona bajo navegadores que no sean IE (sin duda, buena noticia).
  • TotalScan: La versión ampliada de NanoScan. Cuando necesitamos algo más potente que lo anterior, podemos utilizar este sistema.
  • Panda ActiveScan: Otro antivirus online, muy similar a los anteriores, pero mas lento y completo. Necesita Internet Explorer.
  • Kaspersky Antivirus Online: Es la compañía que considero líder en el sector de la detección de antivirus. Necesita Internet Explorer.

Diccionario de Crawlers (2007)

6 comentarios · 2.163 lecturas · internet

Cada vez que nosotros (o algún sistema) accede a una página web determinada, este acceso es registrado en un log, donde se guardan varios datos, entre ellos el User-agent, que no es más que una identificación del sistema para que los webmasters conozcan de quién se trata.

crawlers spiders robots arañas bender

Pero como siempre, la ley hace la trampa, y muchos robots maliciosos pululando por la red. A continuación voy a crear un pequeño diccionario con los crawlers, robots y spiders más famosos, alguna referencia y una breve descripción.

  • Mediapartners-Google: Se trata del robot que se encarga de realizar el mantenimiento de los anuncios de Adsense. Si lo bloqueas Adsense no podrá leer el contenido de tu web para renovar los anuncios y ofrecer publicidad contextual.
  • WordPress: Es la identificación que usa el famoso CMS para realizar trackbacks, pero también es muy utilizado por robots malignos para realizar spam en trackbacks o comentarios. Mi recomendación es revisar los logs y las IP/Hosts. En mi caso, las malignas son todas de dominios rusos.
    WordPress/2.0
    WordPress 2.1.2
    WordPress/1.9
  • Googlebot: Es el robot indexador de Google. ¡Cuidado! No le deniegues la entrada, probablemente sea el mayor promotor de tu web, así que tratalo con cariño y respeto. En algunos casos añade el prefijo "Mozilla/4.0" y demás para ser más compatible con muchas páginas webs, en otros casos son simplemente usuarios que utilizan una extensión de Firefox.
    Googlebot/2.1 (+http://www.googlebot.com/bot.html)
    Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • msnbot: Se trata del robot de Live, el buscador de Microsoft, antiguamente conocido como MSN Search. También deberíamos permitir su entrada. msnbot-media es el crawler de imágenes.
    msnbot/1.0 (+http://search.msn.com/msnbot.htm)
    msnbot-media/1.0 (+http://search.msn.com/msnbot.htm)
    
  • Yahoo! Slurp: Es el buscador de Yahoo!. Después de Googlebot y antes de msnbot, se puede considerar uno de los tres crawlers más importantes de la actualidad. ¡No bloquear!
    Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
    Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
  • noxtrumbot: Se trata del buscador de TPI (paginas amarillas). Ultimamente se está detectando un volumen muy alto de tráfico de este crawler, puedes utilizar Crawl-delay para controlar el tráfico de este robot en nuestra página.
    noxtrumbot/1.0 (crawler@noxtrum.com)
  • Google Desktop: Widget de escritorio, con buscador y gadgets integrados. Muchos usuarios lo utilizan como agregador RSS de webs. No es conveniente bloquearlo.
    Mozilla/5.0 (compatible; Google Desktop)
  • psbot: Robot indexador de imagenes del buscador PicSearch.
    psbot/0.1 (+http://www.picsearch.com/bot.html)
  • ia_archiver: Robot indexador de Alexa e Internet Archive. Si estas especialmente interesado en los rankings de Alexa, te conviene no bloquearlo.
  • FAST MetaWeb Crawler: Antiguamente era el propietario de un buscador que casi hacía sombra a Google: AllTheWeb, hoy prácticamente casi nadie lo utiliza.
    FAST MetaWeb Crawler (helpdesk at fastsearch dot com)
  • HTTrack: Software que se encarga de descargar copias íntegras de una página web, siguiendo todos sus enlaces. Conviene bloquearlo, aunque el usuario que utilice el programa, puede simular ser un navegador corriente, pasando a ser más difícil de detectar.
    Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)
  • Yeti: Se trata de un robot coreano que simular ser un crawler de Naver.com. Sin embargo es un robot de spam.
    Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follow it)
  • Ask Jeeves: Se trata de la antigua unión de Ask y Teoma. Actualmente es un buscador de blogs similar a Google Blog Search.
    Mozilla/2.0 (compatible; Ask Jeeves/Teoma; +http://about.ask.com/en...
  • Scooter: Es el robot indexador del buscador Altavista.
    Scooter/3.3
  • Snapbot: Este robot es el crawler que se encarga de realizar capturas de pantalla de páginas webs para utilizar en el servicio de snapshots.
    Snapbot/1.0 (Snap Shots, +http://www.snap.com)
  • W3C: Robot del validador HTML y CSS, que comprueba los errores de tu web. Es un servicio de la web del consorcio W3C.
    W3C_Validator/1.555
    Jigsaw/2.2.5 W3C_CSS_Validator_JFouffa/2.0
  • TestCrawler: Se auto-catalogan como «supuestos» robots indexadores de investigación. Vamos, robots spam casi seguro. Mi recomendación, bloquearlos.
    TestCrawler/Nutch-0.9 (Testing Crawler for Research ; http://chitchit...
    TestCrawler/Nutch-0.9 (Testing Crawler for Research ; http://balihoo.com...
    test/Nutch-0.8.1 (Test robot; http://test.com; info at test.com
    
  • BlogPulseLive: Robot indexador de esta herramienta de seguimiento de blogs, al más puro estilo Google Blog Search, Technorati o Agregax.
    BlogPulseLive (support@blogpulse.com)
  • GigaBlast: Es el robot indexador que se encarga de recopilar información para el buscador Gigablast.
    Gigabot/2.0 (http://www.gigablast.com/spider.html)
  • Wells Search II: Robot Spammer, confirmado. Usa IPs actualmente marcadas en lista negra (blacklist) 24.132.27.125.
  • ConveraCrawler: Afirma ser un buscador que indexa información para investigaciones en relación a la web 2.0 y otros propósitos, como por ejemplo SearchMedica. Yo por mi parte, bloqueado.
    ConveraCrawler/0.9e (+http://www.authoritativeweb.com/crawl)
  • Jyxobot/1: Parece ser el crawler de un buscador de la República Checa llamado Jy Xo.
  • MJ12bot: Parece ser el robot de un recopilador de datos de redes distribuidas llamado Majestic12.
    MJ12bot/v1.2.0 (http://majestic12.co.uk/bot.php?+)
  • VadixBot: Bot spammer, catalogado en lista negra (blacklist) 70.112.175.196.
  • Microsoft-WebDAV-MiniRedir/5.1.2600: Esta identificación no es ningún crawler o robot. Se trata de un protocolo para programadores que brinda Microsoft para acceder a documentos almacenados en Internet de forma nativa. Probablemente software que accede a sitios web. Otro proyecto similar es el llamado Jakarta.
    Microsoft-WebDAV-MiniRedir/5.1.2600
    Jakarta Commons-HttpClient
    Microsoft URL Control - 6.00.8169
    Microsoft URL Control - 6.00.8862
    Microsoft URL Control - 6.00.8877
    Microsoft URL Control - 6.01.9782
    
  • VoilaBot: Se trata del robot del buscador francés Voila. En algunos casos también se ha detectado que hace uso masivo de peticiones en el servidor.
    Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 ...
  • studybot/1.0: Robot que se hace pasar por crawler, pero en realidad es un bot spammer de viet-nam. Confirmado e incluido en blacklist: 58.186.51.174.
  • Twiceler: Parece el crawler de un buscador legítimo.
    Mozilla/5.0 (Twiceler-0.9 http://www.cuill.com/twiceler/robot.html)
  • Attentio/Nutch: Crawler que realiza operaciones de tracking y análisis sociales en blogs, foros de discusión.
    Attentio/Nutch-0.9-dev (Attentio's beta blog crawler;...
  • Moreoverbot: Robot de noticias online y actualidad.
    Moreoverbot/5.00 (+http://www.moreover.com)
  • Woriobot Heritrix: Robot de un buscador británico de Colombia llamado Worio.
    Mozilla/5.0 (compatible; woriobot heritrix/1.10.0 +http://worio.com)
  • EmeraldShield: Robot crawler legítimo de una empresa llamada EmeraldShield.
    EmeraldShield.com Web Spider ...
  • Sogou Orion Spider: Buscador chino llamado Sogou.
    Sogou Orion spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07
  • TailRank: Robot-crawler que hace las veces de agregador de blogs.
    Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.2.1; aggregator:Tailrank; ...
  • WebCollage: Robot indexador, que se encarga de realizar collages con imagenes encontradas por internet.
    webcollage 1.93
    webcollage 1.129
    webcollage 1.125
    webcollage 1.114
    webcollage 1.117
  • Speedy Spider: Robot indexador del buscador EntireWeb.
    Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)
  • ISC Systems iRc Search 2.1: Robot crawler spammer. Confirmado en 196.209.64.115 (blacklist).
  • http://www.abcdatos.com/botlink/
  • Botlink ABCDatos: Robot que comprueba enlaces rotos de la base de datos de enlaces de . No soporta el uso de robots.txt, pero porque la comprobación con cabecera es mucho más pequeña que hacer una lectura de ese fichero.
  • Yahoo-MMCrawler/3.x: Antiguamente se trataba del robot del buscador de imagenes de Yahoo. Actualmente creo que ha cambiado a ser la tecnología usada en el buscador de imagenes de AllTheWeb (también pertenece a Yahoo).
  • Technoratibot: Robot indexador de actualizaciones y referencias de Technorati.
    Technoratibot/0.7
  • YodaoBot: Buscador chino, bautizado con el nombre de Yo Dao.
    Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/...
  • Consolas y teléfonos: Existen muchas consolas como la PSP, Wii o iPhone que permiten navegar desde el dispositivo, a través de una red inalámbrica. Entre muchos otros teléfonos nokia, ericsson y otros, podemos destacar por uso medio los siguientes:
    Mozilla/5.0 (iphone; u; cpu like mac os x; en) applewebkit/420+ ...
    Opera/9.10 (nintendo wii; u; ; 1621; es-es)
    Mozilla/4.0 (psp (playstation portable); 2.00)

Evidentemente faltan muchos, pero me he preocupado de poner los más comunes (al menos desde mi experiencia). Confío en ir ampliando el diccionario según lleguen webmasters interesados en el tema. ¡No duden en comentar para ampliar la lista!


Robots.txt : Todo lo que deberia saber

13 comentarios · 8.604 lecturas · manuales

El fichero robots.txt es un archivo de texto que dicta unas recomendaciones para que todos los crawlers y robots de buscadores cumplan (¡ojo! recomendaciones, no obligaciones). Pero comencemos por el principio.

Un crawler es un robot de una entidad (generalmente buscadores) que acceden a las páginas web de un sitio para buscar información en ella, añadirla en los buscadores, etc. También son llamados spiders, arañas, bots o indexadores.

crawler spider robot indexador araña googlebot slurp

Por ejemplo, Googlebot es el nombre del crawler del buscador Google. También existen otros como:

  • Mediapartners-Google, que es el crawler que se encarga de revisar los anuncios de Google Adsense.
  • Googlebot-Image, robot indexador de imagenes del buscador de Google.
  • Slurp, crawler de indexación del buscador Yahoo!
  • noxtrumbot, del buscador Noxtrum.
  • Scooter, del buscador Altavista.

Y muchísimos más. Si establecemos un control en nuestro robots.txt, podremos conseguir una serie de beneficios:

crawlers robots txt robots.txt spiders index
  • Impedir acceso a robots determinados: Puede parecer contradictorio, pero algunos crawlers no nos proporcionarán sino problemas. Algunos robots no son de buscadores, e incluso algunos robots no son ni amigos. Pero de eso ya hablaremos más tarde.
  • Reducir la sobrecarga del servidor: Podrás controlar el flujo de algunos robots. Algunos de ellos son un verdadero descontrol de peticiones que pueden llegar a saturar tu servidor.
  • Prohibir zonas: Nos puede interesar tener disponible una zona en nuestra web, que sea accesible para algunos, pero que no aparezca en buscadores.
  • Eliminar contenido duplicado: Uno de los casos más importantes, que casi siempre es olvidado por los webmasters. Si eliminamos la duplicidad de contenido, los buscadores nos puntuaran muy alto, aumentando el flujo de visitas.
  • Fijar mapas del sitio: También es posible acoplar un sitemap para indicar el buen camino a los robots.

¿Y entonces, que hay que hacer? Es muy sencillo.

Sólo tenemos que crear un fichero de texto robots.txt y comenzar a escribir en el. Partiré del siguiente ejemplo donde permitimos la entrada a todos los crawlers (igual que sin ningún robots.txt):

User-agent: *
Disallow:

En User-agent debemos introducir el nombre del robot, y a continuación las rutas donde queremos prohibir que acceda. Algunos ejemplos:

  • Disallow: / prohibe la entrada a todo el sitio.
  • Disallow: /foro/ prohibe la entrada a los documentos del directorio foro.
  • Disallow: permite la entrada a todo el sitio.

En algunos casos suele utilizarse en lugar de Disallow, la palabra Allow. Aunque por definición es correcta, es conveniente no utilizarla, puesto que las rutas omitidas se asumen que están permitidas por defecto, y algunos crawlers no entienden la palabra Allow.

Es posible acumular varios Disallow bajo un mismo User-agent, pero no podemos utilizar varios User-agent encima de un Disallow. Bien, algún ejemplo:

# Crawler de MSN
User-agent: msnbot
Disallow: /links.html
Disallow: /private/
Disallow: /photos/

Este código impide al crawler del buscador de Live (MSN) acceder a la página links.html, y las carpetas private y photos (y todo su contenido) de nuestro sitio.

Añadiendo el carácter # al principio de una linea podemos escribir comentarios que no interpretará el crawler.

Es posible ir acumulando reglas para distintos crawlers, formando un robots.txt más largo y completo. Cada vez que escribamos un User-agent deberemos dejar una linea en blanco de separación. Además, existe una ligera adaptación que permiten usar comodines ($ y *) en las rutas en algunos crawlers (sólo Googlebot y Slurp):

User-agent: Slurp
Disallow: /*.js$
Disallow: /2006/*
Disallow: /2007/*
Disallow: /articulos/*/pagina/*

Se está indicando al robot de Yahoo, que no indexe los ficheros que terminen en .js (javascript), direcciones que empiecen por 2007 o 2006 (fechas), ni artículos con la palabra pagina (paginado de comentarios). Estos casos pertenecen a la idea de no indexar contenido duplicado.

En la mayoría de los blogs, puedes acceder a un mismo artículo por las direcciones:

  • blog.com/articulo/titulo, la dirección principal.
  • blog.com/2007/04/, el archivo del mes.
  • blog.com/articulo/titulo/feed, feed RSS del artículo.
  • blog.com/articulo/titulo/pagina/2, pagina 2 de comentarios.

Todo esto es contenido duplicado, una de las razones más importantes de penalización para un buscador, a no ser, claro, que te las ingenies para que sólo sea accesible desde una dirección. A la hora de ver los resultados te asombrarás lo bien que estarás quedando ante los ojos de Google, por ejemplo.

Hay que tener mucho cuidado con usar cosas como Disallow: /pagina o Disallow: /*pagina, puesto que en lugar de bloquear lo que queríamos (carpeta pagina o artículos paginados), terminen bloqueando direcciones como /decorar-mi-pagina o /paginas-para-amigos/.

Si revisas estadísticas y demás, también puedes observar que a veces algunos crawlers «se pasan» revisando nuestro sitio, y funden a peticiones a nuestro pobre servidor. Existe una manera de tranquilizar a los robots:

User-agent: noxtrumbot
Crawl-delay: 30

Con esto le decimos al robot de noxtrum que espere 30 segundos entre cada acceso. Cuidado, porque Crawl-delay no lo soportan todos los crawlers (al menos MSNBot y Slurp si lo soportan, y Googlebot desde el panel de webmasters también).

Finalmente, podemos también incluir un mapa del sitio en nuestro robots.txt de la siguiente forma:

Sitemap: http://www.emezeta.com/sitemap.xml

En RobotsTXT.org podrás encontrar documentación oficial si quieres profundizar y en esta búsqueda de Google encontrarás muchos robots.txt de ejemplo, incluso robots.txt optimizados para tu tipo de web. Además, también tienes un validador de robots.txt.

Recordar a todos que con el fichero robots.txt no podemos bloquear los accesos por «fuerza bruta». Robots.txt es una recomendación del webmaster a los buscadores, que como son «robots buenos», las seguirán al pie de la letra.

Existen otros «robots malos» (que buscan direcciones de correos o formularios para hacer SPAM) que no dudarán en acceder a los lugares que hayas prohibido si lo desean. Para bloquear estos, deberemos echar mano al fichero .htaccess, pero como decía Michael Ende, eso ya es otra historia...


Referer SPAM: Evitar bots y spammers

10 comentarios · 4.134 lecturas · blogs

Lo prometido es deuda, y hace algunos días comenté que estaba probando un sencillisimo, pero creo que de momento efectivo repelente de bots spammers, sobre todo los famosos referers spammers entre los que se incluyen clásicos como el texas holdem, casino cash y tantos otros.

no spam

Un referer (o referido también llamado en español) es un dato que cada visitante deja al ingresar en un sitio web, dónde muestra desde que sitio web ha llegado. Asi, por ejemplo, al buscar una palabra en Google y pinchar en el primer enlace, el referer del que estamos hablando sería la página de Google.

Conociendo el significado de los referers, nos imaginaremos lo que es el referer spam: publicidad que dejan algunos robots/spammers dejando sus webs como referer a diestro y siniestro. Esto se ha convertido en un verdadero quebradero de cabeza para muchos autores de páginas webs, los cuales sufren tres factores: reducción del ancho de banda consumido por estos parásitos, spam en forma de comentario o mensaje enviado por metodo POST y referers falseados en sistemas de estadísticas, trackers u otros.

Por la red se encuentra bastante información sobre el asunto. Puedo resaltar algunos como Claudio, que comenta una forma de bloquear spam con el Apache. Alex habla de evitar el referer spam en Movable Type y en barrapunto se hicieron eco del tema hace ya varios meses.

El inconveniente de usar métodos cómo modificar configuraciones de Apache, uso de iptables o similares es que la mayoría de los usuarios no tienen dominio sobre estos aspectos o no pueden hacer cambios en ellos. Sin embargo, si lo podrían hacer con otros sistemas como el lenguaje PHP, con las cualidades necesarias de ser sencillo para editar, tener permiso y bloquear a estas especies de sanguijuelas.

La instalación y configuración del script es de lo más sencilla. Lo primero es descargar el script proteccion.php.txt, renombrarlo a proteccion.php e incluirlo en nuestro sitio web. Finalmente lo llamamos desde nuestra página principal en la primera linea con un sencillo:

<?php include('proteccion.php'); ?>

La explicación del código es sencilla. Nos basamos en el uso de PHP como lenguaje y de las expresiones regulares como arma. La variable spammers se encarga de recoger los dominios de los parásitos mientras que la variable referer es la que se encarga de comparar más tarde si el visitante es o no un spammer:

  • Sencilla forma de ampliar la lista negra de parásitos.
  • Esta lista solo influye en el nombre de dominio y subdominio del spammer. Asi pues un visitante que acceda desde la siguiente página web: http://www.miblog.com/articulo/el-poker-en-casinos no será bloqueado.
  • Los dominios asignados sólo han sido .com y .net, ya que (al menos yo) de momento no he encontrado spammer desde otro.
  • Simplificación y rápidez gracias al uso de expresiones regulares.
  • Devuelve un código HTTP 404 error al visitante que es identificado como spammer. Esto es bastante interesante, ya que la mayoría de los bots hacen publicidad solo en los servidores que responden, eliminando a todos aquellos que devuelven un 404 error para no saturar su base de datos y no colapsar su sistema de peticiones sin sentido.

Esperemos que sirva de ayuda a mucha gente y podamos comentar todos los errores o modificaciones que pudieran hacer más interesante la protección.


Páginas: 1 ... ... 1


Artículo de http://www.emezeta.com/

6 consultas efectuadas / Página generada en 0.034 segundos

Programado íntegramente por José Román (Manz) en XHTML y CSS estándar.

Sindicado bajo Feed RSS. Contenido bajo licencia Creative Commons

Estadísticas de visitas · Términos y condiciones · Contacto · Publicidad · Preguntas frecuentes (FAQ)