Credit image

¿Te gusta el diseño web? ¡Echa un vistazo a la documentación de LenguajeCSS.com!

Web Scrappers (Evitar robo de contenido)

Los Web Scrappers o ladrones de contenido son un tipo de robots o crawlers que indexan contenido de otras webs para duplicarlo, añadiendo bloques de publicidad y lucrarse con el trabajo ajeno.

Los Web Scrappers o ladrones de contenido son un tipo de robot o crawler que indexa contenido recopilando información y artículos de otras webs para -generalmente- duplicarlo, añadiendo bloques de publicidad y lucrarse con el esfuerzo de otros (cosa que vulnera licencias, todo sea dicho).

Este tipo de técnicas habitualmente generan mucha controversia, ya que a algunas personas les parece totalmente lícito, mientras que a otras les parece una estrategia abyecta.

Entrando un poco más en este tema encontramos los llamados planetas, que no son más que (en ámbitos web) un sitio web que recopila a través de feeds RSS los artículos de diferentes blogs o webs (normalmente siguiendo una misma temática o criterio).

Es una idea genial. Hay multitud de planetas muy interesantes que personalmente sigo (aunque siempre suelo leerlos desde la página original). Sin embargo, hay varios puntos que considero importantes como no permitir comentarios en el planeta, dirigir al lector a la web original, no incorporar publicidad, citar la fuente de los artículos u otros detalles que estarían restando mérito al autor del escrito.

¿Cómo puedo localizar web scrappers?


Es un tema bastante complicado, pero vamos a intentar simplificarlo. Para «robar» contenido, un scrapper o robot spammer (emails, comentarios, trackbacks, ...) tienen que acceder al feed RSS (usualmente llamado index.xml), así que vamos a aprovechar esa acción para encontrarlos.

Necesitaremos acceso a nuestro fichero de logs, generalmente access.log o access_log. Si tenemos acceso SSH a nuestro servidor, mejor que mejor:

egrep "/index.xml" access_log | cut -d" " -f1,12- | sort | uniq -c | sort -n | tail -25

Con este comando conseguiremos separar los accesos al feed RSS, obteniendo la IP y el User Agent, ordenándolo por número de accesos. Finalmente, obtendremos un listado de los 25 accesos más frecuentes.

Hay que hacer notar que del listado resultante, varios accesos serán de usuarios desde navegadores o agregadores como Bloglines o Google reader. Añadiendo el siguiente pipe al comando anterior podríamos filtrar la mayoría de agregadores, quedando:

egrep "/index.xml" access.log | egrep -v "subscribers|Gecko|Liferea|Google Desktop|Akregator|Vienna|Tumblr|Feedshow|Gregarius|Googlebot|Feedreader" | cut -d" " -f1,12- | sort | uniq -c | sort -n | tail -25

Después de esto, obtendríamos -ahora si- un listado más aproximado de usuarios «sin identificar» y posibles scrappers. Hay que ser muy cuidadoso e ir investigando cada entrada. Una serie de consejos:

  • Verifica las últimas entradas primero: La primera cifra que aparece es el número de accesos, o lo que es lo mismo, el usuario que más frecuente accede a tu feed RSS. Interesa descubrir quienes son estos individuos.
  • No bloquees agentes como Googlebot o MSNbot: Los buscadores también acceden a tu feed RSS. Asegurate de excluirlos de tu lista.
  • Comprueba las IPs o hosts sospechosos: En Whois DomainTools puedes comprobar las ips para saber si son spammers conocidos.
  • Investiga el User-Agent: Busca por google, en nuestro diccionario de robots, crawlers y spiders o en sus comentarios.
  • Ojo con los User-Agents «Java/x.x.x»: En la mayoría de los casos, son bots maliciosos.

Si no estás seguro de que el usuario que miras sea un robot, siempre podrías investigar más en tus logs a ver en que otras páginas ha estado, a parte del feed RSS:

grep "IP" access_log | cut -d" " -f7

Finalmente, echa un ojo al artículo bloquear con .htaccess para saber como bloquear a los posibles scrappers que hayas encontrado.

Escrito por Manz, el , en webmasters. Comentarios recibidos: 12.

12 comentarios de lectores
Public Enemy
Public Enemy
1

Como bien dices es un tema delicado y en una web con muchos lectores via feeds puede ser un verdadero galimatías realizar ese análisis y que por mucho cuidado que se lleve se bloquee a quien no se deba. La solución mas sencilla y efectiva que se me ocurre para evitar los webscrappers quizá sea distribuir el feed como resumen del contenido en vez de completo, a costa de fastidiar a los lectores obligandoles a visitar la web.. Es un dilema.

Manz
Manz
2

Discrepo en algunas cosas. Los agregadores siempre mostrarán un user agent personal (como Gregarius o Akregator...) o si el usuario tiene alguna solución de antivirus/firewall incluso puede que muestre un User-Agent - o vacío. La idea de controlar los scrappers se debe a encontrar user-agents desconocidos: Java/1.x.x suelen ser robots spammers/scrappers casi siempre, un Wordpress que accede demasiado, algun scrapper (podríamos hablar con los autores a los que queremos permitir acceso, para que cambien el User-agent de su planeta o agregador...). Evidentemente, como dices, hay que tener mucho cuidado y no bloquear por bloquear.

shenny
shenny
3

EXCELENTE! gracias manz por la info!

ruben
ruben
4

hola linda sos linda????

alida
alida
5

Muy buena información gracias

Nacho 001
Nacho 001
6

Muy bueno, acabo de imprimir el articulo para no cometer algún error. Saludos y gracias.

  • 1
WaLhEZ
WaLhEZ
7

ya me he encontrado con este tipo de webs, mas concretamente con mi blog, hay muchos blogs que le hacen trackbacks a otros blogs con el fin de obtener mayores visitas. Gracias por las ayudas para solucionar este problemilla

Recetas Faciles
Recetas Faciles
8

Es alucinante cómo he encontrado este artículo reproducido en otra web, me resulta increible que una web que roba contenido publique un artículo criticando a las webs que roman contenido, te dejo el enlace. http:// www. webtaller .com/ maletin/articulos/ web-scrappers-evitar-robo-contenido.php?bol0907-4 He puesto unos cuantos espacios para que no se indexe como un enlace (sólo faltaría que le regalasemos un enlace.).

Inerxia
Inerxia
9

Excelente informacion. Les dejo un ejemplo de como estos sujetos de blogsPeru se escrapean todo mi blog: http://www.blogsperu.com/blog/6902 Gracias

Albert
Albert
10

Hola: Soy diseñador web junior en paro. Recientemente acudi a una entrevista de trabajo, en la que en el proyecto a realizar hay que realizar scraaping. Tengo que presentarles mi plannig por fases de como lo haría y si me interesa, presentarlo. Mi duda esta, en el tema de la legalidad de todo esto, porque sino, desestimaré mi candidatura. ¿Es legal o ilegal?. El proyecto esta basado en el mundo de la inmobiliaria. Saludos

Manz
Manz
11

@Albert: Personalmente deduzco que todo depende del fin. Un cuchillo es legal si se usa para untar mantequilla, pero no si se usa para matar. En este artículo la ilegalidad entra en escena cuando se usa el scrapping para robar contenido y utilizarlo sin cumplir las licencias.

Ariela
Ariela
12

Que bueno que tenemos métodos fiables para protegernos de tanto vivo que anda por ahí. Yo tuve problemas con algunas páginas que robaban mi contenido y lo publicaban tal cual en las suyas, pero gracias a que busqué opciones y conocía blogs como este que ofrecen consejos útiles para el manejo de las páginas web puede bloquearles los textos. Gracias a ti personas como yo (que a penas conocemos del manejo de estos sistemas) podemos aprender cada día un truco nuevo para poner en practica.

Publica tu opinión

Si lo deseas, puedes utilizar el siguiente formulario para publicar tu opinión o responder a alguna de las existentes:

Previsualización

Aquí se previsualizará su comentario. Revise que sea correcto antes de publicarlo.