¡Foto!

¡Envia tu foto al Fotomaton!

Web Scrappers (Evitar robo de contenido)

9 comentarios · Escrito el 20-Sep-2007 · 1.741 lecturas · blogs

Los Web Scrappers o ladrones de contenido son un tipo de robot o crawler que indexa contenido recopilando información y artículos de otras webs para -generalmente- duplicarlo, añadiendo bloques de publicidad y lucrarse con el esfuerzo de otros (cosa que vulnera licencias, todo sea dicho).

web scrapper scrappers

Este tipo de técnicas habitualmente generan mucha controversia, ya que a algunas personas les parece totalmente lícito, mientras que a otras les parece una estrategia abyecta.

Entrando un poco más en este tema encontramos los llamados planetas, que no son más que (en ámbitos web) un sitio web que recopila a través de feeds RSS los artículos de diferentes blogs o webs (normalmente siguiendo una misma temática o criterio).

Es una idea genial. Hay multitud de planetas muy interesantes que personalmente sigo (aunque siempre suelo leerlos desde la página original). Sin embargo, hay varios puntos que considero importantes como no permitir comentarios en el planeta, dirigir al lector a la web original, no incorporar publicidad, citar la fuente de los artículos u otros detalles que estarían restando mérito al autor del escrito.

¿Cómo puedo localizar web scrappers?


Es un tema bastante complicado, pero vamos a intentar simplificarlo. Para «robar» contenido, un scrapper o robot spammer (emails, comentarios, trackbacks, ...) tienen que acceder al feed RSS (usualmente llamado index.xml), así que vamos a aprovechar esa acción para encontrarlos. Necesitaremos acceso a nuestro fichero de logs, generalmente access.log o access_log. Si tenemos acceso SSH a nuestro servidor, mejor que mejor:

egrep "/index.xml" access_log | cut -d" " -f1,12- | sort | uniq -c | sort -n | tail -25

Con este comando conseguiremos separar los accesos al feed RSS, obteniendo la IP y el User Agent, ordenándolo por número de accesos. Finalmente, obtendremos un listado de los 25 accesos más frecuentes.

Hay que hacer notar que del listado resultante, varios accesos serán de usuarios desde navegadores o agregadores como Bloglines o Google reader. Añadiendo el siguiente pipe al comando anterior podríamos filtrar la mayoría de agregadores, quedando:

egrep "/index.xml" access.log | egrep -v "subscribers|Gecko|Liferea|Google Desktop|Akregator|Vienna|Tumblr|Feedshow|Gregarius|Googlebot|Feedreader" | cut -d" " -f1,12- | sort | uniq -c | sort -n | tail -25

Después de esto, obtendríamos -ahora si- un listado más aproximado de usuarios «sin identificar» y posibles scrappers. Hay que ser muy cuidadoso e ir investigando cada entrada. Una serie de consejos:

  • Verifica las últimas entradas primero: La primera cifra que aparece es el número de accesos, o lo que es lo mismo, el usuario que más frecuente accede a tu feed RSS. Interesa descubrir quienes son estos individuos.
  • No bloquees agentes como Googlebot o MSNbot: Los buscadores también acceden a tu feed RSS. Asegurate de excluirlos de tu lista.
  • Comprueba las IPs o hosts sospechosos: En Whois DomainTools puedes comprobar las ips para saber si son spammers conocidos.
  • Investiga el User-Agent: Busca por google, en nuestro diccionario de robots, crawlers y spiders o en sus comentarios.
  • Ojo con los User-Agents «Java/x.x.x»: En la mayoría de los casos, son bots maliciosos.

Si no estás seguro de que el usuario que miras sea un robot, siempre podrías investigar más en tus logs a ver en que otras páginas ha estado, a parte del feed RSS:

grep "IP" access_log | cut -d" " -f7

Finalmente, echa un ojo al artículo bloquear con .htaccess para saber como bloquear a los posibles scrappers que hayas encontrado.

Tags:


9 Comentarios


Como bien dices es un tema delicado y en una web con muchos lectores via feeds puede ser un verdadero galimatías realizar ese análisis y que por mucho cuidado que se lleve se bloquee a quien no se deba. La solución mas sencilla y efectiva que se me ocurre para evitar los webscrappers quizá sea distribuir el feed como resumen del contenido en vez de completo, a costa de fastidiar a los lectores obligandoles a visitar la web.. Es un dilema.

Por Public Enemy hace 10 meses Mozilla Firefox / Windows XP

Discrepo en algunas cosas.

Los agregadores siempre mostrarán un user agent personal (como Gregarius o Akregator...) o si el usuario tiene alguna solución de antivirus/firewall incluso puede que muestre un User-Agent - o vacío.

La idea de controlar los scrappers se debe a encontrar user-agents desconocidos: Java/1.x.x suelen ser robots spammers/scrappers casi siempre, un Wordpress que accede demasiado, algun scrapper (podríamos hablar con los autores a los que queremos permitir acceso, para que cambien el User-agent de su planeta o agregador...).

Evidentemente, como dices, hay que tener mucho cuidado y no bloquear por bloquear.

Por Manz hace 10 meses Mozilla Firefox / Windows XP

EXCELENTE! gracias manz por la info!

Por shenny hace 10 meses Internet Explorer / Windows XP

Hola linda sos linda????

Por ruben hace 10 meses Internet Explorer / Windows XP

Muy buena información gracias

Por alida hace 10 meses Mozilla Firefox / Windows XP

Muy bueno, acabo de imprimir el articulo para no cometer algún error.

Saludos y gracias.

Por Nacho 001 hace 10 meses Mozilla Firefox / Windows XP

Ya me he encontrado con este tipo de webs, mas concretamente con mi blog, hay muchos blogs que le hacen trackbacks a otros blogs con el fin de obtener mayores visitas.
Gracias por las ayudas para solucionar este problemilla

Por WaLhEZ hace 10 meses Mozilla Firefox / Windows XP

Es alucinante cómo he encontrado este artículo reproducido en otra web, me resulta increible que una web que roba contenido publique un artículo criticando a las webs que roman contenido, te dejo el enlace.

http:// www. webtaller .com/ maletin/articulos/ web-scrappers-evitar-robo-contenido.php?bol0907-4

He puesto unos cuantos espacios para que no se indexe como un enlace (sólo faltaría que le regalasemos un enlace.).

Por Recetas Faciles hace 10 meses Mozilla Firefox / Windows XP

Excelente informacion.

Les dejo un ejemplo de como estos sujetos de blogsPeru se escrapean todo mi blog:

http://www.blogsperu.com/blog/6902

Gracias

Por Inerxia hace 3 meses Mozilla Firefox / Windows XP

Deja tu comentario


Si no tienes fotografía o dibujo asociado a tu email, puedes elegir uno haciendo clic sobre la imagen o en este enlace.

Gravatar



Consejos


  • Los comentarios fuera del tema del artículo (OFF-Topic) serán eliminados. Se permiten temas ligeramente relacionados.
  • Escribir completamente en MAYUSCULAS en Internet equivale a GRITAR y está mal visto. Evitalo.
  • No utilices lenguaje SMS, en Emezeta no cobramos por letras escritas. Escribe correctamente.
  • No hagas publicidad dejando enlaces. En Emezeta se aplica el tag nofollow, que hace que Google ignore esos enlaces.
  • No insultes. Tus datos quedan almacenados y serás el único responsable de tus palabras. Se permite la libertad de expresión, pero no los comentarios groseros.
  • Cuando hagas una crítica, argumenta detalladamente tu opinión. Explicanos porque no estás de acuerdo, quizás los demás estemos equivocados.
  • Puedes insertar algunas etiquetas HTML en los comentarios: em, a href, b, i, em, code, acronym y strong.
  • Es posible añadir una foto junto a tus comentarios, para ello sólo tienes que personalizarla en Gravatar. [?]

Envía tu foto


Fotomatón Emezeta

Envia tu fotografía al fotomatón de Emezeta. Puedes enviar varias y saldrás en la portada de Emezeta.