¿Cuántos suscriptores tiene nuestro blog?
Con la cantidad de agregadores, servicios de redes sociales y demás utilidades, uno nunca sabe con certeza cuantos suscriptores tiene su blog.
Con servicios como FeedBurner podemos mantener un control más amplio si nos registramos y lo configuramos correctamente, pero... ¿Existe otra forma de averiguar los suscriptores a nuestro blog?
La respuesta es sí. Si tenemos acceso a nuestro access.log (log de accesos al servidor web) nos será muy fácil. Solo tenemos que abrir una consola vía SSH y escribir:
grep -i "subscr" access.log | cut -d" " -f7,12- | sort | uniq
Con esta secuencia de comandos habremos:
- Con el grep filtramos los accesos de los robots de agregadores y otros servicios.
- Con el flag -i desactivamos la sensibilidad a mayúsculas y minúsculas.
- El fichero access.log es el log de accesos. También suele llamarse access_log o similar.
- Con el cut recortamos cada entrada para obtener el nombre del feed al que se accede (7) y el número de suscriptores (12-). Si sólo tenemos un feed1 en nuestra web, podemos escribir cut -d" " -f12-.
- Con el sort, ordenamos las entradas filtradas alfabéticamente, y luego eliminamos las repetidas con uniq.
1 En webs con varios feeds puede confundir si no incluímos la ruta.
Finalmente, obtendremos una salida similar a la siguiente (probada con Emezeta blog):
/index.xml "Activeweave/BlogRovR/2007-10-01 21:38:00.0; version 0.4.320; 5 subscribers."
/index.xml "AlestiFeedBot/0.7 (http://www.alesti.org/; 8 subscribers)"
/index.xml "Bloglines/3.1 (http://www.bloglines.com; 266 subscribers)"
/index.xml "Fastladder FeedFetcher/0.01 (http://fastladder.com/; 10 subscribers)"
/index.xml "FeedBlitz/1.0 (187 subscribers)"
/index.xml "Feedfetcher-Google; (+http://www.google.com/feedfetcher.html; 342 subscribers; feed-id=2165378610225046384)"
/index.xml "Feedshow/2.0 (http://www.feedshow.com; 1 subscriber)"
/index.xml "kb.Rmail (http://www.r-mail.org; 1 subscribers)"
/index.xml "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.2.1; Rojo 1.0; http://www.rojo.com/corporate/help/agg/; Aggregating on behalf of 18 subscriber(s) online at http://www.rojo.com/?feed-id=2408960) Gecko/20021130"
/index.xml "Netvibes (http://www.netvibes.com/; 128 subscribers)"
/index.xml "NewsGatorOnline/2.0 (http://www.newsgator.com; 10 subscribers)"
Lo cuál, viene a ser muy sencillo interpretar los datos:
- 5 suscriptores en BlogRovR
- 8 suscriptores en Alesti
- 266 suscriptores en Bloglines
- 10 suscriptores en Fastladder
- 187 suscriptores en FeedBlitz
- 342 suscriptores en Google Reader
- 1 suscriptor en FeedShow
- 1 suscriptor en Rmail
- 18 suscriptores en Rojo
- 128 suscriptores en NetVibes
- 10 suscriptores en NewsGator
En algunos casos se podrían filtrar lineas incorrectas (por ejemplo, accesos a un artículo con la palabra subscriber). Para evitar esto, sólo tenemos que introducir otro filtrado grep -i "subscr" después del cut.
Web Scrappers (Evitar robo de contenido)
Los Web Scrappers o ladrones de contenido son un tipo de robot o crawler que indexa contenido recopilando información y artículos de otras webs para -generalmente- duplicarlo, añadiendo bloques de publicidad y lucrarse con el esfuerzo de otros (cosa que vulnera licencias, todo sea dicho).
Este tipo de técnicas habitualmente generan mucha controversia, ya que a algunas personas les parece totalmente lícito, mientras que a otras les parece una estrategia abyecta.
Entrando un poco más en este tema encontramos los llamados planetas, que no son más que (en ámbitos web) un sitio web que recopila a través de feeds RSS los artículos de diferentes blogs o webs (normalmente siguiendo una misma temática o criterio).
Es una idea genial. Hay multitud de planetas muy interesantes que personalmente sigo (aunque siempre suelo leerlos desde la página original). Sin embargo, hay varios puntos que considero importantes como no permitir comentarios en el planeta, dirigir al lector a la web original, no incorporar publicidad, citar la fuente de los artículos u otros detalles que estarían restando mérito al autor del escrito.
¿Cómo puedo localizar web scrappers?
Es un tema bastante complicado, pero vamos a intentar simplificarlo. Para «robar» contenido, un scrapper o robot spammer (emails, comentarios, trackbacks, ...) tienen que acceder al feed RSS (usualmente llamado index.xml), así que vamos a aprovechar esa acción para encontrarlos. Necesitaremos acceso a nuestro fichero de logs, generalmente access.log o access_log. Si tenemos acceso SSH a nuestro servidor, mejor que mejor:
egrep "/index.xml" access_log | cut -d" " -f1,12- | sort | uniq -c | sort -n | tail -25
Con este comando conseguiremos separar los accesos al feed RSS, obteniendo la IP y el User Agent, ordenándolo por número de accesos. Finalmente, obtendremos un listado de los 25 accesos más frecuentes.
Hay que hacer notar que del listado resultante, varios accesos serán de usuarios desde navegadores o agregadores como Bloglines o Google reader. Añadiendo el siguiente pipe al comando anterior podríamos filtrar la mayoría de agregadores, quedando:
egrep "/index.xml" access.log | egrep -v "subscribers|Gecko|Liferea|Google Desktop|Akregator|Vienna|Tumblr|Feedshow|Gregarius|Googlebot|Feedreader" | cut -d" " -f1,12- | sort | uniq -c | sort -n | tail -25
Después de esto, obtendríamos -ahora si- un listado más aproximado de usuarios «sin identificar» y posibles scrappers. Hay que ser muy cuidadoso e ir investigando cada entrada. Una serie de consejos:
- Verifica las últimas entradas primero: La primera cifra que aparece es el número de accesos, o lo que es lo mismo, el usuario que más frecuente accede a tu feed RSS. Interesa descubrir quienes son estos individuos.
- No bloquees agentes como Googlebot o MSNbot: Los buscadores también acceden a tu feed RSS. Asegurate de excluirlos de tu lista.
- Comprueba las IPs o hosts sospechosos: En Whois DomainTools puedes comprobar las ips para saber si son spammers conocidos.
- Investiga el User-Agent: Busca por google, en nuestro diccionario de robots, crawlers y spiders o en sus comentarios.
- Ojo con los User-Agents «Java/x.x.x»: En la mayoría de los casos, son bots maliciosos.
Si no estás seguro de que el usuario que miras sea un robot, siempre podrías investigar más en tus logs a ver en que otras páginas ha estado, a parte del feed RSS:
grep "IP" access_log | cut -d" " -f7
Finalmente, echa un ojo al artículo bloquear con .htaccess para saber como bloquear a los posibles scrappers que hayas encontrado.
El motivo de las críticas a los bloggers
El número de críticas arremetidas contra un blogger es directamente proporcional a la fama de este. Algo tan cierto que no hace falta ni demostrar. Sólo tenemos que ver claros ejemplos como los de Microsiervos o Javi Moya, el videoblog de Gina o Eduardo Arcos.
Cientos de comentarios de usuarios que realizan críticas destructivas por costumbre a aquellos personajes que -generalmente- se encuentran en las zonas más altas de la red. ¿Cuál es el porqué de estas críticas? ¿Simplemente ocurre por celos o envidia? ¿Por qué tienen realmente razón? ¿Por qué es el "deporte nacional"?
Resulta que como somos personajes publicos tenemos que estar dispuestos a aguantar este tipo de cosas. Sin embargo, sé que esta gente lo hace para ganar un poco de ruido.[...]
Manu Contreras, Hipertextual
Comparémoslo con un futbolista: Roberto Carlos va al Camp Nou y la gente le insulta y le grita. No hay un porqué. Si le dices al que le chilla que guarde la calma, que está delante de un futbolista, que hace su juego y que está trabajando, resulta que él sólo le ataca porque es del Real Madrid. Eso no es razón suficiente.
Alvy, Microsiervos
Extraído de Entrevista Hipertextual y Microsiervos del segundo número de la revista de Magnoliart, MGZ.
¿Tu que opinas? ¿Cuál es el motivo de las críticas a los Bloggers?
Duelo de titanes: ¿Quién gana?
¿Quién gana? Frikismo en estado puro es un blog donde podrás encontrar los duelos más igualados entre los personajes más inimaginables de la historia. Duelos como Chuck Norris vs Terminator, Gandalf vs Yoda, Jack Shephard vs Gregory House, Guybrush Threepwood vs Jack Sparrow, Peter Griffin vs Homer Simpson y muchos más.
En cada combate, encontrarás una fotografía del duelo con los dos personajes y una detenida y trabajada explicación de las ventajas e inconvenientes de cada personaje. Según los comentarios de los lectores, se decide quién vence y quién es derrotado.
Bastante divertido y cuidado en detalles. Merece la pena echarle un vistazo.








