Adrianistán

El blog de Adrián Arroyo


Ley de Zipf en el blog

- Adrián Arroyo Calle

Estaba yo leyendo uno de mis blogs favoritos, Los días y las frases, que pese a lo que se pueda pensar de mí, no trata, ni remotamente de tecnología, programación, etc sino de aforismos e historia. Muy entretenido, siempre leo sus artículos nada más salir. Hace unos meses ya, el autor publicó una entrada sobre la ley de Zipf. Como él lo explica mejor que nadie, voy a copiar literalmente el texto:

George Kingsley Zipf fue un lingüista norteamericano de mediados del siglo XX que se dedicó a aplicar el análisis estadístico a las lenguas.
 
Uno de los estudios que le reportó fama fue el descubrimiento de la ley que lleva su nombre, la "Ley de Zipf", según la cual la frecuencia con la que son utilizadas las palabras siguen una distribución estadística concreta. No entraremos en detalles técnicos de su formulación, pero básicamente nos dice que la palabra más usada en un idioma (the, en inglés) aparece el doble de veces que la segunda más usada (of), y el triple que la tercera, etc. 
 
Pero esta ley de la frecuencia de las apariciones no ocurre solo con las palabras, su ámbito es mucho mayor. Por ejemplo, en el de las poblaciones de las ciudades de un país: la ciudad más grande suele tener el doble de habitantes que la segunda población de ese país. Y en general es aplicable a la ordenación de  grandes conjuntos de datos... E internetque no deja de ser una base de datos enorme,no podría ser menos, también se puede describir el número de visitas a las páginas individuales de Internet en un intervalo de tiempo dado... (Artículo https://diasyfrases.blogspot.com/2019/09/cumple-este-blog-con-la-ley-de-zipf.html)

A continuación, prueba con los artículos del blog, según número de visitas, a ver si la popularidad sigue esta curiosa ley, a priori, relacionada con la lingüística. ¡Al parecer Los días y las frases sigue una distribución similar a la ley de Zipf! ¿Y mi blog, Adrianistán? ¿Seguirá también la ley de Zipf?

Experimento

Voy a tomar los datos del mes de octubre, ya que es el más próximo que ya ha acabado y considero que es un mes representativo, bastante normalillo. Además, las entradas que publiqué en octubre no parecen haber tenido demasiado impacto en general. También he decidido quitar la página de inicio, ya que no es un artículo como tal.

El artículo más visto del mes es Estadística en Python Parte 3 con 1327 visitas. A partir de aquí podemos calcular las visitas estimadas según la ley, dividiendo progresivamente.

Artículos Visitas Reales Visitas Zipf
/estadistica-python-media-mediana-varianza-percentiles-parte-iii 1327 1327
/estadistica-python-distribucion-binomial-normal-poisson-parte-vi 445 663.5
/estadistica-python-pandas-numpy-scipy-parte-i 434 442.333333333333
/rust-101-tutorial-rust-espanol 328 331.75
/introduccion-a-prolog-tutorial-en-espanol 233 265.4
/tutorial-de-cmake 199 221.166666666667
/estadistica-python-analisis-datos-multidimensionales-regresion-lineal-parte-iv 162 189.571428571429
/cosas-no-sabias-python 151 165.875
/estadistica-python-ajustar-datos-una-distribucion-parte-vii 134 147.444444444444

(veo que os gusta mucho la estadística con Python)

Vemos que hay números muy próximos a la estimación, pero mejor hagamos un gráfico.

Vemos que la curva real se ajusta relativamente bien a la curva estimada por la ley de Zipf. El punto donde más se aleja (tanto absoluto como relativamente) es el segundo artículo.

Podríamos decir, que sí, en Adrianistán también se aplica la ley de Zipf. ¿Será, quizá, que esta ley se aplica en todos los sistemas de información? ¿Es parte intrínseca de la realidad? Os dejo reflexionar

Comentarios

Sergio Alonso Pascual
Buen gráfico, la verdad es que me ha gustado mucho, ademas la paleta de colores del gráfico es increíble.
Swicher
Hablando de estadísticas, pienso que seria interesante el poder ver la fecha de publicación y la cantidad de vistas y comentarios en los artículos que aparecen en la portada y categorías (además de incluir los dos últimos dentro de cada articulo). De ese modo a futuro otros podrían hacer sus propios cálculos y estimaciones sobre el blog con un poco de scraping, y también considero que ese tipo de datos nunca están de mas.
Adrián Arroyo
Muy buenas Swicher. Efectivamente esos datos podrían ser muy interesantes, me lo anoto para programarlo cuando pueda.

Añadir comentario

Todos los comentarios están sujetos a moderación