Tópicos Sociedad Lenguaje Ciencia e investigaciones

Ley de Zipf: un curioso fenómeno social y matemático


Usamos miles de palabras cada día, con significados de todo tipo y pertenecientes a categorías gramaticales muy variadas. Sin embargo, no todas ellas se usan con la misma frecuencia. En función de cómo de importantes son para la estructura de la oración, hay palabras que son más recurrentes que otras.

La ley de Zipf es un postulado que tiene en cuenta este fenómeno y especifica cómo de probable es que una palabra sea utilizada en base a su posición en el ránking del total de palabras utilizadas en un idioma. A continuación entraremos con más detalle sobre esta ley.

La ley de Zipf

George Kingsley Zipf (1902–1950) fue un lingüísta americano, nacido en Freeport, Illinois, quien encontró un curioso fenómeno en sus estudios de filología comparada. En su trabajo, en el cual estaba llevando a cabo análisis estadísticos, encontró que las palabras más utilizadas parecían tener un patrón de aparición, siendo éste el nacimiento de la ley que recibe su apellido.

De acuerdo con la ley de Zipf, en la inmensa mayoría de las veces, por no decir siempre, las palabras que se utilicen en un texto escrito o en una conversación oral seguirán el siguiente patrón: la palabra más utilizada, que ocuparía el primer puesto en el ranking, sería el doble de veces más utilizada que la segunda más utilizada, el triple de veces que la tercera, el cuádruple de veces que la cuarta, y así sucesivamente.

En términos matemáticos, esta ley sería:

Pn ≈ 1⁄na

Donde ‘Pn’ es la frecuencia de una palabra en el orden ‘n’ y el exponente ‘a’ es aproximadamente 1.

Cabe decir que George Zipf no fue el único que observó esta regularidad en la frecuencia de las palabras más utilizadas de muchas lenguas, tanto naturales como artificiales. De hecho, se tiene constancia de que fueron otros, como el esteganógrafo Jean-Baptiste Estoup y el físico Felix Auerbach.

Zipf estudió este fenómeno con textos en inglés y, por lo visto, se cumple. Si cogemos la versión original de El origen de las especies de Charles Darwin (1859) vemos que la palabra más utilizada en el primer capítulo es "the", con una aparición de cerca de 1.050, mientras que la segunda es "and", apareciendo cerca de 400 veces, y la tercera es "to," apareciendo unas 300. Aunque no de forma exacta, se puede ver que la segunda palabra aparece la mitad de veces que la primera y la tercera un tercio.

En español sucede lo mismo. Si tomamos como ejemplo este mismo artículo, podemos ver que la palabra "de" es utilizada 85 veces, siendo la más utilizada, mientras que la palabra "la", que es la segunda más utilizada, se puede contar hasta 57 veces.

Viendo que este fenómeno ocurre en otras lenguas, se hace interesante pensar en cómo el cerebro humano procesa el lenguaje. Si bien son muchos los fenómenos culturales que medían en el uso y significado de muchas palabras, siendo el idioma en cuestión un factor cultural de por sí, la forma en cómo hacemos uso de las palabras más utilizadas parece ser un factor independiente de la cultura.

Frecuencia de las palabras función

Veamos las siguientes diez palabras: ‘que’, ‘de’, ‘no’, ‘a’, ‘la’, ‘el’, ‘es’, ‘y’, ‘en’ y ‘lo’. ¿Qué tienen en común todas ellas? Que son palabras sin significado por sí solas pero, irónicamente, son las 10 palabras más utilizadas en el idioma español.

Al decir que carecen de significado queremos indicar que, si se dice una frase en la que no hay ningún sustantivo, adjetivo, verbo ni adverbio, la frase carece de sentido. Por ejemplo:

… y … … en … … una … de … … al … de … …

En cambio, si sustituimos los puntitos por palabras con significado, podemos tener una frase como la siguiente.

Miguel y Ana tienen en su casa una mesita de color marrón al lado de su cama.

Estas palabras tan utilizadas son lo que se conocen palabras función, y se encargan de darle estructura gramatical a la frase. No son solamente las 10 que hemos visto, de hecho hay decenas de ellas, y todas ellas están entre las cien palabras más utilizadas en español.

Pese a que carecen de significado por sí solas, son imposibles de omitir en toda frase a la que se le quiera dar sentido. Es necesario que los seres humanos, para poder transmitir un mensaje de forma eficiente, recurramos a palabras que constituyan la estructura de la oración. Por este motivo son, curiosamente, las más utilizadas.

Investigación

Pese a lo observado por George Zipf en sus estudios de filosofía comparada, hasta hace relativamente poco no se había podido abordar empíricamente los postulados de la ley. No porque fuera materialmente imposible analizar todas las conversaciones o textos del inglés, o de cualquier otro idioma, sino por la tarea titánica y el gran esfuerzo que implicaba.

Afortunadamente, y gracias a la existencia de la computación moderna y los programas informáticos, ha sido posible investigar si esta ley se daba en la forma en que Zipf la propuso en un principio o si existían variaciones.

Un caso es la investigación llevada a cabo por el Centro de Investigación Matemática (CRM, en catalán Centre de Recerca Matemàtica) vinculado a la Universitat Autònoma de Barcelona. Los investigadores Álvaro Corral, Isabel Moreno García y Francesc Font Clos llevaron a cabo un análisis a gran escala en el que analizaron miles de textos digitalizados en inglés para ver cómo de cierta era la ley de Zipf.

Su trabajo, en el que se analizó un extenso corpus de cerca de 30.000 volúmenes, permitió obtener una ley equivalente a la de Zipf, en la que se vio que la palabra más utilizada era el doble de utilizada que la segunda, y así sucesivamente.

La ley Zipf en otros contextos

Aunque originalmente la ley de Zipf se utilizó para explicar la frecuencia de las palabras utilizadas en cada idioma, comparando su rango de aparición con su frecuencia real en textos y conversaciones, también se ha extrapolado a otras situaciones.

Un caso bastante llamativo es la cantidad de personas viviendo en capitales de los Estados Unidos. De acuerdo con la ley de Zipf, la capital americana más poblada tenía el doble que la segunda más poblada, y el triple que la tercera más poblada.

Si se mira el censo de población del 2010, esto concuerda. Nueva York tenía una población total de 8.175.133 personas, siendo la siguiente capital más poblada Los Ángeles, con 3,792,621 y las siguientes capitales en el ránking, Chicago, Houston y Filadelfia con 2,695,598, 2,100,263 y 1,526,006, respectivamente

También se puede ver esto en el caso de las ciudades más pobladas de España, aunque la ley de Zipf no se cumple del todo pero sí que se corresponde, en mayor o menor medida, con el rango que ocupa cada ciudad en el ránking. Madrid, con una población de 3.266.126 tiene el doble que Barcelona, con 1.636.762, mientras que Valencia tiene cerca de un tercio con 800.000 habitantes.

Otro caso observable de la ley de Zipf es con las páginas web. El ciberespacio es muy extenso, habiendo cerca de 15.000 millones de páginas web creadas. Teniendo en cuenta que en el mundo somos cerca de 6.800 millones de persona, en teoría por cada una de ellas habría dos páginas web que visitar cada día, cosa que no se da.

Las diez páginas más visitadas en la actualidad son: Google (60,49 millones de visitas mensuales), Youtube (24,31 millones), Facebook (19,98 millones), Baidu (9,77 millones), Wikipedia (4,69 millones), Twitter (3,92 millones), Yahoo (3,74 millones), Pornhub (3,36 millones), Instagram (3,21 millones) y Xvideos (3,19 millones). Viendo estos números, se puede ver que Google es el doble de visitado que Youtube, el triple que Facebook, más del cuádruple que Baidu...

Referencias bibliográficas:

  • Font-Clos, F., Boleda, G. y Corral, Á.(2013) A scaling law beyond Zipf''s law and its relation to Heaps'' law. New Journal of Physics, 15. doi.org/10.1088/1367-2630/15/9/093033.
  • Montemurro, M. A. (2001). Beyond the Zipf–Mandelbrot law in quantitative linguistics. Physica A: Statistical Mechanics and its Applications 300: 567 - 578.