Curiosando si impararivista di curiosità

Curiosità

Legge di Zipf: la regola nascosta dietro le parole che usiamo

La parola più frequente di un testo compare il doppio della seconda, il triplo della terza: e non solo nelle lingue.

di Andrea Bertolotti··4 min di lettura
Pile di libri impilati, simbolo della frequenza delle parole nel linguaggio
Pile di libri impilati, simbolo della frequenza delle parole nel linguaggio

Prendete un libro qualsiasi e contate quante volte compare ogni parola. Scoprirete una regolarità sorprendente: la parola più frequente appare circa il doppio delle volte della seconda, il triplo della terza, il quadruplo della quarta, e così via. Questa relazione matematica nascosta nel linguaggio si chiama legge di Zipf, e affascina linguisti, fisici ed economisti da quasi un secolo perché si ripresenta, quasi identica, in fenomeni che sembrano non avere nulla in comune con le parole.

La regola del rango

La legge di Zipf afferma che, in un testo abbastanza lungo, la frequenza di una parola è inversamente proporzionale al suo rango, cioè alla posizione che occupa nella classifica delle parole più usate. In inglese la parola più comune è the, che da sola copre circa il 7% di tutte le occorrenze; la seconda, of, ne copre circa la metà; la terza, and, circa un terzo. In italiano accade lo stesso con articoli, preposizioni e congiunzioni come di, e, il, che. In pratica, pochissime parole vengono usate moltissimo, mentre un'enorme quantità di parole compare solo una o due volte: è il classico fenomeno della "coda lunga".

Se si riportano questi dati su un grafico in scala logaritmica, mettendo il rango sull'asse orizzontale e la frequenza su quello verticale, i punti si dispongono quasi perfettamente lungo una linea retta in discesa. È la firma inconfondibile di quella che i matematici chiamano legge di potenza.

Grafico bilogaritmico della legge di Zipf applicata a Wikipedia in più lingue
La frequenza delle parole in Wikipedia segue la legge di Zipf: in scala bilogaritmica i punti formano una retta. Credit: Wikimedia Commons (CC BY-SA).

Chi era George Kingsley Zipf

La legge prende il nome dal linguista statunitense George Kingsley Zipf, che insegnò ad Harvard e che la rese celebre nel libro del 1949 Human Behavior and the Principle of Least Effort. Zipf non si limitò a descrivere il fenomeno: provò a spiegarlo con quello che chiamò "principio del minimo sforzo". Secondo la sua idea, la lingua è il frutto di un compromesso costante tra chi parla, che vorrebbe usare poche parole molto generiche per fare meno fatica, e chi ascolta, che vorrebbe invece parole specifiche e non ambigue per capire senza sforzo. L'equilibrio tra queste due pressioni opposte produrrebbe proprio la distribuzione che porta il suo nome. In realtà osservazioni simili erano già state fatte in precedenza, tra gli altri dallo stenografo francese Jean-Baptiste Estoup, ma fu Zipf a trasformarle in una legge generale.

Non solo parole

La cosa più stupefacente è che la legge di Zipf non riguarda soltanto il linguaggio. La stessa distribuzione si ritrova nella popolazione delle città di un Paese (poche metropoli enormi e moltissimi piccoli centri), nella dimensione delle aziende, nel numero di visite ricevute dai siti web, nel numero di citazioni degli articoli scientifici e perfino nell'intensità dei terremoti. È strettamente imparentata con il principio di Pareto, la celebre regola dell'"80/20" secondo cui una piccola minoranza delle cause produce la maggior parte degli effetti. Tutti questi casi appartengono alla grande famiglia delle leggi di potenza, che descrivono sistemi in cui le grandezze si distribuiscono in modo estremamente diseguale.

Scaffali di una biblioteca pieni di libri
Pochissime parole compaiono moltissimo, moltissime parole compaiono pochissimo: è la 'coda lunga' del linguaggio. Credit: Erik Mclean / Pexels.

Perché succede davvero?

Qui comincia il dibattito. La spiegazione "elegante" del minimo sforzo è suggestiva, ma non è l'unica. Già negli anni Cinquanta il matematico Benoît Mandelbrot e lo psicologo George Miller mostrarono un fatto spiazzante: anche un testo generato a caso, premendo tasti a caso su una tastiera (compreso lo spazio), produce una distribuzione molto simile a quella di Zipf. Questo suggerisce che, almeno in parte, la legge potrebbe essere una conseguenza statistica del modo in cui dividiamo un flusso di simboli in "parole", più che una proprietà profonda del pensiero umano.

Una revisione critica della questione, firmata dallo scienziato cognitivo Steven Piantadosi e pubblicata nel 2014 su Psychonomic Bulletin & Review, ha sottolineato che la legge di Zipf nelle lingue naturali è in realtà più sottile di quanto sembri, con deviazioni sistematiche soprattutto per le parole rarissime e per quelle frequentissime. La verità, oggi, è che convivono più meccanismi: pressioni comunicative, processi di crescita "i ricchi diventano più ricchi" e semplici effetti statistici concorrono a generare la stessa forma.

A cosa serve conoscerla

Al di là della curiosità, la legge di Zipf ha applicazioni concrete. È un ingrediente fondamentale dell'elaborazione del linguaggio naturale e dei motori di ricerca, perché permette di prevedere quali termini saranno comuni e quali rari, ottimizzando indici e algoritmi di compressione. Viene usata nell'analisi stilometrica per attribuire testi a un autore o per smascherare falsi, e nelle scienze sociali per studiare disuguaglianze e concentrazioni di mercato. Persino i modelli linguistici alla base delle moderne intelligenze artificiali devono fare i conti con la "coda lunga" delle parole rare descritta da Zipf. Una semplice classifica di frequenza, insomma, nasconde una delle regolarità più universali e meno comprese del comportamento umano.

Una buona curiosità ogni mattina

Iscriviti gratuitamente: niente spam, solo articoli scelti.

Iscrivendoti accetti la privacy policy. Puoi disiscriverti in ogni momento.


Da scoprire

Continua a leggere

Altre storie che ti potrebbero piacere, scelte per te