Curiosità
Legge di Zipf: la regola nascosta dietro le parole che usiamo
La parola più frequente di un testo compare il doppio della seconda, il triplo della terza: e non solo nelle lingue.

Prendete un libro qualsiasi e contate quante volte compare ogni parola. Scoprirete una regolarità sorprendente: la parola più frequente appare circa il doppio delle volte della seconda, il triplo della terza, il quadruplo della quarta, e così via. Questa relazione matematica nascosta nel linguaggio si chiama legge di Zipf, e affascina linguisti, fisici ed economisti da quasi un secolo perché si ripresenta, quasi identica, in fenomeni che sembrano non avere nulla in comune con le parole.
La regola del rango
La legge di Zipf afferma che, in un testo abbastanza lungo, la frequenza di una parola è inversamente proporzionale al suo rango, cioè alla posizione che occupa nella classifica delle parole più usate. In inglese la parola più comune è the, che da sola copre circa il 7% di tutte le occorrenze; la seconda, of, ne copre circa la metà; la terza, and, circa un terzo. In italiano accade lo stesso con articoli, preposizioni e congiunzioni come di, e, il, che. In pratica, pochissime parole vengono usate moltissimo, mentre un'enorme quantità di parole compare solo una o due volte: è il classico fenomeno della "coda lunga".
Se si riportano questi dati su un grafico in scala logaritmica, mettendo il rango sull'asse orizzontale e la frequenza su quello verticale, i punti si dispongono quasi perfettamente lungo una linea retta in discesa. È la firma inconfondibile di quella che i matematici chiamano legge di potenza.

Chi era George Kingsley Zipf
La legge prende il nome dal linguista statunitense George Kingsley Zipf, che insegnò ad Harvard e che la rese celebre nel libro del 1949 Human Behavior and the Principle of Least Effort. Zipf non si limitò a descrivere il fenomeno: provò a spiegarlo con quello che chiamò "principio del minimo sforzo". Secondo la sua idea, la lingua è il frutto di un compromesso costante tra chi parla, che vorrebbe usare poche parole molto generiche per fare meno fatica, e chi ascolta, che vorrebbe invece parole specifiche e non ambigue per capire senza sforzo. L'equilibrio tra queste due pressioni opposte produrrebbe proprio la distribuzione che porta il suo nome. In realtà osservazioni simili erano già state fatte in precedenza, tra gli altri dallo stenografo francese Jean-Baptiste Estoup, ma fu Zipf a trasformarle in una legge generale.
Non solo parole
La cosa più stupefacente è che la legge di Zipf non riguarda soltanto il linguaggio. La stessa distribuzione si ritrova nella popolazione delle città di un Paese (poche metropoli enormi e moltissimi piccoli centri), nella dimensione delle aziende, nel numero di visite ricevute dai siti web, nel numero di citazioni degli articoli scientifici e perfino nell'intensità dei terremoti. È strettamente imparentata con il principio di Pareto, la celebre regola dell'"80/20" secondo cui una piccola minoranza delle cause produce la maggior parte degli effetti. Tutti questi casi appartengono alla grande famiglia delle leggi di potenza, che descrivono sistemi in cui le grandezze si distribuiscono in modo estremamente diseguale.

Perché succede davvero?
Qui comincia il dibattito. La spiegazione "elegante" del minimo sforzo è suggestiva, ma non è l'unica. Già negli anni Cinquanta il matematico Benoît Mandelbrot e lo psicologo George Miller mostrarono un fatto spiazzante: anche un testo generato a caso, premendo tasti a caso su una tastiera (compreso lo spazio), produce una distribuzione molto simile a quella di Zipf. Questo suggerisce che, almeno in parte, la legge potrebbe essere una conseguenza statistica del modo in cui dividiamo un flusso di simboli in "parole", più che una proprietà profonda del pensiero umano.
Una revisione critica della questione, firmata dallo scienziato cognitivo Steven Piantadosi e pubblicata nel 2014 su Psychonomic Bulletin & Review, ha sottolineato che la legge di Zipf nelle lingue naturali è in realtà più sottile di quanto sembri, con deviazioni sistematiche soprattutto per le parole rarissime e per quelle frequentissime. La verità, oggi, è che convivono più meccanismi: pressioni comunicative, processi di crescita "i ricchi diventano più ricchi" e semplici effetti statistici concorrono a generare la stessa forma.
A cosa serve conoscerla
Al di là della curiosità, la legge di Zipf ha applicazioni concrete. È un ingrediente fondamentale dell'elaborazione del linguaggio naturale e dei motori di ricerca, perché permette di prevedere quali termini saranno comuni e quali rari, ottimizzando indici e algoritmi di compressione. Viene usata nell'analisi stilometrica per attribuire testi a un autore o per smascherare falsi, e nelle scienze sociali per studiare disuguaglianze e concentrazioni di mercato. Persino i modelli linguistici alla base delle moderne intelligenze artificiali devono fare i conti con la "coda lunga" delle parole rare descritta da Zipf. Una semplice classifica di frequenza, insomma, nasconde una delle regolarità più universali e meno comprese del comportamento umano.
Una buona curiosità ogni mattina
Iscriviti gratuitamente: niente spam, solo articoli scelti.
Iscrivendoti accetti la privacy policy. Puoi disiscriverti in ogni momento.



