Curiosità

Il paradosso di Simpson: quando i dati aggregati mentono e ribaltano la verità

Una tendenza vera in ogni sottogruppo può invertirsi unendo i gruppi: dal caso Berkeley 1973 alla medicina, ecco perché i totali possono ingannare.

di Andrea Bertolotti·1 luglio 2026 alle ore 04:28·4 min di lettura

Grafici statistici e diagrammi stampati su carta

Può una stessa tendenza essere vera per ogni singolo gruppo di persone e falsa per tutti insieme? La risposta, per quanto controintuitiva, è sì. È quello che gli statistici chiamano paradosso di Simpson: un'inversione di tendenza che compare quando i dati di più sottogruppi vengono aggregati in un unico totale. Un fenomeno che sembra un trucco da prestigiatore, ma che nasconde una lezione seria su come i numeri possono ingannarci.

Il paradosso di Simpson non è una curiosità accademica fine a se stessa: capirlo è cruciale in medicina, nelle politiche pubbliche e in ogni ambito in cui una decisione importante si basa su una statistica riassuntiva. Perché a volte il dato aggregato mente, e ci dice l'esatto contrario di ciò che i dati raccontano davvero.

Il caso Berkeley: una discriminazione che svanisce

L'esempio più celebre arriva dalle ammissioni ai corsi di dottorato dell'Università della California a Berkeley, nell'autunno del 1973. Guardando i numeri complessivi, la situazione sembrava chiara: fu ammesso circa il 44% dei candidati uomini contro appena il 35% delle candidate donne. Su 8.442 uomini e 4.321 donne che avevano fatto domanda, sembrava un caso lampante di discriminazione di genere.

Preoccupata da una possibile causa legale, l'università affidò l'analisi a un gruppo di statistici. Peter Bickel, Eugene Hammel e J. William O'Connell pubblicarono i risultati nel 1975 su Science, in un articolo intitolato Sex Bias in Graduate Admissions: Data from Berkeley. La scoperta fu sorprendente: analizzando i dati dipartimento per dipartimento, la presunta discriminazione svaniva. Anzi, in quattro dipartimenti su sei le donne avevano una probabilità di ammissione maggiore degli uomini.

Studenti che camminano nel campus di un'università — Il caso delle ammissioni a Berkeley nel 1973 è l'esempio didattico più famoso del paradosso di Simpson. — Credit: George Pak / Pexels (Pexels License)

La variabile nascosta che ribalta tutto

Come è possibile? La chiave è una variabile confondente, cioè un fattore nascosto che influenza contemporaneamente le due grandezze che stiamo confrontando. A Berkeley questa variabile era la scelta del dipartimento.

Le donne tendevano a fare domanda in numero maggiore per dipartimenti molto competitivi e selettivi, come le discipline umanistiche, con tassi di ammissione bassi per tutti. Gli uomini, invece, si concentravano su dipartimenti come ingegneria, che ammettevano una quota molto più alta di candidati. In pratica le donne non venivano respinte più spesso: sceglievano semplicemente le porte più strette. Aggregando tutto, questa differenza di scelte produceva l'illusione di una discriminazione che, dipartimento per dipartimento, non esisteva.

Il meccanismo è sempre lo stesso: quando i sottogruppi hanno dimensioni molto diverse e una variabile confondente è distribuita in modo squilibrato, la media complessiva può essere dominata dai gruppi più grandi e ribaltare la tendenza reale.

Dai calcoli renali al significato profondo

Un altro esempio classico, questa volta dalla medicina, riguarda il trattamento dei calcoli renali. Confrontando due terapie, il trattamento B risultava complessivamente più efficace, con un tasso di successo dell'83% contro il 78% del trattamento A. Eppure, separando i pazienti in base alla dimensione del calcolo, il trattamento A si rivelava superiore sia sui calcoli piccoli (93% contro 87%) sia su quelli grandi (73% contro 69%).

Fogli di calcolo con righe di numeri e tabelle — Il paradosso emerge quando una variabile confondente è distribuita in modo diverso tra i sottogruppi. — Credit: Tima Miroshnichenko / Pexels (Pexels License)

Anche qui c'è una variabile nascosta: il trattamento A veniva usato più spesso sui casi difficili (calcoli grandi), mentre il B era riservato ai casi più facili. Il confronto complessivo, ignorando la gravità dei casi, premiava ingiustamente la terapia applicata ai pazienti più semplici. Un medico che si fidasse solo del totale sceglierebbe la terapia peggiore.

Le radici matematiche del paradosso

Il fenomeno prende il nome dallo statistico britannico Edward H. Simpson, che nel 1951 lo descrisse formalmente nell'articolo The Interpretation of Interaction in Contingency Tables, pubblicato sul Journal of the Royal Statistical Society. In realtà osservazioni simili erano già state fatte da Karl Pearson e Udny Yule a cavallo del Novecento, ma fu il lavoro di Simpson a cristallizzare il concetto.

Dal punto di vista matematico non c'è nulla di misterioso: è perfettamente possibile che, sommando frazioni con denominatori molto diversi, la relazione tra le medie si inverta. Come spiega in dettaglio la voce dedicata della Stanford Encyclopedia of Philosophy, il vero problema non è aritmetico ma di interpretazione causale: quale delle due letture, aggregata o disaggregata, riflette la realtà dipende dalla struttura causale del fenomeno.

Perché conta per decisioni che riguardano la vita

Il paradosso di Simpson è molto più di un rompicapo. In medicina, come chiarisce anche la voce dell'Enciclopedia Britannica, affidarsi a dati aggregati senza controllare le variabili confondenti può portare a raccomandare la terapia sbagliata. Nelle politiche pubbliche può far accusare ingiustamente un'istituzione di discriminazione, o al contrario nasconderne una reale.

La lezione pratica è duplice. Primo: diffidare sempre di una statistica riassuntiva presentata da sola, chiedendosi quali sottogruppi la compongono. Secondo: identificare le possibili variabili confondenti prima di trarre conclusioni. Non esiste una regola automatica che dica se fidarsi del totale o dei sottogruppi; serve ragionamento causale, non solo calcolo.

In un'epoca in cui algoritmi e dashboard riducono decisioni complesse a un unico numero, il paradosso di Simpson resta un promemoria essenziale: i dati non parlano mai da soli. Sono le domande che poniamo, e le variabili che scegliamo di guardare, a determinare se i numeri ci illuminano o ci ingannano.

Tag

#variabili confondenti #paradosso-di-simpson #dati #curiosita scientifiche #statistica

Una buona curiosità ogni mattina

Iscriviti gratuitamente: niente spam, solo articoli scelti.

Iscrivendoti accetti la privacy policy. Puoi disiscriverti in ogni momento.

Il paradosso di Simpson: quando i dati aggregati mentono e ribaltano la verità

Il caso Berkeley: una discriminazione che svanisce

La variabile nascosta che ribalta tutto

Dai calcoli renali al significato profondo

Le radici matematiche del paradosso

Perché conta per decisioni che riguardano la vita

Una buona curiosità ogni mattina

Continua a leggere

Le linee di Nazca: come l'intelligenza artificiale ha trovato centinaia di nuovi geoglifi

Pirahã: la lingua amazzonica che sfida la grammatica universale di Chomsky

Le gocce del Principe Rupert: il vetro che resiste ai martelli ma esplode dalla coda

Ole Rømer e la prima misura della velocità della luce nel 1676