Mentire con dati veri - Parte 3: Simpson nella vita di tutti i giorni (Edward, non Homer)
Un paradosso con implicazioni non banali
Original in Italian; automatic translation into English available here.
Intro
Ammettiamo che la popolazione sia divisa in due (giovani e anziani) e che i livelli di studio siano due (diplomati e non-diplomati).
Nel gruppo dei giovani, i diplomati hanno un tasso di disoccupazione più basso dei non diplomati.
Lo stesso vale per il gruppo degli anziani: anche qui i diplomati hanno un tasso di disoccupazione più basso dei non diplomati.
Se nei due sottogruppi succede lo stesso fenomeno, inevitabilmente nella popolazione nel suo insieme (giovani più anziani) varrà lo stesso: i diplomati avranno un tasso di disoccupazione più basso dei non-diplomati.
O forse no?
Dopo un breve break, è arrivato il momento del terzo episodio della serie “Mentire con dati veri”. Questa volta parliamo del paradosso di Simpson: come vedremo, la non comprensione di questo paradosso ha portato a errori clamorosi in tanti studi… e secondo me fa “vittime” tutti i giorni tra analisti di business di qualsiasi settore, ma anche giornalisti che provano a dilettarsi con il mondo dei dati.
Partiamo dall’esempio, numeri alla mano
La pagina italiana di Wikipedia mostra un esempio eccellente di questo paradosso.
Partiamo da questi dati di esempio, che sono l’input per l’analisi: giovani e anziani hanno mediamente una distribuzione diversa nei titoli di studio, e anche il tasso di disoccupazione è fortemente correlato all’età.
All’interno dei due gruppi per età, è oggettivo che un titolo di studio superiore corrisponda ad un tasso di disoccupazione inferiore. Evidentemente, studiare conviene!
Ora basta fare due conti per vedere il paradosso. Primo passo: calcolare il numero di disoccupati.
I giovani disoccupati senza diploma sono 20 * 30% = 6, quelli con diploma sono 80 * 15% = 12, e così via.
Secondo passo: calcolare le percentuali di disoccupati su tutta la popolazione, raggruppando per titolo di studio. È una semplice divisione.
Alla fine il risultato si è invertito, e non ci sono errori di conto! Sembra quasi che avere un titolo di studio sia controproducente per trovare un lavoro.
Dov’è il problema
L’esempio può essere spiegato in maniera semplice: sia l’età che il titolo di studio hanno un impatto sulla probabilità di trovare lavoro (cosa peraltro vera, come ci mostra l’ISTAT).
Il problema è se ad una semplice osservazione numerica (tra persone con diploma ci sono più disoccupati che tra persone senza diploma - vero) sostituisco con leggerezza un nesso causale (avere un diploma è la causa di una maggiore disoccupazione - falso).
Cito testualmente da Wikipedia:
Volendo usare concetti di causa effetto (spesso l'unico motivo per il quale si analizzano i dati), ma avendo a disposizione tutti i dati, si può dire:
i giovani sono sei volte più soggetti alla disoccupazione rispetto agli anziani;
ma sia tra i giovani che tra gli anziani avere un diploma riduce il "rischio disoccupazione" alla metà.
Una rappresentazione visuale molto bella del paradosso è questa gif animata.
Nell’insieme, il fenomeno Y scende al crescere di X. Ma all’interno dei 5 sottogruppi, sale!
Nella vita di tutti i giorni… sono dolori!
Se fosse solo un giochino per statistici, matematici, data scientist o semplici curiosi, non mi soffermerei tanto su questo tema.
Il problema è che ci sono un’infinità di situazioni reali, spesso su temi di attualità e molto controversi, in cui questo paradosso viene trascurato. Penso che in molti casi ci sia semplice colpa (ossia ignoranza), ma in alcuni casi vedo anche del dolo (ossia il gusto di seminare zizzania, in particolare tra generi, etnie e gruppi contrapposti di qualsivoglia natura). Perché si sa: messaggi divisivi, che scaldano i cuori (e spengono i cervelli), sono alla base dell’engagement di tante piattaforme!
Un caso di scuola, che risale a 50 anni fa ma potrebbe essere riproposto tale e quale oggi, riguarda le differenze nei tassi di ammissione all’università tra uomini e donne. Parliamo dell’università di Berkeley in cui, nel 1973, il tasso di ammissione era del 44% per i maschi e del 35% per le femmine.
Differenze troppo ampie per essere ignorate… e anche l’ideale per costruire una certa narrazione. Ma fortunatamente, tre scaltri statistici hanno capito che c’era sotto qualcosa in più (e hanno spento sul nascere un possibile incendio). Non ci vuole una grande fantasia: la scelta del percorso universitario era (ed è) molto diversa tra uomini e donne, e non tutti i corsi hanno lo stesso livello di selettività. Morale: normalizzando l’analisi per percorso di studi, il gap si annullava, anzi in alcuni casi addirittura si invertiva.
Negli anni della pandemia, ed in particolare nel 2021 con le somministrazioni dei vaccini, abbiamo assistito alla stessa discussione: le fonti ufficiali hanno sempre fornito dati sull’efficacia dei vaccini per fascia di età (come statisticamente corretto fare), ma qualcuno ha provato a tirare fuori conclusioni sulla popolazione nel suo insieme… ricadendo nel paradosso di cui stiamo parlando, in maniera identica all’esempio che ho fatto sul titolo di studio.
In quel caso, il tasso di vaccinazione era altissimo sui super-anziani e molto più basso tra i giovani, creando ovviamente una distorsione che impediva un’analisi banale, non normalizzata, sulla popolazione nel suo insieme. Ne scrissi in lungo e in largo ai tempi, ma in tanti altri hanno spiegato in maniera molto chiara l’errore di fondo.
Che si parli di utilità (o meno) di un titolo di studio, di possibile discriminazione di genere in un’istituzione di qualche tipo, oppure di efficacia di un vaccino o una cura, in ogni caso parliamo di tematiche sensibili su cui non si può ignorare il paradosso di Simpson. Altrimenti il rischio è di banalizzare le questioni e creare discussioni poco utili.
Conclusioni
La prima volta che mi sono imbattuto in questo paradosso, ho pensato subito a quante analisi distorte posso aver fatto in prima persona, e a quante ne vengono regolarmente fatte, senza che nessuno se ne accorga.
Oggi abbiamo visto un paradosso che può portare ad errori anche da parte di esperti; il punto è che può essere sfruttato anche per alterare la percezione della realtà o per sostenere “con i dati” le tesi più disparate e/o inverosimili.
Sono in forte disaccordo con chi sostiene che ai dati si può far dire quello che si vuole. Io direi che ai dati si può far dire quello che si vuole, ma solo barando (deliberamente o meno).
Questo è il motivo per cui lavorare con i dati richiede grande competenza e grande etica. E un po’ di education diffusa: se da un lato le informazioni e le analisi esplodono in numero, dall’altro la capacità di leggerle con spirito critico non può rimanere al palo!
Esempio meraviglioso, purtroppo anche in tante aziende si fa "statistica al kilo" tanto per giustificare le idee del marketing, che ne pensi?
Ho il dubbio che sulla prima tabella sia da sostituire “lavoratori” con “popolazione”