Mentire con dati veri - Parte 2: la fallacia del tasso di base
Quando troppo "focus" porta fuori strada
Intro
Nell’ultimo articolo di questo blog, abbiamo parlato di selection bias, ossia di come una scelta (volontaria o meno) del campione di dati su cui fare un’analisi possa portare a conclusioni errate.
Oggi vedremo un altro errore classico con cui si leggono i dati, alla base di fraintendimenti clamorosi: la cosiddetta fallacia del tasso di base.
Benché si tratti di qualcosa di completamente diverso dal bias di cui sopra, l’aspetto che li accomuna è un focus ristretto sul fenomeno che si vuole analizzare (o peggio, su una tesi che si vuole sostenere), a discapito dell’attenzione alla raccolta dati (per il selection bias) oppure alla costituzione della popolazione di riferimento (nel caso odierno).
Un piccolo excursus dal 2021
Sono da poco passati 3 anni dal primo caso di COVID-19 in Italia e 2 anni dall’avvio della campagna vaccinale.
Come se non fosse stata sufficiente la pandemia, ricordiamo tutti l’infodemia: per dirla con la Treccani, quella “circolazione di una quantità eccessiva di informazioni, talvolta non vagliate con accuratezza, che rendono difficile orientarsi su un determinato argomento per la difficoltà di individuare fonti affidabili”.
Beh, in mezzo a panettieri-diventati-statistici, data scientist improvvisati ed “esperti” di dati… forse non così esperti, mi capitò di fare una battuta:
Attenzione! Più dell’80% dei morti in incidenti stradali ha fatto il vaccino!
L’idea di base che volevo evidenziare è che non basta calcolare una percentuale per evidenziare un nesso causale, come del resto evidenziato da correlazioni tanto perfette quanto bislacche, come il tasso di divorzi in Maine e il consumo pro capite di margarina.
Dietro le quinte di quella battuta, c’era però una seconda considerazione: quando si analizza qualsiasi fenomeno, non bisogna dimenticare di valutare cosa sta succedendo alla popolazione di riferimento.
I dati sui vaccini sono stati oggetto di tanti paradossi e analisi superficiali: non mi dilungherò su questo ambito. Mi limito giusto a notare che, parlando di fallacia del tasso di base, l’immagine di riferimento su questo tema su Wikipedia è proprio presa dal mondo vaccinale. E spiega perfettamente la situazione che si è verificata nel corso del 2021.
Userò un altro esempio per spiegare il concetto e lascio a chi è interessato di approfondire questo, ma dico giusto una cosa: chi ha diffuso notizie inerenti la parte sinistra dell’immagine, ignorando (volutamente) la parte destra, non ha fatto un gran lavoro!
I guidatori ubriachi e l’alcol test
Per parlare del tasso di base, preferisco prendere un caso di scuola: i test alcolemici a cui possono essere sottoposti i guidatori, detti anche test del palloncino.
Ipotizziamo1 che:
Guidi ubriaca 1 persona ogni 1.000
Il test non abbia falsi negativi: tutti gli ubriachi risultano effettivamente ubriachi
Il test abbia un 5% di falsi positivi: su 100 persone sobrie, 5 in realtà risultano ubriache
Ammettiamo che una volante fermi una persona (a caso) e che questa risulti ubriaca al test. Qual è la probabilità che lo sia davvero?
Qualcuno2 potrebbe azzardare 95%, ossia il complemento del 5% di falsi positivi.
Peccato! Risposta sbagliata, leggermente… la probabilità che quella persona sia realmente ubriaca è del 2% scarso (sì, è così, e non sono io a essere ubriaco).
In realtà, seguendo un approccio rigoroso, la spiegazione è naturale. Se testassimo tutte le 1.000 persone avremmo:
1 è ubriaco, che risulta tale
999 sono sobri, di cui 999 * 5% ~ 50 risultano positivi
Quello realmente ubriaco è 1, i falsi positivi sono 50. La percentale che stiamo cercando è 1 / (50+1) ~ 2%.
Questa situazione paradossale è dovuta al fatto che il tasso di falsi positivi è basso, ma si applica su una popolazione estremamente sbilanciata verso la sobrietà! Anche questo esempio è spiegato in lungo e in largo su Wikipedia.
Un semplice caso aziendale
Ok, ma tutto questo può avere una qualche importanza per chi lavora tutti i giorni su dati reali e non creati ad hoc per dimostrare un paradosso?
La risposta è un forte “sì”.
Prendiamo un’azienda qualsiasi, con clienti fidelizzati di cui conosce l’età. Potrebbe avere, ad esempio:
60.000 clienti ventenni
100.000 cinquantenni3
Si potrebbe dire - e corrisponderebbe al vero - che il numero di clienti molto giovani è poco più della metà di quelli… “meno giovani”.
Da lì a dire che l’azienda ha poco successo sulle nuove generazioni, il passo è breve. E forse si potrebbe cambiare strategia di marketing. O pensare a rivoluzionare la linea prodotti. O insomma, potrebbe saltare qualche testa, perché non si è stati in grado di raggiungere i giovani!
Ma fermi… il conto era giusto, ma il ragionamento è sbagliato!
Questa è la piramide demografica4 in Italia nel 2022:
Effettivamente, a fronte di circa 6 milioni di italiani 20enni, ci sono poco meno di 10 milioni di 50enni.
Quindi l’azienda in questione ha esattamente lo stesso successo con i giovani e con i meno giovani. Semplicemente, i giovani sono pochi!
Conclusioni
È facile zoomare su un argomento o su un qualche fenomeno, perdendo di vista il contesto complessivo. Farlo con i dati, è particolarmente facile!
Avere coscienza di bias, paradossi e affini, è fondamentale. Per i neofiti, sicuramente, ma anche per chi con i dati lavora d’abitudine: fare leggerezze è sempre dietro l’angolo!
Se i dati sono stati scelti/raccolti senza distorsioni (no selection bias) e la popolazione di riferimento è stata considerata (no fallacia del tasso di base), in realtà abbiamo solamente messo sui giusti binari l’analisi… c’è molto altro, per la prossima puntata!
Sono numeri inventati, per favorire il ragionamento.
Specialmente se non si occupa regolarmente di statistica e dati!
Intesi come fascia 20-29 e 50-59 anni, rispettivamente.
Sì, fa un po’ paura.