Superare hype e anti-hype sull'AI, con rigore
Meno proclami, più riproducibilità
Original in Italian; automatic translation into English available here.
Intro
Uno dei tanti aspetti interessanti sull’AI, sicuramente specchio della società, è la polarizzazione della maggior parte degli articoli e dei post sul tema.
Fondamentalmente, il mondo sembra dividersi in due:
Chi dimostra, con parole e/o azioni, di ritenere che l’AI sia un soggetto che pensa, ragiona, capisce (!)
Chi relega l’AI a semplice calcolo delle probabilità: quelli che l’amico Massimo Chiriatti ha definito pappagallisti o next-tokenisti1
L’AI è la svolta epocale degli ultimi anni ed è un tema troppo importante per essere banalizzato e visto con un sguardo monodimensionale, quale che sia.
Ho pensato quindi di analizzare il perché di certe posizioni, quali sono i punti più o meno condivisibili e soprattutto come possiamo arrivare ad una prospettiva più ampia.
Anche perché il punto non è tanto decidere se l’AI “pensa” o se è “solo statistica”. Il punto è capire se una specifica affermazione sull’AI è verificabile, riproducibile e confrontabile.
L’hype: tra interesse e ingenuità
Sam Altman e Dario Amodei, i fondatori di OpenAI e Anthropic, competono ormai da anni nel raccontare una visione idealizzata dell’AI.
Anzi, è forse più una co-opetition, visto che entrambi traggono giovamento da una narrativa ambiziosa, a prescindere da chi la porti avanti.
Sicuramente sarà legato al loro essere visionari - aspetto innegabile - ma anche a esigenze molto più contingenti: far quadrare i conti delle rispettive aziende.
Se da un lato i loro ricavi stanno crescendo rapidamente, ad un ritmo incredibile…

… dall’altro, i costi non sono da meno.

Enfatizzare una certa narrazione, comprensiva dell’Intelligenza Artificiale Generale (AGI in inglese) che sarebbe alle porte, è sicuramente un buon modo per guadagnare tempo e sostenere gli enormi investimenti di oggi (sicuri) rispetto a prospettive di guadagni futuri (tutti da verificare, in un contesto competitivo in continua evoluzione).
Se da questo punto di vista l’hype è ovviamente interessato, diverso è il discorso per i “non addetti ai lavori”, di cui i politici sono un ottimo esempio. In Italia ha riscosso molta curiosità (e tante critiche) l’intervista di Walter Veltroni a Claude di Anthropic (sul Corriere a inizio maggio - dietro paywall). Il precursore, almeno tra i soggetti con una certa visibilità, è stato Bernie Sanders, che ha discusso con lo stesso interlocutore a metà marzo.
Ho visto/letto entrambe: da un lato, capisco l’aspetto mediatico e il valore di frequentare il mondo dell’AI da parte di due politici esperti. Ma dall’altro, percepisco una genuina incomprensione dello strumento con cui si sono interfacciati, scambiato per un soggetto senziente con idee proprie.
In realtà, Claude (ma lo stesso si potrebbe dire per Gemini, ChatGPT, Grok o l’AI che preferite) non ha sentimenti, volontà o capacità di discernimento. Il fatto che produca testo staordinariamente fluente, coerente con il tono dell’intervistatore, non va frainteso con una sorta di comprensione o, peggio, con l’essere più o meno in sintonia con alcune idee.
L’anti-hype: il fraintendimento tra come e cosa
Dal lato diametralmente opposto si posizionano personaggi come Gary Marcus negli Stati Uniti, sostenitori dei limiti strutturali dei Large Language Models e dell’AI generativa più in generale.
L’idea di fondo è che l’AI, alla fine, non è nient’altro che calcolo delle probabilità. Una posizione ben rappresentata anche in Italia, ad esempio nella lettera aperta di 45 professori universitari, dal titolo Una visione realistica dell’Intelligenza Artificiale.
Come antidoto all’ingenuità di alcuni e agli interessi nascosti (ma neanche tanto) di altri, penso sia assolutamente importante riportare l’enfasi sul fatto che parliamo di statistica, informatica, ingegneria e dati, non qualcosa di metafisico. Quindi comprendo il motivo di queste posizioni.
Il problema è fermarsi al livello del come, del meccanismo.
Dire che un LLM “calcola probabilità” è vero, ma è un livello di descrizione troppo generico. Per fare un’analogia, possiamo dire che Leonardo del Cineca (uno dei 10 supercomputer più potenti al mondo), una calcolatrice scientifica e lo smartphone che abbiamo in tasca “eseguono calcoli”.

Concettualmente il meccanismo, ossia l’essere strumenti elettronici che processano segnali digitali, è lo stesso. Questa considerazione è vera, ma quasi inutile. Scala, architettura, dati disponibili e modalità di interazione non sono dettagli: determinano le capacità osservabili di questi strumenti e ne estendono drasticamente i problemi affrontabili.
Con l’AI, il ragionamento è analogo. Il fatto che da decenni (non da anni) si stiano sviluppando algoritmi sempre più complessi ed evoluti, ma comunque afferenti al mondo della probabilità e della statistica computazionale, non implica che le loro capacità rimangano sempre confinate allo stesso perimetro di applicazione.
Se restiamo sul piano del come funzionano gli strumenti di AI, rischiamo di arenarci su un solo piano di lettura, e di non capire la differenza tra una calcolatrice ed un supercomputer. Andando per esempio a negare le capacità di generalizzare e inferire nuove informazioni dei più recenti algoritmi di AI, che non capiscono, ma possono effettivamente ricombinare in maniera originale i dati su cui sono addestrati.
C’è quindi una via d’uscita da queste discussioni, che a volte assumono i contorni di guerre di religione più che di dibattito sull’innovazione tecnologica?
Il metodo scientifico: troppo spesso in secondo piano
A mio avviso, il miglior modo per uscire da questo impasse è superare i proclami generalisti e favorire qualche forma di riproducibilità.
Sia ben chiaro: i modelli di AI hanno intrinsecamente un certo livello di variabilità, proprio per la loro natura probabilistica, ma questo non giustifica affermazioni generiche, definitive e incontrovertibili, in cui chiunque sia interessato al tema non sia in grado minimamente di verificare e sperimentare in prima persona.
Ho visto troppa aneddotica e troppo “sentito dire” negli ultimi anni… per questo ho deciso di applicare personalmente una semplice checklist per valutare qualsiasi proclama, pro-AI o anti-AI.
Non esiste l’AI in generale: esistono tanti modelli differenti, commerciali o non, che quantitativamente hanno performance drasticamente diverse
Prompt, configurazioni e modalità di utilizzo non sono invarianti: si possono ottenere risultati non comparabili se non sono chiari
La disponibilità di dati (allegati), l’accesso a internet e la disponibilità di tool (es. un ambiente python per operazioni deterministiche) rendono fattibili (o meno) task complessi
Se c’è un risulato atteso, un oracolo, è utile riportarlo
Se c’è tutto questo, la strada è giusta: si può almeno impostare una verifica indipendente di una qualsiasi affermazione.
Altrimenti, è pura fede nei confronti dell’autore. E il rischio di finire in una echo chamber è alto.
Un buon esempio
Prendiamo il post di qualche giorno fa di Alessandro Maserati sulle performance dell’AI alle finali nazionali italiane delle Olimpiadi di Matematica del 7-10 Maggio 2026.
I modelli usati sono chiari: Gemini 3.1 Pro, GPT-5.5 e gli altri principali.
Il prompt pure: come da commenti al post, il prompt migliore si è rivelato proprio il puro e semplice testo del problema #6.
I dati forniti sono il quesito in sé, mentre sulla disponibilità di internet e dei tool standard nei vari motori non c’è una menzione esplicita. Tutto lascia intendere che i settaggi usati siano quelli di default (quindi internet attivo, plugin nativi pure, nessun altra customizzazione).
Il fatto che ci sia una ground truth, un risultato atteso, è insito nel fatto che parliamo di una competizione delle olimpiadi di matematica, quindi verificare correttezza o meno è immediato.
Ovviamente un post su Linkedin non è una disamina accurata e ha limiti di lunghezza: ma già in questo esempio compatto, c’è molto di quello che serve per sperimentare in prima persona e i risultati non sono portati come verità assoluta.
Conclusioni
Capisco la grande difficoltà, per chi non vive il mondo dell’AI da vicino, ad orientarsi.
Vale per lavoratori, manager, persone comuni, giovani e meno giovani… letteralmente chiunque, visto l’impatto dell’AI.
La polarizzazione del dibattito non aiuta. Più che adorare i profeti dell’hype o dell’anti-hype, spesso portatori di verità assolute, penso sia utile rifarsi al buon vecchio metodo scientifico: sperimentare, provare e riprovare, mettendo in discussione le idee altrui… ma anche le proprie.
Sicuramente questo ha un costo, anche se non economico:
Per chi fa divulgazione a vario titolo, documentare metodologie e dettagli per facilitare la riproducibilità dei propri esperimenti richiede tempo;
Per chi vuole capire, impegnarsi in prima persona è sicuramente più faticoso che limitarsi a credere.
Per la cronaca, questo è il testo del quesito #6 delle Olimpiadi di Matematica, a cui hanno risposto correttamente solo 2 partecipanti su 300 (che sono a loro volta i migliori studenti di matematica su circa 2,5mln di studenti delle scuole superiori italiane).
La banda “Mostly Harmless” è composta di nove musicisti che procedono in fila indiana. Inizialmente, la distanza fra ciascun musicista e il successivo è di un metro. Ad ogni colpo della grancassa, il primo della fila avanza di un metro. Poi, procedendo in ordine, dal secondo fino all’ottavo, ciascun musicista si dispone nel punto medio fra la posizione occupata da quello che lo precede e la posizione occupata da quello che lo segue. Infine, il nono, e ultimo, si porta un metro dietro all’ottavo. Dire se, dopo un numero sufficiente di colpi di grancassa, la fila supererà i 42 m di lunghezza.
Complimenti a Gemini 3.1 Pro che ha risposto correttamente, al primo tentativo, in poco più di 2 minuti.
L’AI quindi pensa, ha capito? No, anche se arriva alla risposta giusta su un quesito che sa risolvere una percentuale infinitesima della popolazione. È e rimane un modello che con dati, prompt e tecnologia è riuscito a risolvere quel problema.
È solo calcolo delle probabilità? A un certo livello di descrizione, sì. Ma fermarsi lì è come dire che il dispositivo da cui state leggendo questo articolo è “solo elettronica che processa zeri e uni”: vero, ma riduttivo e non sufficiente a spiegare cosa riesce a fare.
Dai famosi concetti di stochastic parrot del 2021 (precedente anche alla prima versione di ChatGPT) e di previsione del prossimo token, che è effettivamente alla base degli LLM.




ottimo pezzo! nè idolatrare nè demonizzare, ma capire, valutare e riprodurre...io cerco di farmi portavoce di questo messaggio che a mio avviso è fondamentale portare soprattutto alle nuove generazioni!
Molto interessante. In generale credo che sia sbagliato chiamarla AI , ma solo Gen AI. Nello hype generale si stanno dimenticando gli algoritmi "tradizionali" di machine learning. La Gen AI è inefficace per tutta una serie di problemi che, invece, classificatori, image recognition, recommendation engine fanno meglio. AI è il tutto Gen AI un sottoinsieme.