Intro
Lo confesso: non sono un amante di espressioni come “AI for good”. Penso che dietro questa espressione si celi spesso:
Poca “AI”, espressione usata per catturare l’attenzione (più che altro dei non addetti ai lavori, visto che chi usa realmente dati e algoritmi avanzati predilige di solito termini meno vaghi)
Poco “good”, o perlomeno l’interesse perseguito da molte aziende che fanno “AI for good” è spesso più vicino ai portafogli degli investitori che ad un concetto astratto di “bene comune”
E se notoriamente le fake news si diffondono più velocemente delle notizie reali, a mio avviso si diffondono ancora più velocemente alcuni concetti che rappresentano un ideale largamente condivisibile a cui vogliamo credere (a prescindere dalla sua veridicità o realizzabilità).
L’Intelligenza Artificiale a sostegno del benessere e dello sviluppo degli esseri umani (ovviamente in contrapposizione ai robot cattivi che minacciano l’umanità) è un perfetto esempio di narrazione affascinante a cui vogliamo credere1.
E a quanto pare, quest’idea sta prendendo piede: basti vedere la quantità di iniziative ed eventi portati avanti da grandi aziende ed associazioni ad hoc.
Sotto sotto… qualcosa c’è
In generale, apprezzo molto chi cerca di entrare nel merito di questi temi di cui tanti parlano (genericamente) ed eventualmente demistificare alcuni di questi concetti. Anche perché, in assenza di analisi critiche, mi rendo conto di correre personalmente un rischio: bollare alcuni trend come pure buzzword e ignorarli tout-court.
Per capire cosa si nasconde dietro la moda del momento non conosco una soluzione unica, rapida e brillante. Sui temi che mi stanno a cuore (come tutto ciò che è data*) ne ho una non particolarmente economica in termini di tempo, ossia andare a documentarmi su fonti:
Trasparenti (e open source)
Sostenute da un’attenta community
Fortunatamente, nel mondo dei dati e algoritmi avanzati (o dell’AI, se preferite), esiste una fonte di questo tipo: è Kaggle, piattaforma nata nel 2010 per ospitare competizioni di Machine Learning, comprata da Google nel 2017.
Kaggle ha ospitato negli ultimi anni ben 4 competizioni di Jigsaw, un’unità interna a Google con una missione nobile:
Jigsaw is a unit within Google that explores threats to open societies, and builds technology that inspires scalable solutions.
In particolare Jigsaw ha l’obiettivo di contrastare:
La disinformazione
La censura
La tossicità (nelle espressioni verbali)
L’estremismo violento
Buona parte delle attività di Jigsaw sono legate al mondo degli algoritmi e specificamente al Natural Language Processing per processare ingenti volumi di testi.
4 competizioni Kaggle? 4 esempi di AI for good… for real!
Negli ultimi quattro anni, Kaggle ha ospitato altrettante competizioni di Jigsaw:
Toxic Comment Classification Challenge, finalizzata ad individuare diverse tipologie di commenti tossici, dagli insulti al razzismo, in un’ampia raccolta di testi raccolti sul web
Jigsaw Unintended Bias in Toxicity Classification, con l’obiettivo di ridurre il bias che si poteva verificare nella prima competizione (ad esempio verso termini specifici)
Jigsaw Multilingual Toxic Comment Classification, perché non tutto il mondo parla inglese… anche se i principali modelli e librerie di NLP sembrano pensarla diversamente
Jigsaw Rate Severity of Toxic Comments, perché non tutti i commenti tossici sono uguali
In queste competizioni, Kaggle ha messo in palio un totale di 200.000$ per i data scientists che hanno fornito le soluzioni migliori, addestrando modelli di machine learning a partire da un campione di dati classificati a mano (da molteplici annotatori) per poi andare ad utilizzare questi modelli su nuovi testi (con la scalabilità data dagli algoritmi di NLP).
E nell’ultima competizione (conclusasi a febbraio 2022), un italiano si è piazzato ai primi posti: è Stefano Morelli, che è arrivato in terza posizione su circa 2.300 partecipanti!
Capire come Stefano sia arrivato ad un risultato così esaltante è stato oggetto di una presentazione al Kaggle Days Meetup Milano, disponibile online.
C’è molto da imparare da questa presentazione… ma una cosa in particolare: a fronte di tanti modelli di NLP general purpose, problemi molto specifici (come l’attribuzione di un livello di tossicità ad una frase) richiedono soluzioni su misura che possono essere costruite on top a soluzioni ormai assodate come i transformers (BERT e affini).
Magari senza necessità di grandi complicazioni, ma solo avendo pieno controllo di quello che si sta facendo a livello algoritmico.
Per chi vuole toccare con mano
Le quattro competizioni di Jigsaw dimostrano come l’AI for good sia più di una buzzword. Questo non implica (ovviamente) che tutto ciò che viene bollato con questa locuzione accattivante sia automaticamente qualcosa di valido e interessante… ma insomma, qualcosa di concreto c’è!
Un ultima nota per chi vuole sperimentare un po’, senza necessariamente addentrarsi nei notebook di Kaggle, ma giusto per farsi un’idea. Jigsaw mette a disposizione liberamente una API che permette di valutare se e quanto una frase sia tossica.
Si tratta della Perspective API, progetto da cui tutto è partito 5 anni fa, documentato e disponibile sotto licenza open (Apache) anche su Github.
Da provare!
È seconda, nella mia personalissima classifica, solo a Web3, blockchain e NFT per un futuro di uguaglianza, decentralizzato e indipendente dai cattivi giganti del web.
AI for good: oltre la buzzword
Grazie Alberto per la lucida analisi e per gli esempi presi da Kaggle! Un aspetto altrettanto interessante del "4 good" è far leva sull'aspetto sociale e ambientale per attivare collaborazioni cross-settoriali basate sui dati. L'Unione Europea è committed sul tema con iniziative quali i Data Spaces e la regolamentazione del cosiddetto Data Altruism dentro il Data Governance Act. Anche qui c'è ancora molto da fare, ma con uno slancio di ottimismo l'idea che i dati possano aiutarci ad affrontare le sfide complesse e difficili del nostro tempo diventa, per chi è del settore, quasi un imperativo morale.