La piramide di Maslow della Data Science
Cosa serve realmente ad un data scientist per far bene il proprio lavoro?
Intro
Chissà quale piega avrebbe preso il mondo della data science se 10 anni fa Thomas H. Davenport e DJ Patil avessero optato per un titolo1 un po’ meno impertinente per definire questa nuova disciplina.
La scelta di quell’aggettivo - sexy - accostato ad una professione un po’ oscura - data scientist - ottenne senza dubbio il risultato di scatenare la curiosità anche in contesti non particolarmente… data-driven. E segnò in questo modo l’avvio di una nuova professione.
Quell’articolo fu solo la scintilla, ma guardando a ritroso c’erano tutte le condizioni per innescare quel domino che ha portato i dati ad assumere l’importanza che hanno oggi: nuove tecnologie (come le GPU), nuovi paradigmi (come il Cloud), nuovi algoritmi (come il deep learning) e, più in generale, una nuova sensibilità.
O forse sto solamente indugiando in una di quelle fallacie che, come evidenzia benissimo Taleb, caratterizzano la natura umana: cercare ed elaborare a posteriori delle giustificazioni - ragionevoli ma non verificabili - sugli eventi del passato e sul percorso che ha preso la storia…
Quel che è certo, è che il mondo della data science non si è fermato. Fast forward 10 anni, ed eccoci alla situazione del 2022:
La data science è in continua evoluzione, ma è sicuramente in crescita2
I data scientist sono molto richiesti, ma spesso faticano a trovare realtà in cui esprimersi al meglio, cambiando lavoro con una frequenza molto elevata
Molte aziende ancora non hanno messo a fuoco alcuni elementi a mio avviso fondamentali per fare data science sul serio
Mi concentrerò sull’ultimo punto. E visto che solitamente parlo di dati, algoritmi e tecnologia… cosa c’è di meglio se non fare riferimento ad uno psicologo dell’inizio del Novecento?
La piramide di Maslow
Sto parlando di Abraham Maslow.
Il principale motivo della sua notorietà è la celebre piramide dei bisogni, un modello motivazionale dello sviluppo umano da lui presentato intorno alla metà del secolo scorso.
L’idea è semplice e tuttora valida: non è possibile soddisfare i livelli più elevati, fino a raggiungere l’apice dell’autorealizzazione, se prima non sono stati soddisfatti i bisogni più basilari ai livelli più bassi. O detto in altri termini: il cammino per l’illuminazione, il nirvana, la santità, o quale che sia il massimo livello di sviluppo personale… parte sempre dall’avere un tetto sotto cui dormire e qualcosa da mettere sotto i denti!
Non è difficile trasporre lo stesso concetto nel mondo della data science: la strada per l’Artificial Intelligence è ardua, anche se tutti vorremmo che non lo fosse. Bisogna prima soddisfare (e bene!) alcuni bisogni primari.
La piramide di Maslow - Data Science edition
Quali sono quindi questi passaggi, spesso bistrattati, ignorati o fraintesi? Vediamoli uno per uno, partendo dalla base.
Dati
È banale, ma tutto parte dai dati. In assenza di dati veri, ricchi di informazioni, disponibili in volumi congrui, non si può fare data science.
Si può solamente:
Fare pura ricerca algoritmica, tipicamente appannaggio di università e grandi centri di ricerca delle Big Tech
Lavorare in un qualche playground, su progetti che mai vedranno la luce al di fuori di ambienti di demo
È vero, come dice qualcuno, che every company is a data company. Ma oggettivamente non tutti i business dipendono dai dati alla stessa maniera. Complessità semantica, volumi, criticità, frequenza di aggiornamento, unicità, rappresentatività: sono tutti parametri diversi da azienda ad azienda.
E da questo dipende l’effettiva disponibilità di dati su cui lavorare.
Data ownership e discoverability
Se sono disponibili dati di valore, c’è un secondo step fondamentale: avere una chiara ownership del dato (o stewardship, come preferisce qualcuno).
Troppo spesso ci sono dati figli di nessuno, con una semantica oscura e la cui esistenza è tramandata per tradizione orale.
Al crescere della dimensione di un’azienda e dei suoi dati, questo problema diventa sempre più importante e di difficile soluzione. In alcuni contesti, anche solo venire a conoscenza dell’esistenza di un dato può richiedere tempo e fortuna. È questo che intendo con discoverability: il fatto che un dato sia facilmente individuabile e accessibile. Al punto che l’owner del dato dovrebbe esserne non solo l’esperto, ma anche lo sponsor del suo utilizzo.
Quali sono le vie di uscita per le realtà con questi problemi? Qualcuno penserà al data mesh, la buzzword del 2022 che forse diventerà realtà in futuro. Solo col tempo vedremo se riuscirà almeno in parte ad indirizzare questo tema.
Pipelines e processi
Se abbiamo i dati e abbiamo modo di trovarli e comprenderli a fondo, grazie ai data owner, siamo pronti per il terzo gradino, quello su cui è più facile cadere, nonché la principale fonte di frustrazione per tanti data scientist. Parlo delle pipelines che rendono i dati disponibili e di tutti i processi a contorno, dall’ottenimento degli accessi ai rilasci in produzione.
Rispetto ai due punti precedenti, questo è prettamente IT, e quindi largamente ignorato dalle figure di business, che faticano a comprenderne il ruolo vitale. D’altro canto, i professionisti IT spesso faticano a capire realmente il lavoro dei data scientist, e da questo nascono molti problemi.
Il punto chiave a mio avviso è uno: è vero che i professionisti dei dati sono sicuramente degli utenti avanzati della tecnologia (e spesso sono nell’area IT di un’azienda), ma hanno esigenze molto diverse dagli sviluppatori o da altre figure classiche dell’IT. Eppure, per qualche motivo, sono spesso vincolati a processi e strumenti nati per contesti diversi.
Magari chi lavora con i dati, in qualche modo, riesce anche ad adattarsi: ma si tratta di forzature, come quando un bambino prova ad inserire a viva forza un pezzo di plastica tondo in una forma quadrata.
Non è un caso che negli ultimi anni si sia parlato molto di processi ad hoc per algoritmi e data science: ad esempio, le soluzioni di MLOps indirizzano una parte di queste problematiche.
Strumenti e capacità computazionale
Se ci sono i dati, con una ownership chiara e con flussi e processi adeguati, ci si può concentrare sul fare data science per bene.
Alla base ci sono gli aspetti più ingegneristici:
La disponibilità di strumenti per sviluppare algoritmi, analisi e data products, ormai largamente open source
La possibilità di accedere a potenza di calcolo (e storage) adeguati e flessibili
Su questo secondo punto, spesso i progetti di data science hanno workload particolari e si giovano di ambienti moderni: soluzioni serverless, o ad ogni modo scalabili (in alto e in basso) molto velocemente. Spesso l’uso del cloud aiuta in quest’ottica.
AI e Data Science
Siamo arrivati faticosamente al vertice della piramide: c’è tutto per fare data science per bene!
Tutto forse no: ci sono una serie di tematiche organizzative e culturali di cui ho già ampiamente parlato (e scritto).
Conclusioni
Maslow è morto nel 1970 in una piccola cittadina californiana… quella Menlo Park che meno di mezzo secolo dopo sarebbe diventata sede di uno dei principali giganti del web3.
La sua celebre piramide è però un’idea validissima che rappresenta non solo i bisogni necessari per lo sviluppo personale: qualunque grande obiettivo - come sviluppare progetti di Intelligenza Artificiale e di Data Science - passa per una serie di gradini, a volte invisibili e sempre facili da sottovalutare.
Come nella versione originale della piramide, si può discutere sull’esistenza di qualche scorciatoia. E penso che nel breve termine si possa anche trovare: sarebbe estremamente old style (o con una parolaccia: waterfall) pensare di dover avere tutto perfettamente in bolla prima di arrivare ad assaggiare cosa vuol dire fare data science!
Chi ha un po’ di esperienza sa però che presentare un algoritmo innovativo come qualcosa di mirabolante è facile; ottenere con dati e algoritmi un impatto duraturo e sostenibile, sviluppare data products e insights che siano parte integrante delle dinamiche di un’azienda e garantire in questo modo un vantaggio competitivo… è un lavoro molto più impegnativo.
È in quest’ottica che bisogna rinforzare la base invisibile della piramide!
Come ben evidenziato dagli stessi Davenport e Patil, in un altro articolo per HBR
Il campus principale di Meta (fino a poco tempo fa Facebook) ha aperto a Menlo Park nel 2012