Ma quanto costa la Generative AI? E cosa c'è "sotto al cofano", tra GPU e scienziati? Lezioni da Llama 3
Perché la competizione sui "foundational models" è un gioco per pochi... e cosa possono fare tutti gli altri
Original in Italian; automatic translation into English available here.
Intro
È passato quasi un anno e mezzo dall’introduzione di ChatGPT e l’hype sulla Generative AI è ben lontano dallo sgonfiarsi.
E c’è un motivo: sicuramente c’è tanto fumo… ma anche tanto arrosto! Nella primavera dell’anno scorso, parlando con un collega a Copenhagen, mi sono sbilanciato sul fatto che la Generative AI potrà avere un impatto sulla società non tanto diverso da quello di Internet: non sono tipo da previsioni spericolate… ma ne sono ancora convinto, anche se dobbiamo vedere se, quando e soprattutto in che termini quella affermazione diventerà realtà.
Come in ogni corsa all’oro, anche con la Generative AI al crescere delle persone interessate sta aumentando il numero degli esperti o presunti tali, col risultato inevitabile di vedere diluite le informazioni di qualità, a favore di tanto qualunquismo tecnologico che si allontana sempre più dalla realtà dei fatti.
Non vorrei prendere anch’io questa strada, e quindi ho deciso di restare ben ancorato agli ultimi sviluppi concreti da parte dei grandi player nel settore. E quale migliore occasione per qualche riflessione, se non l’introduzione di Llama 3, l’ultimo modello open-source prodotto da FAIR (il gruppo Fundamental AI Research di Meta)?
Non voglio parlare solo del modello, ma anche di tutto quello che ci sta attorno. Il team, i dati, l’hardware, la visione… tutti ottimi elementi per capire che la Generative AI non è una disciplina unica. È un insieme di sport, con tanti campionati e tanti giocatori diversi: per provare a vincere una partita, bisogna prima capire bene dove andare a giocare!
Cos’è Llama 3
Era il 2013 quando l’allora Facebook (oggi Meta) assunse Yann LeCun, uno dei pionieri del mondo delle reti neurali.
È facile parlare dei premi che ha vinto negli ultimi anni, tra cui il celebre Turing Award (nel 2018, con Bengio e Hinton), ma il modo migliore per introdurlo è un filmato d’epoca (datato 1989) in cui questo giovane francese, non ancora trentenne, mostra orgoglioso il funzionamento di LeNet-1, una delle primissime reti neurali convoluzionali capace di riconoscere numeri stampati o scritti a mano.
Aver assunto LeCun per guidare di lì a poco il neonato FAIR, ossia il centro di ricerca e sviluppo di Facebook sull’AI, fu una mossa molto chiara da parte di Zuckerberg per dimostrare il suo interesse sull’Intelligenza Artificiale, già dieci anni fa.
Tornando ai giorni nostri, Meta è uno dei punti di riferimento per la Generative AI open-source e Llama 3 è la sua ultima creatura. Parliamo di un LLM rilasciato per ora in due versioni (da 8B e 70B di parametri) in grado di alzare l’asticella delle performance, che spesso si avvicinano o superano gli LLM commerciali di medio livello (quindi non GPT-4 o Claude 3 Opus).
Quello che piacerà a molti è la licenza: la sintesi è che si può fare più o meno tutto con Llama 3, tra cui costruirci modelli derivati da usare per fini commerciali e senza dovere nulla a Meta. Le poche eccezioni sono di fatto orientate ad evitare che il modello sia usato dalle altre Big Tech (preoccupatevi se avete più di 700 milioni di utenti, ma altrimenti siete tranquilli).
Cosa c’è sotto al cofano?
Non basta una superstar come LeCun per realizzare un modello come Llama 3. Proprio no!
Ed è noto più o meno a tutti (gli addetti ai lavori) che sicuramente serve tanta potenza di calcolo per poter anche solo avviare il training di un modello di queste dimensioni.
Ma si sa: “tanto” non vuol dire nulla. Invece si può parlare di TFLOPS, di numero di GPU… o di Euro, Dollari o altre valute di vostro piacimento. Il punto di partenza è questa frase, nei primi paragrafi dell’articolo che spiega l’infrastruttura usata per addestrare LLama 3.
To lead in developing AI means leading investments in hardware infrastructure.
Quando si parla di AI, sembra che l’unico problema sia accaparrarsi le GPU, il cuore pulsante dell’addestramento dei modelli di AI, che ha permesso ad Nvidia (di fatto il leader incontrastato del settore GPU) di avvicinarsi ai 2.000 miliardi di dollari di capitalizzazione. E a chi ci ha puntato 5 anni fa, di fare un generoso 18x sul proprio investimento.
La realtà è molto più complessa e l’articolo che ho riportato sopra, sicuramente molto tecnico e poco digeribile per chi non si occupi di architetture su larghissima scala per modelli di AI, spiega che la complessità copre tutto ciò che è infrastruttura. Quindi non solo la potenza di calcolo, ma anche:
Storage per immagazzinare volumi enormi di dati a velocità sostenute
Rete per far comunicare un cluster di GPU impressionante
Protocolli, middleware e framework vari
Fermiamoci comunque alle sole GPU, ed immaginiamo un mondo in cui rete, storage, elettricità, maintenance di un data-center gigantesco siano… gratuiti!
Gli autori spiegano che Meta ha usato due cluster da 24.576 GPU H100 per addestrare Llama 3. I listini di Nvidia non sono pubblici, ma il consenso è che una singola GPU H100 costi circa 40.000$.
I conti sono facili: ognuno di questi due cluster costa circa 1.000.000.000 $.
Sì, due cluster e quindi due miliardi di dollari1. Per addestrare un modello open-source.
E non finisce qui: l’obiettivo di Meta è di raggiungere circa 350.000 H100 per la fine del 2024. Siamo a 14B $, senza contare i tanti investimenti degli anni scorsi.
Non solo forza bruta
Fosse solo una questione di investimenti hardware… beh, già sarebbero tagliate fuori quasi tutte le aziende al mondo.
Il punto è che per sviluppare un modello di GenAI servono tante menti brillanti. Anche perché, come spiegano da Meta nell’introduzione di Llama 3, le performance di questo modello si devono a quattro elementi:
l’architettura del modello
la qualità dei dati per il pretraining
vari accorgimenti per ottimizzare il pretraining
varie modalità di fine-tuning
Ed aggiungiamoci pure tutti i guardrails per evitare che il modello finisca fuori strada e produca risposte inappropriate
Quindi a parte l’infrastruttura e il modello in sé e per sé, ci sono tanti altri strati prima di arrivare ad un LLM fatto e finito.
E ci sono tante altre finezze, come questa:
To prevent accidental overfitting of our models on this evaluation set, even our own modeling teams do not have access to it.
Quante aziende possono permettersi di segregare rigidamente i dati di test a cui accedono i data scientist, in una modalità che ricorda tanto Kaggle?
Per fare tutto ciò ci vuole sicuramente una leadership visionaria, un management tecnico capace ed efficace, e diversi team di altissimo profilo. Parliamo di risorse rare a tutti i livelli. E pregiate.
Difficile capire quante persone abbiano lavorato a Llama 3 e per quanto tempo. Ma si tratta del progetto di punta di FAIR e sul loro sito sono menzionati circa 200 ricercatori: penso che questa sia una buona baseline.
Levels.fyi ci aiuta a capire il costo di questi professionisti:
Parliamo di individual contributors e già un IC4, che potrebbe avere un paio d’anni di anzianità, supera i 300.000$ di total compensation.
Stiamo parlando della base della piramide, non del vertice.
Chi sta giocando questo campionato di elite?
Spero che adesso sia un po’ più chiaro perchè lavorare allo sviluppo dei foundational models sia veramente un’ambizione per poche aziende.
Quando si sente parlare, su media generalisti, di startup che “fanno Generative AI” con una manciata di neo-laureati e qualche istanza su Cloud, le opzioni sono due:
Mentono (più o meno deliberatamente)
Si riferiscono a sviluppi costruiti on top delle attività di pochi giganti, tipicamente in nicchie che non interessano a chi ha la potenza (di calcolo e di persone) di cui sopra
Nella realtà dei fatti, oggi il mondo open (con licenze permissive per uso gratuito degli LLM anche a fini commerciali) vede, oltre a Meta:
MistralAI, l’azienda francese che rappresenta la speranza europea di non perdere il treno dell’AI, che giusto qualche giorno fa ha presentato Mixtral 8x22B
Alibaba, che ha sviluppato Qwen, una suite di algoritmi di GenAI con ottime performance
Databricks, con il recentissimo e promettente DBRX
Il Technology Innovation Institute degli Emirati Arabi, con il suo Falcon che però comincia ad invecchiare
Se guardiamo invece il mondo dei modelli closed-source, troviamo:
OpenAI, con GPT-3.5, GPT-4 e sicuramente tanto altro che bolle in pentola, in autonomia o in tandem con Microsoft
Anthropic, startup guidata dagli italo-americani Dario e Daniela Amodei, sostenuta da AWS e che con il suo ultimo Claude 3 Opus ha finalmente sviluppato un LLM in grado di competere ad armi pari con GPT-4
Cohere, molto attiva sin dall’inizio e recentemente rivitalizzata dal rilascio di Command R
Google, che nonostante gli sforzi con Gemini sembra sempre a disagio con la GenAI
Conclusioni
Che nel mondo della Generative AI ci fosse un fossato tra pochi grandi player e tutti gli altri, penso fosse cosa nota. Il punto è quanto largo e profondo è questo fossato. Direi semplicemente: più di quanto si possa immaginare.
Meta (ma anche Mistral) ci danno naturalmente una vista più chiara di cosa ci voglia per essere competitivi: investimenti ingenti in tecnologia e persone.
Inutile illudersi e sperare in cambiamenti improbabili, o peggio ancora non vedere la realtà!
Cosa rimarrà quindi al 99,9% delle aziende? Solo le briciole della GenAI, che resterà in mano a uno o due player?
In realtà non la vedo così. Anzi, l’arena degli LLM è comunque molto più affollata di quella di tanti altri settori cruciali: basti pensare ai sistemi operativi per PC o a quelli per dispositivi mobili.
Penso piuttosto che la GenAI sia destinata a diventare uno strato abilitante per tutta una serie di servizi, come è stato Internet. O forse, come ha detto Andrew Ng qualche anno fa, come l’elettricità.
C’è tantissimo da costruire sul lavoro di giganti come Meta, che naturalmente non sono diventati magicamente delle no-profit, ma hanno obiettivi più ampi. E penso che mentre una manciata di aziende giocherà il campionato dei creatori di GenerativeAI, per tutte le altre si deve ancora aprire sul serio quello degli utilizzatori e customizzatori di GenerativeAI.
Ci sarà l’occasione di approfondire questo secondo tema… ma per ora: occhio a giocare la partita giusta!
Ovviamente sono conti approssimativi. Ci sarà una scontistica di qualche natura sulle GPU, e il listino effettivo non lo sapremo mai… ma ho anche “abbuonato” il costo di tutto il resto dell’infrastruttura, quindi probabilmente la mia è una grossolana sottostima.
La capitalizzazione di NVidia è vicia ai 2000 miliardi di $, non 2.
1.99 Trilion $
Può essere un errore di visualizzazione della pagina in Italiano?
Sintesi magistrale di un contesto molto articolato e pieno di sfaccettature! Bella ricostruzione e analisi! 👏🏻