INTELLIGENZA ARTIFICIALE
Avendone provato le fenomenali capacità, i suoi creatori punteranno sempre più sul consolidare la tecnologia per risolvere alcune limitazioni e sfide che oggi la caratterizzano
Eugenio Zuccarelli
Settembre 2024
COME UNO TSUNAMI, la cui forza inesorabile colpisce tutto ciò che sta nel suo cammino, così l’intelligenza artificiale (IA) ha pervaso, in poco tempo, quasi ogni aspetto della nostra vita, diventando il tema ricorrente delle news, dei meeting aziendali e della nostra vita quotidiana. Solo chi riesce a cavalcare l’onda può svettare sopra tutti gli altri, finendo per aggiungere un nuovo, estremamente potente, strumento al proprio arsenale. Con tutto il frastuono che si sta facendo, però, è difficile comprendere quali saranno i prossimi passi della tecnologia. Dove andremo nei prossimi mesi e anni?
1. Un bivio tra oligarchia e democrazia
La spropositata dimensione di questi modelli, che possono arrivare ad avere mille miliardi di parametri come nel caso di GPT-4, sta ormai diventando evidente. E con ciò anche le loro limitazioni. L’enorme “fame” di questi algoritmi in fatto di capacità di calcolo li rende sempre più difficili da implementare e un’esclusiva delle aziende che se lo possono permettere. OpenAI, l’unicorno che con ChatGPT ha portato l’IA nella nostra vita quotidiana, ha recentemente ricevuto un giro di finanziamenti da oltre dieci miliardi di dollari da Microsoft. Di questi, però, solo una parte è stata depositata nei conti della start-up di Sam Altman. Un’altra, infatti, è in forma di crediti verso Azure, l’infrastruttura cloud di Microsoft che OpenAI potrà utilizzare per allenare i propri modelli. E, d’altronde, non si fa fatica a capire per quale motivo Altman e Nadella sono arrivati a questo accordo, considerando che il costo di allenare GPT-4 supera i 100 milioni di dollari. Una cifra senza precedenti.
Con la complessità di questi modelli che aumenta ogni anno, a loro volta aumentano anche i costi. Allenare GPT-3, per esempio, costerebbe circa 4,6 milioni di dollari. Una cifra molto elevata ma di gran lunga inferiore a quella del suo successore, GPT-4. E le limitazioni non riguardano solamente i costi. Allenare questi modelli richiede tempo e capacità computazionali, ovvero chip, e questi algoritmi richiedono così tanti chip da aver peggiorato la già scarsa disponibilità di microprocessori, comportando una crisi a livello globale. In questa corsa all’oro, le aziende che forniscono i “picconi” sono uscite vittoriose. NVIDIA, prima tra tutte, ha aumentato il fatturato del 265% rispetto all’anno prima grazie alla domanda senza precedenti delle sue GPU (Graphics Processing Unit), chip specializzati per il rendering di immagini ma utilizzate largamente anche per l’allenamento di IA.
Infine, questa enorme serie di calcoli, per riuscire a sviluppare un algoritmo del calibro di GPT-4, porta a un dispendio energetico senza pari. Questo ha un impatto sull’ambiente, ma anche sulle finanze delle aziende che devono considerare una richiesta di elettricità estremamente elevata.
Tutto ciò sta portando l’IA a un bivio. Senza cambiamenti di rotta, gli unici a poter allenare modelli di IA competitivi, quelli che in gergo si chiamano modelli “state-of-the-art", saranno le grandi, anzi grandissime aziende. Solo Google, Meta, Amazon, Microsoft e una manciata di altre aziende avranno le risorse e le finanze per poter creare modelli di questo genere. E, d’altronde, questo spiega anche la disponibilità di aziende come OpenAI, Anthropic e varie altre a ricevere investimenti dalle aziende Big Tech. Solo aziende dal valore dai 100 miliardi in su potranno permettersi di investire 100 milioni o più per creare il prossimo GPT-5 e i successivi.
Tuttavia, c’è speranza per l’altra strada che si prospetta. Molte aziende, soprattutto alcuni istituti di ricerca, stanno sperimentando quelli che potremmo chiamare “Small Language Model”, ovvero modelli molto più piccoli degli LLM. Questi modelli, che richiedono capacità di calcolo significativamente inferiori, potrebbero fornire una speranza anche alle aziende, e agli istituti di ricerca, che non si possono permettere 100 milioni di dollari per impostare i parametri di un algoritmo, cioè la stragrande maggioranza di piccole e medie imprese italiane. C’è da chiedersi, tuttavia, se le grandi aziende, che potrebbero sviluppare un monopolio tramite i Large Language Model hanno un incentivo a permettere la competizione da parte di più partecipanti. L’intervento di istituzioni esterne alle aziende, come gli istituti di ricerca o i Governi stessi, hanno il potere di permettere o impedire una democratizzazione dell’IA. E in questo stanno le possibilità di regolamenti come l’AI Act.
2. Robotica generativa
Potendo conversare con ChatGPT e simili in modi che, a volte, spaventano per la loro somiglianza con interazioni tra umani, non ci si può non chiedere quando queste interazioni diventeranno ancora più umane, interagendo con una versione fisica di questi algoritmi. D’altronde, come GenIA ha rivoluzionato il mondo del puro software, perché non aspettarsi che questa “magia” possa anche finire per rivoluzionare il mondo dell’hardware? Con gli LLM che ormai riescono a processare testo e immagini con facilità, i ricercatori si stanno spostando a incorporare nuovi input in questi sistemi. Aziende come OpenAI, Google e vari istituti di ricerca stanno, infatti, portando gli algoritmi di GenIA ad avvicinarsi sempre di più all’approccio usato dagli esseri umani per interagire con il mondo che ci circonda: i cinque sensi.
Andando verso quello che, in gergo, si chiama multimodalità, i ricercatori stanno cercando di fornire vari input agli algoritmi, dalle immagini al testo all’audio e molto più, per potergli fornire una visione di insieme. Fornendo una moltitudine di input di vari formati, si sta cercando di rendere i modelli più accurati, ma anche più in linea con l’approccio usato dalla gran parte degli animali. E questo focus sui vari sensi sta aprendo nuovi orizzonti. I nuovi modelli, infatti, capaci di processare vari input, possono migliorare le proprie capacità e fornire “insight” che considerano la situazione tramite una visione olistica, d’insieme.
Pensiamo, per esempio, all’ambito medico. Quando un radiologo studia il caso di un paziente, si basa su una moltitudine di input. Guarda, ovviamente, le radiografie, magari diverse e prese in vari anni, ma si affida anche alle note mediche di altri esperti che hanno visitato il paziente in aggiunta ad ascoltare il paziente direttamente tramite una conversazione. Se un algoritmo, come succede in vari casi, dovesse utilizzare solamente le immagini o solamente le note testuali avrebbe, in molti casi, buone chance di “azzeccarci”, ma non riuscirebbe, sicuramente, a fornire una visione d’insieme come quella che potrebbe essere fornita da un dottore. Un algoritmo come Gemini, sviluppato da Google, che è stato creato da zero con la multimodalità in mente, riuscirebbe, invece, ad emulare queste capacità umane, o almeno ad avvicinarsi, processando vari tipi di input per fornire un singolo "insight" per il paziente.
Questa nuova direzione del settore dell’IA sta portando a una rivoluzione anche nel campo della robotica. Se prima questa si focalizzava sulla creazione di vari modelli software, ognuno per il controllo di una specifica funzione, l’industria si sta ora spostando verso l’utilizzo di un singolo algoritmo capace di compiere varie azioni con performance eccelse. Possiamo immaginare come questi algoritmi multimodali sono, almeno in teoria, delle migliori soluzioni per la robotica. Se un robot, infatti, va ad assomigliare in forma, aspetto, e capacità a un umano, non dovrebbe riuscire a elaborare input sensoriali diversi, come fatto da tutti noi?
Il problema finora era stato la mancanza di dati per poter allenare questi algoritmi. Recentemente, però, vari istituti di ricerca hanno fatto passi da gigante a riguardo. Il team di Lerrel Pinto della New York University, per esempio, sta sviluppando tecniche che permettono ai robot di apprendere tramite tentativi ed errori, creando i propri stessi dati man mano che proseguono nel compito. Questi nuovi approcci sono, in parte, possibili proprio grazie alle capacità rivoluzionarie di GenIA.
3. Interpretabilità
Gli algoritmi di IA, in particolare quelli di GenIA, sono, di solito, estremamente accurati. Tuttavia, queste performance vanno spesso a discapito dell’interpretabilità del modello. Tutti gli “addetti ai lavori” sanno che più il modello è complesso e accurato, meno sarà interpretabile e viceversa. Questo è anche uno dei motivi per cui in ambiti ad alto rischio, come il settore sanitario, si tendono a prediligere modelli più semplici ma interpretabili. Algoritmi che si possono “aprire e guardarci dentro”, come si può fare con il cofano di una macchina per capire cosa sta andando storto. Con i Large Language Model questo compromesso è portato agli estremi. I modelli sono non solo estremamente complessi, ma anche aleatori nella maggioranza dei casi. Proviamo a rivolgere la stessa domanda a ChatGPT varie volte. Riceveremo, probabilmente, una risposta diversa ogni volta. E non parliamo nemmeno delle allucinazioni in cui spesso questi algoritmi incorrono. I ricercatori, e le aziende, andranno sempre di più nella direzione di sviluppare capacità che permettono a questi algoritmi di poter spiegare il proprio ragionamento.
Uno degli approcci che stanno emergendo, e verranno esplorati sempre di più nei prossimi mesi, è il concetto di Chain-of-Thought Reasoning (CoT Reasoning), ovvero di ragionamento “passo dopo passo”. È un approccio che tutti noi usiamo. Per esempio, quando vogliamo spiegare un concetto complesso al nostro interlocutore non gli diamo semplicemente la risposta, ma andiamo a spiegare ogni passaggio chiarendo come A porta a B, che causa C, e così via. In modo simile, tramite CoT Reasoning, gli LLM spiegano ogni step che li ha portati a uno specifico risultato, chiarendo ogni passo come se stessero risolvendo un problema di matematica a scuola. In questo modo, l’algoritmo può spiegare, per esempio, per quale motivo suggerisce una specifica diagnosi al medico. Così facendo, il dottore può rivedere, eventualmente, il suo ragionamento nell’algoritmo, acquisendo fiducia nell’IA e finendo con l’utilizzarla sempre di più. Inoltre, il medico potrebbe fornire feedback all’algoritmo, spiegandogli dove ha sbagliato, continuando a migliorarne le performance.
Ormai, avendo provato le fenomenali capacità dell’IA, il settore dell’intelligenza artificiale si focalizzerà sempre di più sul consolidare queste nuove tecnologie, venendo a capo di alcune delle limitazioni e sfide di questo nuovo strumento. D’altronde, solo riuscendo a rendere la tecnologia ancora più matura, sicura e affidabile se ne potrà garantire l’introduzione in ogni aspetto della nostra vita quotidiana, come fatto con il software, minimizzandone i rischi e portando a una nuova, migliorata, società.
Eugenio Zuccarelli è un Data Science Leader basato a New York, dove guida un team di Data Scientist in CVS Health, l’azienda numero uno al mondo nell’ambito della salute e una Fortune 500. Eugenio è stato inserito nella classifica Forbes 30 Under 30, è stato TEDx Speaker e ha studiato tra MIT, Harvard e Imperial College. Il suo lavoro ha ottenuto vari riconoscimenti, tra cui il premio John McCarthy.