INTELLIGENZA ARTIFICIALE
Paolo Cervini, Chiara Farronato, Pushmeet Kohli, Marshall W. Van Alstyne
Gennaio 2025
seb_ra/Getty Image
L’Intelligenza Artificiale ha conosciuto uno sviluppo straordinario, catturando l’attenzione di ricercatori, team di prodotto e utenti finali con il suo potenziale trasformativo. Nonostante la sua recente popolarità, però, l’IA ha successo solo nel risolvere problemi con caratteristiche molto specifiche. In questo articolo, offriamo una guida per aiutare le organizzazioni a identificare i problemi giusti da affrontare con l’IA, a trovare soluzioni quando il contesto non si allinea perfettamente con ciò che l’IA è più adatta a risolvere e, dopo che i potenziali progetti hanno superato questi ostacoli, a scegliere quali possono offrire i maggiori benefici per il business o per la società in generale.
In questo articolo ci basiamo sull’esperienza di Google DeepMind, il laboratorio di IA di Alphabet impegnato nella risoluzione di problemi complessi. La sua posizione unica permette di sviluppare applicazioni di IA con benefici che vanno oltre l’organizzazione madre, estendendosi all’intera società.
Noi (Cervini, Farronato e Van Alstyne) attingiamo dalla nostra ricerca accademica sulla crescita delle piattaforme tecnologiche e dall’esperienza pratica con l’innovazione dell’IA in vari settori – dal computing alla biotecnologia – per identificare le caratteristiche chiave delle migliori pratiche. Abbiamo collaborato con Pushmeet Kohli di Google DeepMind, che ha esperienza diretta con i progetti discussi in questo articolo.
Quello che segue non vuole essere un elenco completo di tutti i criteri, in quanto questi possono variare tra le applicazioni, ma piuttosto uno sforzo per evidenziare quelli più rilevanti.
L’IA può risolvere questo problema?
La capacità dell’IA di risolvere problemi complessi dipende da diversi fattori, che possono sia migliorare che ostacolare la sua efficacia. Tra le considerazioni più critiche ci sono la disponibilità di dati di alta qualità, l’ambito delle possibili soluzioni al problema, la chiarezza dell’obiettivo che si vuole raggiungere e la necessità di adattarsi a sistemi in continua evoluzione. Quando questi elementi sono mancanti o mal definiti, presentano sfide che richiedono approcci innovativi per essere superate.
I. Pochi dati di qualità
La qualità dei dati è fondamentale per ogni modello di IA, anche se spesso si tende a dare più importanza alla loro quantità. Sebbene i recenti modelli linguistici di grandi dimensioni (LLM) sembrino beneficiare di quantità crescenti di dati, l’efficacia di questo approccio è ancora oggetto di dibattito. Ciò che è stato dimostrato è che i dati di alta qualità sono ugualmente, se non addirittura più importanti, delle vaste quantità di dati.
Partendo da un dataset relativamente piccolo ma di altissima qualità, è possibile espandere la base dati generando dati sintetici in modo controllato. Questa era la situazione che il team che lavorava su AlphaFold ha inizialmente affrontato. AlphaFold è la tecnologia rivoluzionaria di Google DeepMind che può prevedere accuratamente le forme 3D delle strutture proteiche e sta accelerando la ricerca in quasi ogni aspetto della biologia.
Durante la fase iniziale di sviluppo di AlphaFold nel 2017, il team aveva a disposizione soltanto circa 150.000 strutture proteiche 3D come datapoint. Quelle strutture erano state identificate sperimentalmente nel corso di diversi decenni attraverso tecniche costose e dispendiose in termini di tempo (ci vuole circa un dottorato di ricerca per esplorare empiricamente una singola struttura proteica), come la cristallografia a raggi X o la microscopia crioelettronica. Si trattava quindi di un dataset minuscolo per i sistemi di machine learning.
Per ampliare il dataset iniziale, il team ha sviluppato un approccio innovativo. Ha creato una proto-versione di AlphaFold capace di prevedere la struttura di proteine sconosciute, generando così un milione di nuove strutture proteiche. Dopo aver valutato l’accuratezza di queste previsioni, ha selezionato il 30% più affidabile e lo ha aggiunto ai dati originali. Questo ha portato il dataset a circa mezzo milione di proteine, sufficienti per addestrare la versione definitiva di AlphaFold. Da notare che questo approccio, pur efficace nel caso delle proteine, richiede estrema cautela: l’uso di dati sintetici può portare a un circolo vizioso dove gli errori si amplificano nelle successive iterazioni del modello.
Inversamente, se si parte con un dataset molto grande ma di bassa qualità, aumentarne sinteticamente la qualità sarebbe molto difficile. I dataset estratti da internet – che possono includere tutti i tipi di informazioni, formati, lingue, argomenti e modalità – sono un esempio di un dataset grande ma di bassa qualità per molte applicazioni. Nella maggior parte dei casi non varrebbe la pena provare a migliorarne la qualità, poiché lo sforzo e il tempo richiesti per farlo sarebbero immensi. E spesso potrebbe non esserci nemmeno una “risposta corretta”; per esempio, nel decidere quale ricetta di cucina è migliore per creare la pizza perfetta, la risposta più probabile è che “dipende“. Questa sfumatura e necessità di contesto rendono il linguaggio e la conoscenza umana generale molto più difficili da strutturare oggettivamente per creare un dataset di alta qualità.
II. Troppe soluzioni potenziali
Quando un problema ha troppe possibili soluzioni, risolverlo attraverso metodi di forza bruta – testando esaustivamente tutte le combinazioni – diventa impraticabile. Storicamente, tali problemi sono stati affrontati usando un approccio “euristico”: le euristiche sono regole semplici progettate per fornire soluzioni che sono ”abbastanza buone” per la maggior parte degli scenari, anche se raramente ottimali.
L’IA rappresenta uno strumento promettente per affrontare problemi con molteplici soluzioni possibili, anche se la verifica della loro qualità diventa più complessa man mano che le alternative aumentano. Per esempio, i modelli linguistici di grandi dimensioni (LLM) eccellono nel generare output creativi e diversificati, ma affrontano anche il problema critico di “allucinare“ informazioni non corrette. Questo diminuisce la fiducia nella loro affidabilità. Di conseguenza, sviluppare metodi per garantire che gli LLM producano soluzioni corrette è diventato un focus chiave nel far avanzare le loro capacità. Un test utile è se l’LLM può sviluppare nuove euristiche che funzionano meglio di quelle note.
In un caso, i ricercatori di Google DeepMind hanno sviluppato un nuovo metodo chiamato Function Search (FunSearch) che usa gli LLM per trovare soluzioni innovative a problemi di matematica e informatica. L’innovazione chiave sta nel combinare un LLM con un valutatore automatico. Un LLM genera soluzioni creative (alcune delle quali possono costituire “allucinazioni“), mentre il valutatore controlla le soluzioni per accuratezza e fattibilità. Questo processo iterativo aiuta a raffinare le idee iniziali in soluzioni praticabili.
FunSearch ha già portato a importanti risultati sia teorici che pratici: da un lato ha permesso di risolvere il problema del ‘cap set’, un classico puzzle matematico sui pattern in griglie speciali; dall’altro ha migliorato gli algoritmi di ‘bin packing’, ottimizzando la gestione dello spazio nei contenitori. Questi algoritmi trovano soluzioni per impacchettare efficientemente oggetti di diverse dimensioni in un numero limitato di contenitori di capacità fissa, e hanno applicazioni pratiche come l’ottimizzazione della spedizione dei container, la pianificazione dei lavori e l’allocazione delle risorse dei centri dati. In tali casi, FunSearch alterna iterativamente tra LLM e valutatore: il LLM propone una potenziale soluzione per allocare gli oggetti nei contenitori, mentre il valutatore verifica che la soluzione non usi più della capacità disponibile e migliori rispetto ad altre alternative disponibili.
III. Mancanza di un obiettivo chiaro e misurabile
La definizione dell’obiettivo – ciò che vogliamo che il modello di IA realizzi – è uno degli aspetti più complessi nello sviluppo di un sistema di machine learning. È fondamentale ‘porre la domanda giusta’ al sistema.
Prendiamo i giochi, come Chess or Go. I giochi hanno un obiettivo chiaro e misurabile, come un punteggio o un set di regole per determinare il vincitore, e le iterazioni a costo zero fanno imparare velocemente l’IA. Ma nel mondo reale, che è spesso complesso e disordinato, non c’è una metrica semplice che possiamo usare per misurare i progressi. Senza un obiettivo chiaro e misurabile, può essere difficile definire cosa è “buono“ per il modello. Più ambiguo è l’obiettivo, peggiore sarà la performance del modello stesso.
Tornando all’esempio di AlphaFold, i ripiegamenti proteici in biologia hanno obiettivi chiari e misurabili. L’obiettivo per AlphaFold era minimizzare la differenza tra la struttura proteica 3D determinata sperimentalmente e la previsione computazionale 3D. Un ottimo modo per misurare il successo era la competizione biennale Critical Assessment of Structure Prediction (CASP). Questo evento è simile alle Olimpiadi per il ripiegamento proteico perché riunisce i migliori team da tutto il mondo per confrontare i metodi computazionali per prevedere le strutture proteiche. Partecipare a questa competizione ha permesso al team di ricerca di ottenere un “punteggio“ oggettivo delle prestazioni del modello in termini assoluti e relativi rispetto ai team concorrenti.
Definire l’obiettivo giusto per i sistemi di IA può essere impegnativo, specialmente in contesti come i social media dove metriche come il coinvolgimento sono spesso usate come proxy per il successo. L’ottimizzazione del coinvolgimento degli utenti (like, condivisioni, commenti e tempo sulla piattaforma) può aumentare l’attività e i ricavi, ma rischia anche di produrre effetti negativi. Per esempio, può amplificare contenuti polarizzanti o sensazionalistici, diffondere disinformazione, incoraggiare comportamenti di dipendenza o disallinearsi con il benessere a lungo termine degli utenti.
Queste insidie evidenziano l’importanza di progettare framework di ottimizzazione multi-obiettivo che bilancino il coinvolgimento con altre metriche critiche, come l’accuratezza dei contenuti, la diversità dei punti di vista e la soddisfazione degli utenti. Incorporare feedback umano, guardrail etici e criteri di valutazione più ampi oltre le semplici metriche di coinvolgimento può aiutare a garantire che i sistemi di IA raggiungano risultati significativi e sostenibili evitando danni.
IV. Quando il “buono“ non può essere codificato
Le organizzazioni affrontano problemi in continua evoluzione. Questa dinamicità, unita alla difficoltà di valutare l’efficacia delle soluzioni proposte, può portare l’IA a generare risposte sempre più distanti da quelle ottimali. Una tecnica per superare questa sfida è l’apprendimento per rinforzo con feedback umano (RLHF). Questa tecnica con l’umano nel loop permette al modello di imparare e incorporare intuizioni umane che vanno al di là dei dati. RLHF è particolarmente utile in situazioni dove è difficile codificare una soluzione chiara e algoritmica ma dove gli umani possono intuitivamente giudicare la qualità dell’output del modello.
La recente collaborazione di Google DeepMind con il team di YouTube Shorts è un buon esempio di come il feedback continuo e iterativo con RLHF aiuti a migliorare il risultato. La sfida chiave su Shorts è la reperibilità dei video. Per loro natura, gli shorts sono tipicamente prodotti velocemente, e i creatori spesso aggiungono solo informazioni minime al titolo o alla descrizione del video. Questo può rendere difficile per gli spettatori trovare gli shorts che stanno cercando.
Generare descrizioni video accurate era un problema perfetto per l’IA generativa: ogni video è unico a suo modo, e le descrizioni generiche generate via euristiche potevano essere usate solo per categorizzare i video (es. un video sportivo o un video di giardinaggio) ma erano insufficienti per consentire la reperibilità su base individuale. Per questo, descrizioni dettagliate personalizzate per ogni specifico video sono il prerequisito affinché gli spettatori trovino ciò che vogliono.
Mentre gli umani riconoscono istintivamente una ‘buona’ descrizione video, per i computer questa valutazione è sempre stata problematica. L’introduzione del feedback umano ha permesso al modello di apprendere gradualmente i criteri di qualità attraverso l’esperienza.
Google DeepMind e il team di prodotto di YouTube hanno lavorato insieme per implementare un modello di IA generativa in grado di generare descrizioni testuali di ogni video, che vengono successivamente memorizzate nei sistemi di YouTube per fornire migliori risultati di ricerca agli utenti. Questa soluzione è ora attiva per tutti i nuovi Shorts caricati su YouTube.
Quali opportunità dovremmo quindi perseguire?
Le aziende possono utilizzare i criteri delineati sopra per aiutarle a identificare problemi da affrontare con l’IA. La sfida successiva diventa quella di scegliere tra le vaste opportunità di applicazione che soddisfano questi criteri. Dare priorità alle implementazioni di IA basate sull’impatto e l’ampiezza della soluzione si è rivelato utile non solo per Google ma anche per la società in generale.
Il team di Google DeepMind utilizza un approccio cosiddetto “root-node problem“. Possiamo immaginare la conoscenza mondiale come un grande albero: il nodo radice rappresenta il punto di partenza da cui si diramano tutti gli altri campi del sapere, ognuno collegato agli altri attraverso punti di connessione (nodi). Se risolvi un problema del nodo radice, si ramificano aree completamente nuove di studio e comprensione, che poi aprono nuove strade di esplorazione e applicazioni non ancora scoperte.
Il progetto AlphaFold si adatta bene a questo approccio, poiché la soluzione della grande sfida del ripiegamento proteico può non solo sbloccare progressi nella scoperta di farmaci migliori, come vaccini contro la malaria e trattamenti contro il cancro, ma anche facilitare sviluppi in altri campi, come lo sviluppo di enzimi mangia-plastica per affrontare l’inquinamento. Dopo la pubblicazione di AlphaFold, Andrei Lupas, un biologo evolutivo del Max Planck Institute for Developmental Biology, ha scritto su Nature “Questo cambierà la medicina. Cambierà la ricerca. Cambierà la bioingegneria. Cambierà tutto.“ Nel 2024, il Comitato del Premio Nobel ha riconosciuto l’immenso contributo assegnando il Premio Nobel per la Chimica a Demis Hassabis e John Jumper per il loro sviluppo di AlphaFold.
L’identificazione dei problemi ‘root node’ richiede un dialogo costante tra esperti di IA e di altri settori. Google DeepMind ha adottato questo approccio fin dall’inizio, costruendo un team multidisciplinare che spazia dalla biochimica alla filosofia. Inoltre, promuove lo scambio di idee non solo internamente, ma anche con altri team di ricerca di Google, di Alphabet e dell’intera comunità scientifica. Infine, organizza eventi dove i team possono presentare il proprio lavoro e confrontarsi sulle sfide comuni, favorendo lo scambio di idee e stimolando nuove collaborazioni. Supporta e partecipa anche a eventi esterni come conferenze di ricerca e lezioni universitarie.
Iterare per innovare
Una volta che un’organizzazione ha identificato i problemi del “nodo radice”, i team di prodotto selezionano strategicamente quali applicazioni di IA perseguire e poi intraprendono un viaggio verso la prodottizzazione.
Nel fare questo, occorre evitare due rischi. Il primo è quello di limitarsi ai problemi “root node“ che hanno già un chiaro percorso di sviluppo all’interno dell’azienda. Come dimostra il caso AlphaFold, questo approccio può far perdere opportunità significative. Quando è stato rilasciato per la prima volta nel 2020, AlphaFold non aveva alcun team di prodotto all’interno di Google in grado di utilizzare efficacemente il suo output di ricerca come nuovi composti farmaceutici. In risposta, Alphabet ha creato una unità organizzativa “Scommessa“, chiamata Isomorphic Labs, il cui focus esclusivo era l’uso dell’IA per la scoperta di farmaci. Nuovi progetti di prodotto potrebbero essere interamente di proprietà o sviluppati con partnership strategiche.
Il secondo rischio è assumere che possiamo prevedere come una tecnologia si evolverà e prevedere i casi d’uso. Piuttosto che seguire un percorso predeterminato e deterministico, le aziende che utilizzano l’IA dovrebbero abilitare l’opzionalità. Dovrebbero abbracciare l’incertezza e permettere alle soluzioni di IA di evolversi continuamente e rispondere al progresso tecnologico e alle applicazioni degli utenti, assicurandosi di raccogliere feedback lungo il percorso.
Ithaca è un buon esempio. Ithaca è uno strumento di IA che Google DeepMind ha sviluppato per restaurare e comprendere antichi testi greci spesso incompleti. Inizialmente il team lo aveva sviluppato pensando agli epigrafisti, archeologi e storici come principali utenti. Un paio di mesi dopo il lancio di Ithaca, tuttavia, il team di Google DeepMind ha scoperto un sorprendente caso d’uso educativo: gli insegnanti stavano usando Ithaca per progettare un curriculum completamente nuovo per colmare il divario tra due campi di studio disparati, gli studi classici e l’informatica. Questo nuovo curriculum insegna agli studenti come mettere in pratica gli strumenti di IA e mostra loro quale sia l’impatto nella vita reale di tali tecnologie.
Un percorso equilibrato
Mentre l’IA continua a evolversi, è cruciale per le organizzazioni affrontare la sua implementazione in modo ponderato. I criteri delineati in questo articolo offrono un framework strategico per identificare i problemi “giusti” da affrontare con l’IA – problemi che si allineano con i punti di forza dell’IA e che, se risolti, possono aprire sorprendenti nuovi percorsi per l’innovazione e l’impatto. Inoltre, concentrandosi sulla logica dei “root node problems” e promuovendo collaborazioni interdisciplinari, le organizzazioni possono sfruttare efficacemente il pieno potenziale dell’IA per guidare non solo la crescita aziendale, ma anche il progresso della società.
Paolo Cervini è consulente strategico specializzato in Intelligenza Artificiale, sostenibilità e innovazione aziendale. È stato inserito nel Thinkers50 Radar Class del 2023. In precedenza, è stato Content Coordinator presso HBR Italia. Chiara Farronato è professoressa associata di Business Administration presso la Harvard Business School, dove ricopre la cattedra Glenn and Mary Jane Creamer. È co-investigatrice principale presso il Platform Lab dell’Istituto di Digital Design di Harvard (D^3). È inoltre ricercatrice presso il National Bureau of Economic Research e il Center for Economic Policy Research. Pushmeet Kohli è vicepresidente del settore scientifico e degli sforzi strategici presso Google DeepMind, dove guida i progetti di ricerca sull’IA per la scienza, tra cui AlphaFold, un sistema di IA rivoluzionario per la previsione delle strutture 3D delle proteine, e SynthID, un metodo all’avanguardia per il watermarking e il rilevamento di contenuti generati dall’IA. Marshall W. Van Alstyne è professore presso la Boston University, dove detiene la cattedra Allen & Kelli Questrom. È anche ricercatore digitale presso l’Iniziativa MIT sull’Economia Digitale e visiting scholar presso l’Harvard Berkman-Klein Center.