TECNOLOGIA & ANALYTICS
Stefan Thomke, Philipp Eisenhauer, Puneet Sahni
Novembre 2025
Nonostante tutto l’entusiasmo che circonda l’IA generativa, c’è un ostacolo che ne limita l’adozione:
la tendenza di questa tecnologia a inventare cose, tralasciare dettagli e indicare così tante possibilità che è difficile capire quali saranno efficaci. Per questo motivo, la stragrande maggioranza delle aziende ricorre ora a revisioni umane e strumenti o servizi di test autonomi per ovviare alle carenze dell’IA generativa. Tuttavia, entrambi questi metodi di controllo della qualità sono costosi e possono gestire solo una parte minima della produzione totale dell’IA generativa.
Amazon ha sviluppato un approccio più appropriato per la sua enorme attività di catalogazione dei prodotti: un sistema basato sull’IA generativa chiamato Catalog AI, che rileva e blocca i dati inaffidabili, produce idee per nuove pagine di prodotti e ne verifica l’efficacia migliorandosi automaticamente grazie al feedback dei controlli di qualità e degli esperimenti. È in grado di creare e testare decine di milioni di ipotesi all’anno, contro le migliaia che possono elaborare la maggior parte dei sistemi basati sull’intervento umano.
Sebbene molte organizzazioni stiano lottando per ottenere un ritorno finanziario dai propri investimenti nell’IA, il progetto Catalog AI di Amazon sta già creando un valore misurabile. Al momento della stesura di questo articolo, l’8% dei suoi suggerimenti ha avuto un impatto positivo sul fatturato. Uno di noi (Stefan) conosce altre aziende i cui esperimenti online hanno avuto tassi di successo più elevati (dal 10% al 20%). Tuttavia, tali aziende si affidavano alle persone per generare ipotesi e i loro sistemi di verifica non erano affatto automatizzati, il che significa che generavano e testavano molte meno ipotesi rispetto ad Amazon. Inoltre, la capacità del sistema Amazon di migliorare automaticamente garantisce che il suo tasso di rendimento aumenterà nel tempo. Sebbene Amazon consideri tuttora il sistema, lanciato nel 2023, un lavoro in corso, riteniamo che sia sufficientemente avanzato da consentire ai manager di altre organizzazioni di trarre vantaggio dal conoscere le modalità con cui Amazon esegue il controllo di qualità sui contenuti generati dall’IA su larga scala.
Le carenze dell’approccio tradizionale
Il catalogo online di Amazon contiene centinaia di milioni di prodotti venduti a clienti in tutto il mondo. Ogni giorno vengono aggiunte e modificate milioni di schede prodotto. I dati (immagini, titoli, descrizioni e consigli) devono essere completi, accurati e accattivanti, in modo che gli acquirenti possano trovare rapidamente i prodotti che cercano. Inoltre, gli acquirenti abituali si aspettano di trovare un layout familiare con immagini, titoli dei prodotti, descrizioni e pulsanti di acquisto facili da trovare e veloci da caricare. La posta in gioco è alta: quando le informazioni sui prodotti sono incomplete, irrilevanti o semplicemente errate, i clienti non completano le transazioni o restituiscono i prodotti che non soddisfano le loro aspettative. In entrambi i casi, Amazon perde denaro e la fiducia dei clienti.
Per garantire la qualità dei dati, Amazon ha tradizionalmente attinto all’esperienza di migliaia di dipendenti specializzati nella gestione delle schede dei prodotti. Ha anche utilizzato centinaia di modelli di machine learning (ML), ciascuno ottimizzato per una categoria di prodotti (come camicie o televisori) e un componente del layout (come i titoli o le descrizioni dei prodotti). Gli specialisti lavoravano con i modelli per aggiungere o sottrarre informazioni, identificare inesattezze, consolidare le informazioni, tradurre il testo in diverse lingue e incorporare dati provenienti da fonti terze. Questi modelli di ML tradizionali hanno dei limiti: sono ideali per set di dati più piccoli e strutturati e il loro adattamento a diverse categorie di prodotti è costoso. Un modello ML addestrato, ad esempio, sulle camicie non può essere utilizzato in modo economicamente vantaggioso per i televisori o qualsiasi altro prodotto che non sia una camicia. Al contrario, i modelli linguistici di grandi dimensioni (LLM) sono addestrati su grandi set di dati e funzionano su diverse categorie di prodotti. Sostituendo i modelli ML con gli LLM, Amazon ha semplificato la propria infrastruttura tecnologica (meno modelli) e la propria organizzazione (meno specialisti funzionali) e ha ridotto i costi.
Garantire l’affidabilità del nuovo approccio
Nelle prime settimane dopo il lancio di Catalog AI, circa l’80% dei risultati era inaffidabile. Il sistema inventava informazioni, ometteva dati o forniva consigli che non interessavano ai clienti. Ad esempio, indicava che una pompa elettrica aveva una potenza di 15 cavalli quando tale informazione non era disponibile. Allo stesso modo, quando veniva chiesto il materiale di un divano, il modello forniva informazioni sul materiale utilizzato per la struttura invece che per le sedute, che era ciò che interessava alla maggior parte dei clienti. Per rimediare a tali problemi di qualità e testare l’efficacia delle possibili modifiche, Amazon ha adottato le seguenti quattro misure.
1. Effettuare un audit
Per monitorare i progressi, un’organizzazione deve conoscere le prestazioni di base del proprio sistema. Nella produzione, ciò si ottiene valutando un processo durante un periodo stabile e utilizzando tali informazioni per determinare i limiti di controllo. Amazon ha chiesto al LLM di generare migliaia di pagine su prodotti già noti. Gli auditor umani hanno quindi confrontato le pagine del LLM con le informazioni note, ne hanno valutato l’affidabilità e hanno analizzato le cause alla base di eventuali prestazioni scadenti. Ciò ha portato a una serie di rapidi miglioramenti, che descriveremo di seguito.
2. Implementare guardrail
Un’allucinazione, ovvero un output falso o inaccurato presentato come se fosse vero, si verifica in genere quando un modello giunge a una conclusione che non si basa sui dati di input. Un modo per migliorare l’affidabilità ed evitare le allucinazioni è limitare il LLM in modo che produca output derivati solo da dati specifici dell’azienda, non da informazioni generali presenti sul web o da fonti di dati non correlate all’azienda. Ma c’è un trade-off: maggiore è la libertà del Large Language Model di accedere ai dati esterni e interni, maggiori sono le nuove idee che il sistema può esplorare, modificare e testare. Ad esempio, attingendo alle informazioni ottenute dal web, il LLM potrebbe suggerire che i piatti di carta non sono lavabili in lavastoviglie. Imporre troppi vincoli agli input di un LLM riduce la sua capacità di fare tali inferenze. Per questo motivo, invece di limitare gli input del proprio LLM, Amazon ha deciso di installare altri tre tipi di vincoli.
Regole semplici. Un approccio per garantire l’affidabilità consiste nell’istruire il sistema a rifiutare i contenuti che non rispettano le regole. Una regola potrebbe essere che un numero che descrive il peso dev’essere seguito da unità di misura, ad esempio chilogrammi o libbre. Amazon ha creato una regola secondo cui Catalog AI deve rifiutare i suggerimenti che apportano modifiche irrilevanti alla scheda attuale (ad esempio, cambiare lo stile del prodotto da “contemporaneo” a “moderno”). Regole semplici dettano anche il layout della pagina, in modo che i clienti abbiano un’esperienza coerente in tutto il sito.
Profili statistici. I guardrail funzionano come i limiti di controllo statistico di processo (SPC) nelle fabbriche. Quando le variabili di processo escono da questi limiti, viene attivato un allarme e viene indagata la causa principale del problema. Per creare tali guardrail per i modelli di IA generativa, le aziende possono utilizzare i dati sui prodotti attuali per determinare se l’output rientra in un intervallo previsto. Ad esempio, un LLM potrebbe generare informazioni su un tavolo venduto da un fornitore terzo. Le informazioni sui tavoli tipici venduti nel negozio online di Amazon vengono utilizzate per generare i guardrail. Quando le informazioni sul prodotto create dal LLM escono dai limiti di controllo, il Large Language Model viene interrogato da un altro LLM. In alcuni casi, il primo LLM è in grado di riconoscere i propri errori quando gli viene chiesto di spiegare il motivo delle sue informazioni.
IA che controlla l’IA. Un esempio è quello che abbiamo appena descritto. Tuttavia, non è possibile avere regole o guardrail che coprano ogni possibile output dell’IA. Il secondo sistema di IA generativa è in grado di gestire questi casi. Amazon utilizza un’IA generativa per cercare i problemi prodotti dall’IA generativa. Il primo LLM, il generatore di contenuti, è addestrato a generare ipotesi; il secondo, il revisore dei contenuti, è addestrato a controllare l’output del primo. Sono collegati e interagiscono automaticamente attingendo alle loro diverse conoscenze di base.
Ad esempio, Amazon utilizza un LLM per rilevare incongruenze tra le pagine dei prodotti, ad esempio assicurandosi che il colore nel titolo del prodotto corrisponda al colore dell’immagine. Se viene identificata una discrepanza, le modifiche alle informazioni di un prodotto vengono automaticamente bloccate. Il sistema di IA generativa può ricevere domande dal revisore dei contenuti, ad esempio “Perché la nuova pagina del prodotto è migliore di quella esistente?”. Ciò costringe il generatore di contenuti ad analizzare il risultato e, eventualmente, ad abbandonare il suggerimento precedente. Per aumentare la rigorosità dei controlli di affidabilità, Catalog AI può connettersi a LLM interni ed esterni addestrati su dati diversi. Poiché i LLM sono addestrati su informazioni diverse, individuano problemi diversi. Ad esempio, se il generatore LLM commette un errore di ragionamento e calcola in modo errato il volume del prodotto, il revisore LLM, addestrato su un set di dati diverso, è in grado di rilevare l’errore e bloccarlo.
Dopo che un’ipotesi dell’IA generativa ha superato tutti i controlli di qualità, viene rilasciata su una piattaforma di sperimentazione, dove può essere valutata in termini di efficacia: la modifica proposta aumenterà il fatturato o le unità vendute?
3. Testare l’efficacia
Le aziende devono trovare modi efficienti per valutare quali delle numerose idee prodotte dall’IA generativa sono efficaci. In precedenza, gli specialisti del catalogo di Amazon creavano regole e algoritmi che approvavano, progettavano e miglioravano automaticamente i layout delle pagine che ritenevano più efficaci. Questo approccio presentava diversi limiti: nel creare tali regole e algoritmi, gli specialisti includevano alcune ipotesi non verificate e utilizzavano test che non erano sempre convenienti o automatizzati. Inoltre, le ricerche di mercato tradizionali (ad esempio, focus group e sondaggi) potevano essere fuorvianti perché ciò che i clienti dicevano non sempre corrispondeva a ciò che facevano. Ciò rendeva molto difficile prevedere le preferenze dei clienti. Un dirigente di Booking.com ha detto a uno di noi (Stefan): “Ogni giorno vediamo prove che le persone sono pessime nel fare ipotesi. Le nostre previsioni sul comportamento dei clienti sono sbagliate 9 volte su 10”.
Per capire quali cambiamenti possono soddisfare i clienti, il team di Catalog AI ha integrato i test A/B nel flusso di lavoro del sistema. Testare scientificamente l’elevatissimo volume di output dell’IA generativa richiede un’infrastruttura di sperimentazione: strumentazione (per registrare cose come clic, passaggi del mouse e tempi degli eventi), pipeline di dati e data scientist. Diversi strumenti e servizi di terze parti facilitano la sperimentazione, ma per scalare è necessario integrare strettamente questa funzionalità nel flusso di lavoro aziendale. In Amazon, l’infrastruttura è completamente automatizzata: tutte le modifiche alle pagine dei prodotti proposte da Catalog AI sono sottoposte a test A/B.
Viene eseguito un esperimento controllato che confronta due (o più) possibilità: “A” (il controllo, o campione) è l’elenco di prodotti in essere, mentre “B” (lo sfidante) è una modifica di tali informazioni generata dall’IA per uno scopo specifico, ad esempio migliorare i tassi di conversione dei clienti. Gli utenti vengono assegnati in modo casuale a queste esperienze e vengono calcolate e confrontate metriche composite. Le metriche devono essere in linea con gli obiettivi strategici; le migliori metriche a breve termine prevedono anche i risultati a lungo termine. (Vedi “Il sorprendente potere degli esperimenti online”, HBR, ottobre 2017).
In un recente esperimento che ha coinvolto un prodotto per la cura della pelle, Catalog AI ha generato una descrizione alternativa che si concentrava sui vantaggi chiave; la descrizione del campione, al contrario, conteneva un lungo elenco di caratteristiche e dei relativi vantaggi. Mentre il campione usato si dilungava su elementi di dettaglio, come le caratteristiche che producevano benefici come la pulizia dei pori, il miglioramento della texture della pelle e la riduzione degli arrossamenti, la versione molto più breve proposta dall’IA elencava semplicemente i principali benefici del prodotto: pelle più liscia, idratata e rughe ridotte. La versione più breve ha aumentato significativamente le vendite in un gruppo di clienti selezionati a caso.
Altri esperimenti hanno rivelato che il LLM ometteva alcuni benefici dal nome descrittivo del prodotto. Ad esempio, la rimozione da parte dell’IA delle parole “pelle luminosa” dal titolo del prodotto – cambiato da “Bagnoschiuma al burro di mango per una pelle luminosa, 400 ml (confezione da 4)” in “Bagnoschiuma al burro di mango, 400 ml, confezione da 4” - ha avuto un impatto negativo sulle vendite.
Nel complesso, gli esperimenti hanno dimostrato che circa il 40% dei contenuti generati dall’IA che superano i controlli di affidabilità di Amazon migliorano le metriche di performance primarie, come la conversione degli acquirenti in vendite, oppure non hanno alcun impatto, né positivo né negativo. Il restante 60%, tuttavia, produce risultati negativi significativi. Tali contenuti non vengono chiaramente pubblicati nel catalogo dell’azienda.
4. Creare un sistema di apprendimento
Un sistema di qualità ideale dovrebbe essere un sistema di apprendimento che migliora continuamente con un intervento umano minimo o nullo. Il sistema di Amazon genera dati che migliorano le prestazioni del suo LLM, rendendolo più efficace nel mettere in discussione le ipotesi su ciò che piace o non piace ai clienti. Tuttavia, gli scienziati dell’azienda hanno scoperto che vale comunque la pena coinvolgere occasionalmente gli esseri umani per generare dati di apprendimento migliori. Ad esempio, le indagini umane su esperimenti negativi a volte individuano e correggono difetti nell’LLM. In un’indagine, un team ha scoperto che il LLM scriveva erroneamente “nessuna garanzia” come impostazione predefinita ogni volta che non venivano fornite informazioni. Tuttavia, con il miglioramento di Catalog AI, il coinvolgimento umano sarà limitato alla progettazione del sistema e alle decisioni relative all’infrastruttura. Ecco i componenti necessari per costruire un sistema di apprendimento.
Modello del cliente. Per accelerare il feedback, le aziende possono sviluppare una metrica composita che modella le preferenze dei clienti. Sebbene, in senso stretto, un modello del cliente non sia un requisito per la creazione di un sistema di apprendimento, esso rende il sistema molto più veloce, a condizione che sia accurato. Un modello consente a un’azienda di ottenere un feedback quasi istantaneo eseguendo esperimenti virtuali. Analogamente all’esecuzione di simulazioni di incidenti automobilistici su un computer anziché distruggere prototipi fisici, il test dei risultati dell’IA può essere effettuato molto più rapidamente perché non sono più coinvolti clienti reali.
La progettazione di una metrica che risponda allo stesso modo di un cliente tipico richiede un’attenta riflessione. L’azienda deve determinare quali dati includere e deve fornire una convalida attraverso numerosi esperimenti sui clienti. Catalog AI utilizza un modello di cliente insieme a test dal vivo, la metrica Catalog Data Quality (CDQ). Essa include informazioni provenienti da regole, profili statistici e controlli di affidabilità. Alla fine, la CDQ sostituirà la maggior parte dei test che coinvolgono clienti reali, accelerando l’apprendimento del sistema.
Esperimenti multivariati. Oltre ai test A/B, il sistema di Amazon utilizza esperimenti multivariati, cioè esperimenti più elaborati che forniscono informazioni più approfondite su come più variabili (ad esempio, testo, colore e immagini) interagiscono o determinano le migliori scelte di progettazione. Gli algoritmi di Amazon individuano modelli e li analizzano tramite esperimenti multivariati su prodotti le cui pagine web godono di un elevato livello di traffico dei clienti e il cui impatto sulle metriche di performance primarie è statisticamente significativo. Gli esperimenti che producono i risultati più significativi (quelli che hanno un impatto positivo superiore all’1% su alcune metriche primarie e un impatto negativo inferiore all’1% su altre) vengono esaminati dai data scientist per individuare modelli ed errori. Dato il volume di traffico e transazioni dei clienti sul marketplace di Amazon, anche piccole modifiche su milioni di schede prodotto possono tradursi in miliardi di dollari di ricavi aggiuntivi. Le aziende con un traffico web molto inferiore avranno soglie diverse da quelle di Amazon nell’implementazione di un cambiamento.
Sebbene l’obiettivo sia che Catalog AI apprenda automaticamente, attualmente le persone contribuiscono al suo processo di apprendimento. Alcuni esperimenti isolano gli effetti e creano aneddoti che possono essere condivisi tra il team che gestisce Catalog AI e i data scientist. Ad esempio, il team Catalog AI Titles può richiedere all’LLM di generare titoli di prodotti con lunghezze variabili e contenuti informativi diversi:
Gli esperimenti determinano quale dei tre titoli di prodotto è più efficace, per essere poi utilizzato per addestrare l’LLM. Generando dati di addestramento migliori in tutte le categorie di prodotti, la qualità dell’output di Catalog AI è migliorata in modo significativo: ora l’80% dell’output di Catalog AI supera i controlli di qualità iniziali.
Test concettuali. Quando Catalog AI è stato lanciato, ha generato milioni di modifiche alle inserzioni che dovevano essere testate sui clienti. Idealmente, ogni modifica avrebbe dovuto essere testata in un esperimento autonomo, ma molte inserzioni di prodotti non generano un traffico di clienti sufficiente per raggiungere le dimensioni critiche del campione necessarie. (Per ottenere una confidenza statistica, minore è l’effetto previsto di una modifica, maggiore è il numero di osservazioni necessarie per differenziarla dal rumore di fondo).
Quando il traffico dei clienti non è sufficientemente robusto (meno di un milione di visualizzazioni), la piattaforma di sperimentazione testa automaticamente i contenuti generati dall’IA raggruppando le inserzioni di prodotti simili in test a concetto singolo per scoprire informazioni utili. Uno speciale algoritmo raggruppa i contenuti, a volte provenienti da migliaia di inserzioni generate dall’IA, per categorie di prodotti. (Per i prodotti che ottengono più di un milione di visualizzazioni, viene eseguito un esperimento autonomo). I batch sono i più piccoli possibile, pur soddisfacendo i requisiti di dimensione del campione statistico. L’IA genera migliaia di varianti per migliorare la descrizione, ad esempio, delle macchine per il caffè, che vengono combinate in un esperimento basato su un unico concetto. Gli esperimenti possono mettere in discussione ipotesi sulle preferenze dei clienti che non sono mai state testate.
Ad esempio, un esperimento ha messo in discussione un’ipotesi di lunga data degli specialisti, incorporata nei modelli di ML: quella, cioè, che gli acquirenti preferissero un forte contrasto tra lo sfondo bianco e il prodotto esposto. Il test concettuale ha esplorato l’impatto delle immagini migliorate dall’IA sul coinvolgimento dei clienti. Migliaia di pagine generate dall’IA contenevano suggerimenti per sfondi che mostravano i prodotti nell’ambiente dell’acquirente. Questi suggerimenti sono stati raggruppati in un test concettuale, che prevedeva un controllo con uno sfondo bianco e un modello che indossava una maglia termica nera. L’immagine testata aggiungeva uno sfondo arricchito, collocando il modello che indossava la maglia in un ambiente interno per aiutare i clienti a visualizzare il prodotto nell’uso quotidiano. L’esperimento ha rilevato che l’aggiunta dello sfondo arricchito ha aumentato le vendite e la modifica è stata implementata per centinaia di prodotti di moda di base.
Aumentare l’efficacia dei progetti di IA
Una volta implementati, i sistemi di qualità possono fare molto di più che gestire la qualità dei risultati generati dall’IA; possono anche aiutare a indirizzare le risorse verso i progetti di IA in corso che hanno il ROI più elevato. In genere, i gruppi aziendali che conducono queste iniziative presentano stime eccessivamente ottimistiche dei rendimenti finanziari previsti, che a loro volta determinano l’assegnazione degli specialisti e delle risorse informatiche. (Infatti, il 41% dei 2.770 dirigenti aziendali di sei settori intervistati da Deloitte nel 2024 ha affermato che le loro organizzazioni hanno difficoltà a definire e misurare l’impatto dei loro sforzi nell’ambito dell’IA generativa). Quando invece il sistema di qualità verifica l’efficacia dei nuovi progetti con i clienti, i leader possono fare affidamento su prove concrete per decidere il modo migliore di allocare le risorse. Ciò consente, inoltre, ai leader di rivedere più frequentemente l’allocazione in risposta ai test in corso.
Ad esempio, un sistema di questo tipo consente a un’azienda di imparare dai prototipi, quantificando l’impatto dell’impegno di un progetto su sottogruppi di clienti, prima di procedere con un’implementazione più ampia. I miglioramenti a Catalog AI spesso iniziano come prototipi e talvolta competono tra loro. I team conducono esperimenti e utilizzano i risultati per richiedere risorse aggiuntive per scalare i loro prototipi, e alla fine vengono implementati quelli vincenti. Il Project Amelia di Amazon, il suo assistente AI generativo per venditori, viene gradualmente reso disponibile a un numero sempre maggiore di venditori, mentre le prestazioni del modello vengono monitorate e il feedback dei clienti incorporato.
La sperimentazione può anche aiutare a gestire i trade-off dell’infrastruttura IA, come quelli tra le prestazioni del modello e il costo computazionale. Aumentare le dimensioni dei modelli LLM può fornire solo vantaggi marginali e il loro addestramento può richiedere molto tempo. Attraverso la sperimentazione, Amazon ha scoperto che alcuni modelli più piccoli offrono prestazioni migliori rispetto a quelli più grandi perché richiedono meno risorse, possono essere riaddestrati più frequentemente e hanno tempi di risposta più rapidi alle richieste dei clienti. Altre aziende possono condurre esperimenti simili per decidere il percorso migliore da seguire su questioni come lo sviluppo di LLM interni o l’utilizzo di modelli di terze parti.
DECENNI FA, il professore della Harvard Business School David Garvin ha scritto del vantaggio sostenibile che i sistemi di qualità offrivano alle aziende (vedi “Quality on the line”, settembre-ottobre 1983). Nel suo studio sui produttori di condizionatori d’aria per ambienti, ha scoperto che i tassi di difettosità dei prodotti realizzati dai produttori di alta qualità erano tra 500 e 1000 volte inferiori a quelli realizzati dai produttori di bassa qualità. Il raggiungimento di un’alta qualità, ha concluso, dipende dall’adozione di un sistema di controllo qualità completo. La lezione di Garvin è ancora valida nell’era dell’intelligenza artificiale.
STEFAN THOMKE è Professor of Business Administration alla Harvard Business School. PHILIPP EISENHAUER è economista senior e PUNEET SAHNI è ingegnere senior presso Amazon.