CYBERSICUREZZA & PRIVACY DIGITALE
Michael Segalla, Dominique Rouziès
Settembre 2023
La possibilità di codificare, conservare, analizzare e condividere dati crea enormi opportunità per le aziende, ed è per questa ragione che sono tutte entusiaste di investire nell’intelligenza artificiale, anche in un periodo di incertezza economica. Quali clienti tendono ad acquistare quali prodotti e quando? Quali concorrenti tendono a compiere balzi in avanti o a farsi superare? Come verranno a crearsi vantaggi (o rischi) commerciali nei mercati e nelle economie? I dati e l’analitica forniscono alle aziende risposte più fondate e a più alta probabilità a queste e molte altre domande.
Ma la necessità di disporre di dati apre la strada a varie forme di abuso. Nel corso degli ultimi anni, l’UE ha inflitto alle imprese più di 1.400 ammende, per un ammontare complessivo di quasi 3 miliardi di euro, a causa di violazioni del regolamento generale sulla protezione dei dati (GDPR). Nel 2018 lo scandalo di Cambridge Analytica ha fatto crollare il valore di mercato di Facebook, determinando da solo una perdita di 36 miliardi di dollari, e ha comportato sanzioni per un importo vicino ai 6 miliardi di dollari a carico di Meta, l’azienda che controlla la piattaforma. Circolano inoltre abbondanti articoli su come le decisioni dettate dall’IA operino discriminazioni nei confronti delle donne e degli appartenenti a minoranze nelle procedure di assunzione, nella concessione dei prestiti, nelle diagnosi mediche e persino nelle sentenze giudiziarie, articoli che fomentano l’ansia riguardo al modo in cui i dati vengono raccolti, utilizzati e analizzati. Questi timori non faranno altro che intensificarsi con l’uso di chatbot come ChatGPT, Bing AI e GPT-4, che acquisiscono “intelligenza” dai dati forniti dai loro inventori e utilizzatori. Spaventa pensare a come quell’intelligenza possa essere usata. In una conversazione, un chatbot Bing ha affermato che avrebbe dato priorità alla propria sopravvivenza rispetto a quella dell’essere umano con cui stava interagendo.
Quando esaminano nuovi progetti che comportano l’uso di dati forniti da esseri umani o attinti alle banche dati esistenti, le aziende devono focalizzarsi su cinque aspetti essenziali: la provenienza dei dati, il proposito (purpose) per cui saranno utilizzati, come sono protetti, come viene tutelata la privacy dei fornitori dei dati e come vengono preparati i dati per l’utilizzo. Chiamiamo questi aspetti “le cinque P” (vedi il riquadro “Le cinque P della gestione etica dei dati”). In queste pagine esamineremo ciascuno di questi aspetti e vedremo come le tecnologie basate sull’IA aumentino il rischio di un uso improprio dei dati. Innanzitutto, però, forniamo una breve descrizione dei requisiti organizzativi per un’efficace procedura di valutazione etica.
ORGANIZZARE IL CONTROLLO DEI DATI
In ambito accademico, l’acquisizione di dati forniti da soggetti umani di norma è soggetta alla supervisione di un comitato etico istituzionale interno, al quale i ricercatori devono richiedere l’approvazione per avere accesso alle persone interessate, ai fondi per la ricerca o l’autorizzazione a pubblicare i risultati. I comitati etici sono composti da accademici esperti in materia di ricerca e di etica inerente all’acquisizione e all’uso delle informazioni. Sono stati istituiti innanzitutto nel campo della ricerca medica, ma oggi sono usati a livello quasi universale dalle organizzazioni accademiche per qualsiasi tipo di ricerca condotta su soggetti umani.
Alcune grandi aziende hanno istituito comitati etici interni, di solito sotto la guida di un esperto in materia di etica digitale, assumendo all’occorrenza esperti tecnici esterni per affiancare i dipendenti, e nominando dirigenti interni delle unità responsabili del monitoraggio della compliance e delle attività commerciali, a seconda della necessità. Ma questi casi sono ancora rari: perfino in Europa, che è all’avanguardia della regolamentazione digitale, gran parte delle aziende affida ancora la responsabilità dell’osservanza del GDPR a un manager di livello medio-alto, che si occupa di compliance e spesso ha una vaga formazione giuridica o informatica, ma non un’esauriente preparazione etica e di rado una profonda comprensione delle nuove tecnologie digitali. Un manager responsabile della compliance dovrebbe senza dubbio essere membro del comitato etico aziendale, ma probabilmente non dirigerlo. Nel marzo del 2023, il Comitato europeo per la protezione dei dati ha espresso preoccupazione al riguardo e ha annunciato l’intenzione di inviare ai responsabili della protezione dei dati un questionario destinato a stabilire se le loro mansioni aziendali siano idonee a garantire il rispetto della normativa.
Una buona descrizione generale del modo in cui le aziende possono intraprendere un programma sul modello del comitato etico istituzionale si può trovare in “Perché vi occorre un comitato etico per l’IA”, di Reid Blackman (Harvard Business Review Italia, settembre 2022). La nostra esperienza conferma gran parte dei punti salienti esposti nell’articolo. Un comitato etico aziendale dovrebbe contare da quattro a sette membri, a seconda della frequenza, dell’importanza e delle dimensioni dei progetti digitali dell’azienda. Fra questi dovrebbero figurare un esperto di compliance, un data scientist, un dirigente aziendale che conosce l’ambito funzionale in cui si inserisce il progetto digitale (per esempio, risorse umane, marketing o settore finanziario) e uno o più professionisti di alto livello con adeguate credenziali accademiche. Non è necessario che il comitato si riunisca al completo per ogni valutazione; la London School of Economics, per esempio, prevede la riunione plenaria del comitato soltanto per esaminare i progetti più complessi. Quelli più semplici possono essere valutati in meno di una settimana utilizzando un questionario online, con l’intervento di un solo membro del comitato.
Prima di ottenere il via libera, ogni nuovo progetto che comporta la raccolta, la conservazione e il trattamento di dati personali dovrebbe essere approvato dal comitato etico aziendale. Non si dovrebbero fare eccezioni a questa regola, non importa quanto sia modesto il progetto. La maggior parte delle aziende, inoltre, ha già raccolto grandi quantità di dati personali e continua a generarne attraverso le sue attività: il comitato etico aziendale dovrebbe esaminare anche questi progetti.
La valutazione del comitato etico aziendale comincia con la nostra prima “P”: esaminare come saranno (o sono stati) ottenuti i dati per il progetto, ossia da dove provengono, se sono stati raccolti con il consenso informato dei soggetti interessati alla ricerca e se la raccolta ha comportato o comporterà il ricorso alla coercizione o a sotterfugi.
1 PROVENIENZA
Per capire che cosa può andare storto nell’acquisizione dei dati, esaminiamo il caso di Clearview AI, un’azienda specializzata in sistemi di riconoscimento facciale che ha attirato notevole attenzione nel 2021 per aver raccolto fotografie di persone, averle usate per addestrare gli algoritmi di riconoscimento facciale e avere poi venduto l’accesso al proprio database di fotografie alle autorità giudiziarie e di polizia. Secondo un servizio della BBC, «un agente di polizia che cerca di identificare un sospettato [può caricare] la foto di un volto e trovare corrispondenze in una banca dati contenente miliardi di immagini raccolte su internet e sui social media».
L’ente di regolamentazione australiano si è opposto al metodo di raccolta di Clearview, ritenendo che violasse la legge australiana sulla tutela della vita privata, in quanto acquisiva informazioni personali e sensibili senza alcun consenso o comunicazione, servendosi di mezzi sleali e senza nemmeno garantire che le informazioni fossero accurate. A seguito di queste conclusioni, le autorità hanno ordinato a Clearview di interrompere la raccolta e di rimuovere le fotografie esistenti scattate in Australia. In Francia, la Commission Nationale de l’Informatique et des Libertés (CNIL) ha ordinato all’azienda di cessare di raccogliere, elaborare e conservare dati facciali. Questo episodio può essere una ragione per cui Facebook ha annunciato che intende rinunciare ai propri sistemi di riconoscimento facciale ed eliminare i dati delle scansioni facciali di oltre un miliardo di utenti.
Anche quando i motivi per cui vengono raccolti i dati sono trasparenti, i metodi usati per raccoglierli possono essere contrari all’etica, come dimostra il seguente esempio, tratto dalla nostra ricerca. Una società di ricerca e selezione di personale, impegnata a promuovere la diversità e l’inclusione nella forza lavoro, aveva riscontrato che le persone che si candidavano sulla propria piattaforma sospettavano di subire discriminazioni basate sul loro profilo demografico. La società intendeva rassicurarle, dimostrando che gli algoritmi che abbinavano le offerte di lavoro ai candidati si basavano sulle competenze e non tenevano conto delle informazioni demografiche, e che eventuali discriminazioni andavano attribuite alle aziende che assumevano i candidati, non alla piattaforma.
La società contattò una nota business school e individuò un docente disposto a condurre una ricerca per verificare possibili discriminazioni da parte delle aziende che assumevano i candidati. Il ricercatore propose di riprodurre uno studio condotto alcuni anni prima, per il quale erano stati creati vari CV standard, ma variando etnia e genere dei candidati. Migliaia di finte domande di assunzione sarebbero state inviate alle aziende della zona, monitorando e analizzando le loro risposte; se venivano operate discriminazioni dirette, i risultati avrebbero mostrato tassi di accettazione diversificati in base alle variabili demografiche integrate.
La proposta piacque ai direttori del marketing e delle vendite, che offrirono un contratto al ricercatore. Dato che la business school richiedeva una valutazione etica, la proposta fu presentata al comitato etico istituzionale, il quale la respinse perché il docente proponeva di raccogliere i dati presso le aziende ricorrendo a un sotterfugio. Avrebbe mentito ai potenziali utenti aziendali della piattaforma che avrebbero lavorato per il cliente della scuola a loro insaputa e senza ricavarne alcun vantaggio. (Anzi, le aziende avrebbero potuto risentirne, se la ricerca avesse dimostrato che usavano procedure di assunzione discriminatorie). La lezione impartita da questa storia è che, per rendere etica la raccolta di dati, non bastano le buone intenzioni.
Le aziende dovrebbero esaminare la provenienza non solo dei dati che intendono acquisire, ma anche di quelli già in loro possesso. Molte imprese raccolgono regolarmente i cosiddetti dark data, ma li usano raramente, spesso li dimenticano e a volte ignorano persino che esistano. Si tratta, per esempio, di dati ignorati o non condivisi sui clienti, registri dei visitatori, fotografie, documenti illustrativi archiviati senza essere catalogati, email, rapporti o trascrizioni registrate del servizio assistenza clienti, registri di utilizzo o manutenzione generati automaticamente e reazioni sui social media ai messaggi aziendali. Anche se questi dati spesso non sono strutturati e sono quindi difficili da integrare, possono avere un valore enorme e molti sviluppatori di software stanno quindi creando prodotti che aiutano le aziende a individuare e utilizzare i loro dark data. Questo ci porta alla seconda “P”.
2 PROPOSITO
In un contesto aziendale, i dati raccolti per uno scopo specifico con il consenso dei soggetti umani interessati spesso vengono successivamente utilizzati per altri propositi, che non vengono comunicati ai fornitori dei dati stessi. Quando esaminano come vengono sfruttati i dati esistenti, le aziende devono quindi accertare se è necessario ottenere un nuovo consenso.
Per esempio, una grande banca francese voleva verificare l’ipotesi che si potessero individuare gli atti di bullismo o le molestie sessuali da parte di colleghi di pari livello e subalterni esaminando le email aziendali. Secondo il responsabile della diversità dell’ufficio risorse umane, individuare in anticipo le potenziali molestie avrebbe permesso all’azienda di intervenire con tempestività e forse perfino evitare del tutto tali situazioni, insegnando alle persone a cogliere i segnali di avvertimento.
La banca avviò una sperimentazione e trovò solide conferme del fatto che le comunicazioni elettroniche potevano preannunciare successive molestie. Nonostante questa conclusione, una valutazione ad hoc dei risultati, condotta da vari manager di alto livello, indusse l’azienda ad accantonare il progetto perché, come fecero notare i dirigenti, i dati raccolti (cioè le email) in origine erano destinati a comunicare informazioni legate al lavoro. Le persone che avevano spedito i messaggi non avrebbero ritenuto che la loro finalità fosse prevedere o individuare comportamenti scorretti.
Per quanto riguarda i dati sui clienti, le aziende di solito sono molto meno scrupolose. Molte li considerano una fonte di introiti e li vendono a terzi o a società specializzate nella vendita di indirizzi; nonostante ciò, le posizioni contrarie a questa pratica si stanno irrigidendo. Nel 2019 lo stato austriaco ha inflitto al servizio postale nazionale un’ammenda di 18 milioni di euro per aver venduto i nomi, gli indirizzi, l’età e le affiliazioni politiche (se disponibili) dei suoi clienti. L’autorità di regolamentazione nazionale aveva riscontrato che i dati postali raccolti per un proposito preciso (la consegna di corrispondenza e pacchi) venivano impropriamente adattati allo scopo di venderli a clienti che potevano abbinarli a dati pubblici facilmente reperibili (stime dei valori di immobili, tassi di proprietà delle case, densità abitativa, numero di unità in affitto e denunce di microcriminalità) per individuare clienti potenziali. Fra coloro che avevano acquistato i dati, c’erano anche partiti politici che tentavano di influenzare i potenziali elettori. La sanzione è poi stata annullata in appello, ma la fumosità intorno al riutilizzo (o all’uso improprio) dei dati sui clienti resta un problema importante per le imprese e i Governi.
La maggior parte delle aziende usa i dati sui clienti per vendere loro altri servizi, ma anche questo può causare problemi. Nel 2021 l’Information Commissioner’s Office, un’autorità indipendente del Regno Unito che tutela la riservatezza dei dati, ha accusato la Virgin Media di violare i diritti alla privacy dei suoi clienti. L’azienda aveva inviato 1.964.562 email per annunciare che avrebbe congelato i prezzi degli abbonamenti. Era una forma di promozione ragionevole, ma la Virgin aveva usato le email anche per vendere servizi a quei clienti. Dato che 450.000 abbonati inclusi nell’elenco avevano negato il consenso a ricevere offerte commerciali, l’autorità di regolamentazione ha inflitto alla Virgin un’ammenda di 50.000 sterline per aver violato l’accordo.
La possibilità che i database aziendali vengano usati per scopi diversi dal proposito originario, senza il consenso dei fornitori dei dati, ci porta alla terza “P”.
3 PROTEZIONE
Secondo l’Identity Theft Resource Center, un’organizzazione no-profit che offre assistenza alle vittime dei furti d’identità, nel 2021 si sono verificate quasi duemila violazioni dei dati negli Stati Uniti. Anche le grandi aziende high-tech, dotate di strumenti sofisticati, hanno subito gravi violazioni, che hanno portato alla rivelazione di informazioni personali su miliardi di individui. In Europa, nonostante vigano leggi tra le più protettive del mondo, la situazione non è molto migliore. La Virgin Media ha lasciato le informazioni personali di 900.000 abbonati senza protezione e accessibili sui suoi server per dieci mesi a causa di un errore di configurazione, e durante tale periodo almeno una persona non autorizzata ha avuto accesso ai file.
La prassi diffusa di avvalersi dei servizi di hosting dei dati forniti da società specializzate non offre necessariamente una protezione migliore. Doctolib, una app francese per prenotare visite mediche, è stata citata in giudizio per aver conservato i dati su Amazon Web Services, dove erano verosimilmente accessibili ad Amazon e molte altre organizzazioni, comprese le agenzie di intelligence Usa. Anche se i dati erano crittati, arrivavano sui server di Amazon senza essere anonimizzati e potevano quindi essere collegati ad archivi digitali di comportamenti online per elaborare profili personali molto accurati, a fini commerciali o politici.
Un comitato etico aziendale deve sapere con certezza dove saranno conservati i dati dell’azienda, chi potrà avervi accesso, se (e quando) saranno anonimizzati e quando saranno distrutti. Molte aziende dovranno dunque cambiare i protocolli e i meccanismi esistenti, una modifica che può rivelarsi costosa: in seguito a una violazione dei dati presso la JPMorgan Chase nel 2014, che aveva compromesso la riservatezza di 76 milioni di persone e 7 milioni di imprese, la banca ha dovuto spendere 250 milioni di dollari l’anno per la protezione dei dati.
La quarta “P” è strettamente legata alla protezione.
4 PRIVACY
Il dilemma che molte aziende si trovano ad affrontare è individuare un compromesso tra anonimizzare troppo e troppo poco. Un’anonimizzazione insufficiente sarà inaccettabile ai sensi di quasi tutti i regolamenti pubblici, senza il consenso informato degli interessati, ma se eccessiva può rendere i dati inutilizzabili a fini commerciali. Sono disponibili molte tecniche di anonimizzazione, dalla semplice aggregazione dei dati (in modo che siano disponibili soltanto sintesi o valori medi), alla loro approssimazione (per esempio, usando una fascia di età invece dell’età precisa), a una lieve variazione dei valori delle variabili (per esempio, aggiungendo a ciascuna lo stesso modesto valore), alla pseudo-anonimizzazione dei dati, in modo che un valore casuale, non ripetuto, sostituisca la variabile identificativa.
In linea di principio, queste tecniche dovrebbero proteggere l’identità personale, ma i ricercatori sono riusciti a identificare le persone in un set di dati utilizzando soltanto il genere, la data di nascita e il codice di avviamento postale. Anche informazioni meno specifiche, se vengono associate ad altri set di dati, possono essere usate per identificare le persone. Netflix ha pubblicato un set di dati con 100 milioni di record relativi ai punteggi assegnati ai film dai suoi clienti e ha offerto un milione di dollari a qualsiasi data scientist in grado di sviluppare un migliore algoritmo di raccomandazione dei film. I dati non contenevano identificatori diretti dei clienti e comprendevano soltanto un campione dei punteggi assegnati da ciascun cliente. Eppure i ricercatori sono riusciti a identificare l’84% degli individui confrontando le loro valutazioni e le relative date con un set di dati di terzi, pubblicato da IMDb, un’altra piattaforma sulla quale molti clienti di Netflix assegnano punteggi ai film. Quando valutano gli aspetti legati alla riservatezza dei dati personali, i comitati etici aziendali devono quindi, come minimo, verificare l’efficacia dell’anonimizzazione, tenendo conto, soprattutto, della possibilità di infrangere l’anonimato mediante l’analisi dei dati. Una tecnica chiamata privacy differenziale può offrire un livello di protezione supplementare. I software della Sarus, una startup fondata da Y Combinator, applicano questa tecnica, che impedisce agli algoritmi progettati per pubblicare dati aggregati di rivelare informazioni sui record specifici, riducendo così la probabilità che i dati vengano divulgati a causa di credenziali compromesse, dipendenti disonesti o errori umani.
La privacy, però, può essere violata anche con dati anonimizzati in modo efficace, a causa del modo in cui vengono raccolti ed elaborati i dati stessi. Una violazione non intenzionale si è verificata presso la MaxMind, una società specializzata in servizi di geolocalizzazione che consentono alle aziende di richiamare l’attenzione dei clienti sui prodotti o servizi disponibili nelle vicinanze. La geolocalizzazione facilita anche le ricerche su internet e può essere utile se un servizio che necessita del vostro indirizzo IP (per esempio un sito di intrattenimento in streaming) non funziona correttamente. Ma una mappatura precisa consente a chiunque abbia il vostro indirizzo IP di individuare la zona e persino l’edificio in cui vivete. Associando il vostro indirizzo a Zillow, o a un altro database immobiliare, è possibile ricavare informazioni sulle vostre condizioni economiche assieme a foto dell’interno e dell’esterno della vostra casa.
Purtroppo, la mappatura degli indirizzi IP non è una scienza esatta e può essere difficile associare con precisione un indirizzo IP a un indirizzo geografico. Un cartografo potrebbe assegnarlo all’edificio più vicino o semplicemente a una località, come un Paese, usando le coordinate centrali di tale località come indirizzo specifico. Può sembrare una soluzione ragionevole, ma per una famiglia che aveva preso in affitto una fattoria nei dintorni di Potwin, in Kansas, le conseguenze sono state infernali.
L’indirizzo IP della famiglia figurava in elenco con le coordinate geografiche della fattoria, che incidentalmente corrispondevano alle coordinate del centro esatto degli Stati Uniti. Il problema era che la MaxMind aveva assegnato le stesse coordinate a più di 600 milioni di altri indirizzi IP che non potevano essere geolocalizzati in alcun altro modo. La decisione si tradusse in anni di fastidiose seccature per la famiglia che viveva nella fattoria. Secondo Kashmir Hill, il giornalista che svelò la storia, «è stata accusata di furto di identità, spam e truffe di vario genere. Ha ricevuto visite di agenti dell’FBI, sceriffi federali, ispettori delle tasse, ambulanze in cerca di veterani suicidi e agenti di polizia in cerca di ragazzini scappati di casa. Ha trovato persone che rovistavano attorno al fienile. Sono state divulgate informazioni personali sugli affittuari, e il loro nome e indirizzo è stato pubblicato su internet da vigilantes».
Hill contattò un cofondatore della MaxMind, che alla fine produsse un lungo elenco di indirizzi geografici ai quali erano assegnati numerosi indirizzi IP e confessò che, quando era stata avviata l’attività, il suo team non aveva pensato che «la gente avrebbe usato il database per tentare di localizzare le persone a livello di abitazione privata». Disse: «Abbiamo sempre pubblicizzato il database affermando che individuava l’ubicazione a livello di città o codice di avviamento postale». Morale della storia: le decisioni innocue, dettate da buone intenzioni, prese dai data scientist e dai gestori delle banche dati possono avere un impatto reale molto negativo sulla privacy di persone innocenti. E questo ci porta alla quinta “P”.
5 PREPARAZIONE
Come vengono preparati i dati per l’analisi? Come ne viene verificata o migliorata l’accuratezza? Come vengono gestiti i set incompleti e le variabili mancanti? I dati mancanti o erronei possono influenzare in modo significativo i risultati dell’analisi statistica, ma in molti casi il livello di qualità dei dati è insufficiente. Experian, una società di servizi di informazione creditizia, afferma che, in media, i suoi clienti negli Stati Uniti ritengono che il 27% dei loro introiti vada sprecato a causa di dati imprecisi e incompleti sui clienti effettivi o potenziali.
Ripulire i dati, soprattutto quando vengono raccolti in periodi, unità aziendali o Paesi diversi, può essere particolarmente difficile. In un caso, ci siamo rivolti a una grande azienda internazionale di formazione e gestione dei talenti online per chiederle di aiutarci a studiare se le donne e gli uomini ottenevano uguali benefici professionali dalla formazione. L’azienda ha ritenuto che la questione fosse rilevante sia per i suoi clienti sia per il pubblico in generale e ha quindi estratto i dati conservati nei suoi server; per garantire la riservatezza, i dati sono stati anonimizzati in modo che né i singoli dipendenti né i loro datori di lavoro potessero essere identificati. A causa delle dimensioni del set di dati e della sua struttura interna, ne sono stati estratti quattro distinti.
Di norma, ci limitiamo ad aprire il database e trovare un foglio elettronico in cui figurano le caratteristiche che qualificano ciascun individuo, come il genere. Una donna potrebbe essere identificata come “donna”, “femmina” o semplicemente “F”. I valori possono contenere errori di ortografia (“femina”), apparire in lingue diverse (mujer o frau), o usare maiuscole e minuscole (f o F). Se il foglio elettronico è piccolo (per esempio, mille righe), correggere queste incoerenze è relativamente semplice. Ma i nostri dati contenevano più di un miliardo di osservazioni (troppe, ovviamente, per un normale foglio elettronico) e abbiamo quindi dovuto programmare e verificare una procedura di pulizia dei dati.
Una grossa difficoltà è stata accertare quanti valori erano stati usati per identificare le variabili. I dati provenivano dalle filiali estere di aziende multinazionali ed erano quindi registrati in più lingue, il che significava che alcune variabili avevano un gran numero di valori (94 solo per il genere). Abbiamo scritto un codice di programmazione per standardizzare tutti quei valori, per esempio riducendo il genere a tre: femmina, maschio e non noto. Le date di inizio e fine impiego si sono rivelate particolarmente problematiche, a causa dei diversi formati utilizzati per registrarle.
Secondo Tableau, una piattaforma di analisi dei dati, la pulizia dei dati prevede cinque passaggi fondamentali: 1) eliminare i doppioni o le osservazioni irrilevanti, 2) correggere gli errori strutturali (come l’uso di valori variabili), 3) eliminare i valori anomali indesiderati, 4) gestire i dati mancanti, per esempio sostituendo ogni valore mancante con la media del set di dati, e 5) convalidare e interrogare i dati e i risultati analitici.
Le cifre sembrano ragionevoli? Potrebbero facilmente non esserlo. Un nostro set di dati, che registrava il numero di passi che gli studenti MBA della HEC Paris facevano ogni giorno, conteneva una grossa sorpresa. In media, gli studenti facevano circa 7.500 passi al giorno, ma alcuni ne facevano più di un milione al giorno. Questi valori anomali erano il risultato di un errore del software di elaborazione dei dati e sono stati eliminati. Ovviamente, se non avessimo esaminato il set di dati fisicamente e statisticamente, le conclusioni della nostra analisi sarebbero state completamente errate.
L’INTELLIGENZA ARTIFICIALE ALZA LA POSTA IN GIOCO
L’etica può sembrare un lusso costoso per le aziende che devono affrontare una forte concorrenza. Per esempio, sembra che Microsoft abbia licenziato l’intero team etico che si occupava del progetto Bing AI perché, secondo la stampa e gli articoli sui blog, Google stava per lanciare la propria applicazione basata sull’IA e il fattore tempo era quindi essenziale.
Ma considerare l’etica un fattore secondario nella gestione dei dati comporta dei rischi, se entra in gioco l’intelligenza artificiale. Durante una recente intervista, il direttore tecnologico di OpenAI, l’azienda che ha sviluppato ChatGPT, ha osservato: «Ogni volta che crei qualcosa di così potente, che può apportare così tanti benefici, le potenziali conseguenze negative sono enormi […] e proprio per questo [...] stiamo cercando di capire come utilizzare questi sistemi in modo responsabile».
Grazie all’IA, i data scientist possono sviluppare profili psicologici e personali straordinariamente accurati sulla base di pochissimi frammenti di detriti digitali che le persone si lasciano alle spalle quando visitano le piattaforme social. I ricercatori Michal Kosinski, David Stillwell e Thore Graepel dell’università di Cambridge hanno dimostrato la facilità con cui i like di Facebook possono accuratamente «prevedere una serie di attributi personali altamente sensibili, tra cui: orientamento sessuale, etnia, convinzioni religiose o politiche, tratti caratteriali, intelligenza, felicità, uso di sostanze che creano dipendenza, separazione dei genitori, età e genere». (Questa ricerca in effetti ha ispirato l’uso dei dati di Facebook da parte di Cambridge Analytica.)
Una ricerca successiva, condotta da Youyou Wu, Michal Kosinski e David Stillwell, ha confermato tali conclusioni dimostrando che le valutazioni computerizzate della personalità possono essere più accurate di quelle effettuate dagli esseri umani. Le previsioni computerizzate dei tratti caratteriali (apertura mentale, amicalità, estroversione, coscienziosità, stabilità emotiva, i cosiddetti Big Five) basate sui like di Facebook erano quasi altrettanto accurate delle valutazioni effettuate dal coniuge di una persona. Le implicazioni di questi risultati non dovrebbero essere ignorate. Come vi sentireste se il vostro governo volesse catalogare i vostri pensieri e le vostre azioni personali?
Un problema può essere radicato anche nei dati trascurati, non solo in quelli analizzati. Le macchine possono “apprendere” soltanto dagli input che ricevono: non sono in grado di individuare variabili che non sono programmati per osservare. Questo fenomeno è noto come distorsione da variabili omesse. L’esempio più conosciuto è un algoritmo per individuare le clienti in gravidanza sviluppato da Target, una catena di grandi magazzini statunitense.
Il data scientist dell’azienda, un matematico statistico di nome Andrew Pole, aveva creato un punteggio di “predizione della gravidanza” basato sugli acquisti di circa venticinque prodotti, per esempio lozioni non profumate e integratori di calcio. In tal modo, Target poteva promuovere i suoi prodotti in anticipo sui concorrenti, nella speranza di accattivarsi clienti fedeli che avrebbero poi acquistato tutti i suoi prodotti per neonati. La variabile omessa era l’età della cliente, e l’inevitabile incidente si è verificato quando il padre di una diciassettenne ha trovato materiale pubblicitario legato alla gravidanza nella cassetta della posta. Non sapendo che la figlia fosse incinta, contattò Target per chiedere perché incoraggiasse il sesso prematrimoniale tra le minorenni.
Anche per gli standard dell’epoca, spiare i minori per ricavare informazioni mediche personali e intime era considerato immorale. In una successiva intervista, Pole ammise di aver pensato che ricevere il catalogo promozionale avrebbe messo in imbarazzo alcune persone. Qualunque preoccupazione possa avere espresso all’epoca, però, non ebbe l’effetto di rinviare di molto il lancio del programma e, secondo un giornalista, l’analista ottenne una promozione. Target alla fine rilasciò una dichiarazione in cui affermava di avere rispettato «tutte le leggi federali e statali, comprese quelle riguardanti le informazioni mediche protette».
Per i consigli di amministrazione e i vertici aziendali, il problema è che l’uso dell’intelligenza artificiale per procurarsi clienti, determinare l’idoneità di un candidato a un colloquio di lavoro o approvare la richiesta di un mutuo può avere effetti disastrosi. Le previsioni del comportamento umano basate sull’IA possono essere estremamente accurate, ma impropriamente contestualizzate. Possono anche produrre previsioni vistosamente errate, che risultano ridicole o addirittura moralmente ripugnanti. Basarsi sugli strumenti statistici automatizzati per prendere decisioni è una pessima idea; i membri dei consigli di amministrazione e gli alti dirigenti non dovrebbero vedere il comitato etico aziendale come un costo, un vincolo o un obbligo sociale, ma come un sistema di allerta precoce.
Michael Segalla è professore emerito all’École des hautes études commerciales (HEC) di Parigi. Dominique Rouziès è professoressa di marketing alla HEC.
