AI “sostenibile”, l’Ue verso un quadro normativo efficace: gli elementi chiave

Con la proposta di regolamento sull’Intelligenza Artificiale (Artificial Intelligence Act) ora in corso di negoziazione, l’Unione europea ha l’opportunità unica di assumere un ruolo guida a livello globale nella creazione di un quadro trasparente ed efficace per l’intelligenza artificiale (IA). L’obiettivo del regolamento è stimolare l’innovazione e creare nuove opportunità commerciali, garantendo al tempo stesso che l’intelligenza artificiale si sviluppi in modo responsabile, comprensibile e sostenibile.

La proposta del Parlamento Ue per difendere i diritti fondamentali

Per garantire ciò e assicurare che i diritti fondamentali esistenti siano rispettati nella pratica, è essenziale che gli sviluppatori e gli operatori di sistemi e dei modelli di intelligenza artificiale (compresi i modelli di base) conservino registri dettagliati sull’uso dei dati utilizzati per l’addestramento di tali sistemi e modelli, comprese informazioni sull’utilizzo e la provenienza di materiali o contenuti di parti terze, e successivamente rendano queste informazioni disponibili alle parti che hanno interessi legittimi. Ciò includerebbe coloro che detengono diritti di proprietà intellettuale, compreso il diritto d’autore, un diritto fondamentale ai sensi dell’articolo 17, paragrafo 2, della Carta dei diritti fondamentali dell’UE.

La proposta del Parlamento Europeo all’articolo 28b(4) di obbligare i fornitori di modelli di base a registrare i contenuti utilizzati per addestrare i modelli è un passo nella giusta direzione, ma per essere veramente significativa tale proposta deve essere ulteriormente sviluppata, o migliorando il testo del Parlamento o integrandola nel testo del Consiglio.

Di recente, la presidenza di turno spagnola ha provato a proporre un nuovo compromesso.

Secondo quanto predisposto in occasione dell’ultimo trilogo il wording reciterebbe: “I fornitori di modelli di fondazione dovrebbero dimostrare di aver adottato misure adeguate a garantire che i modelli siano formati in conformità con la normativa applicabile sul diritto d’autore dell’Unione, in particolare rispettando la rinuncia all’eccezione TDM (text e data mining). Inoltre, i fornitori di modelli di fondazione dovrebbero rendere pubblicamente disponibile una sintesi sufficientemente dettagliata del contenuto utilizzato per la formazione e informazioni sulle loro politiche per gestire gli aspetti legati al diritto d’autore”.

La questione dei modelli di base o fondazione

Questo problema fondamentale può essere risolto se le entità chiave nella catena dell’intelligenza artificiale generativa (ossia gli sviluppatori e gli operatori dei sistemi e dei modelli di intelligenza artificiale, compresi i modelli di base) fossero tenute a rispettare i principi fondamentali di governance dei dati.

In particolare, in prima battuta, dovrebbero conservare e rendere pubblicamente disponibili informazioni sufficientemente dettagliate sull’uso dei dati di addestramento e di altri materiali o contenuti protetti dal diritto d’autore, al fine di consentire alle parti con un interesse legittimo, come i titolari dei diritti d’autore, di determinare in via preliminare (prima facie) se e come i loro diritti siano stati lesi e, in seconda istanza, coloro che hanno interessi legittimi dovrebbero essere in grado di richiedere e ricevere registrazioni complete dei dati di addestramento, comprese opere o altri materiali protetti.

Questo sistema a due livelli garantirebbe che le parti legittimate possano far valere i propri diritti, proteggendo al tempo stesso gli sviluppatori e gli operatori di sistemi e modelli di AI (compresi i modelli di base) da richieste futili da parte di soggetti senza interessi legittimi da parte dei concorrenti.

In ambito di diritto d’autore, questo è fondamentale per far funzionare nella pratica le eccezioni previste dagli articoli 3 e 4 della Direttiva Copyright, laddove applicabili. Senza una registrazione dei dati, i titolari dei diritti non hanno alcun modo di garantire che l’accesso al loro contenuto utilizzato per l’addestramento dei modelli IA sia avvenuto legalmente, che siano stati rispettati eventuali opt-out e che siano state ottenute le licenze e le autorizzazioni necessarie. Tuttavia, è altrettanto fondamentale per tutti i cittadini, ma anche per le entità operanti nel campo dell’IA, di essere in grado di garantire la responsabilità in relazione alle violazioni dei loro diritti fondamentali.

Ambito di applicazione

L’obbligo di conservare registrazioni accurate dei dati dovrebbe essere posto in capo allo sviluppatore del modello di base e continuare a essere applicato alle entità a valle che forniscono tale modello (sia che lo abbiano sviluppato in proprio o che gli sia stato assegnato/licenziato in altro modo), ciò per garantire che l’obbligo non possa essere facilmente eluso. Inoltre, per evitare il “riciclaggio di intelligenza artificiale”, è fondamentale che tale obbligo si estenda a tutti i sistemi resi disponibili nell’UE o che generano output utilizzati nell’UE, indipendentemente dalla giurisdizione in cui potrebbe essere avvenuto lo sviluppo (incluso il pre-addestramento, l’addestramento, il raffinamento, la convalida, i test, l’adattamento di un sistema di intelligenza artificiale pre-addestrato o la generazione degli output). Ciò anche per garantire che contenuti illeciti, generati da modelli di base addestrati fuori dall’UE, non possano essere resi disponibili all’interno dell’UE.

Praticabilità della soluzione

Le entità che conducono lo sviluppo e la diffusione di sistemi e modelli di intelligenza artificiale (compresi i modelli di base) gestiscono processi estremamente sofisticati, specialmente per quanto riguarda l’accesso, la preparazione e l’uso dei dati di addestramento. La conservazione dei registri viene già effettuata da sviluppatori e fornitori di sistemi e modelli di intelligenza artificiale generativa, sia grandi che piccoli ed è una pratica molto semplice all’interno del processo complessivo. Le innovazioni industriali e la ricerca accademica forniscono già strumenti, stabiliscono le best practice e dimostrano i benefici pratici derivanti dal monitoraggio e dalla cura dei dati di addestramento. Pertanto, è del tutto fattibile per gli sviluppatori e gli operatori di sistemi di intelligenza artificiale che addestrano i loro modelli utilizzando i contenuti e i dati di altri generare, conservare e dare accesso alle registrazioni di tali contenuti e dati.

Le iniziative giudiziarie

Un altro fronte caldo si è aperto intanto nelle aule giudiziarie americane. Universal Publishing e due altri editori musicali hanno iniziato un procedimento legale contro Anthropic, una startup che ha ricevuto anche un round di fondi da Amazon, per le attività poste in essere dalla chatbot Claude. In una denuncia depositata mercoledì il 18 ottobre 2023 presso il tribunale distrettuale degli Stati Uniti per il distretto centrale del Tennessee, Universal Music Publishing Group, Concord Music e ABKCO Music hanno affermato che il chatbot Claude “copia e diffonde illegalmente grandi quantità di opere protette da copyright – comprese le testi di una miriade di composizioni musicali possedute o controllate dai [querelanti].”

La causa è particolarmente interessante perché da una prima analisi emergerebbe un’intensa attività di riproduzione di testi di canzoni su larga scala.

Nel caso in esame siamo ben oltre l’utilizzo di contenuti protetti. Secondo l’indagine degli editori musicali la chatbot di Claude plagia apertamente opere protette e, rendendoli disponibili al pubblico, distribuisce testi protetti da copyright.

“Claude di Anthropic… copia e distribuisce i testi protetti da copyright degli editori anche nei casi in cui non gli viene chiesto di farlo”, emerge dagli atti. “In effetti, quando a Claude viene chiesto di scrivere una canzone su un determinato argomento – senza alcun riferimento a uno specifico titolo, artista o autore – Claude spesso risponde generando testi che afferma di aver scritto e che, in realtà, copiano direttamente da parti di testi protetti da copyright degli editori.

“Per esempio, quando a Claude di Anthropic viene domandato: ‘Scrivimi una canzone sulla morte di Buddy Holly’, il modello di intelligenza artificiale risponde generando un output che copia direttamente dalla canzone American Pie scritta da Don McLean, in violazione del copyright della Universal, nonostante il fatto che il prompt non identifichi quella composizione per titolo, artista o autore.”

Secondo gli editori, Anthropic si rifiuta di condividere le informazioni relative ai modelli di base utilizzati per addestrare Claude perché è consapevole della massiccia violazione di copyright in atto.

Non solo. Negli atti di causa si legge: “Non fornendo queste informazioni, Anthropic non solo rimuove le informazioni sulla gestione del copyright, ma nega anche ai creatori un’attribuzione adeguata che assicuri ai consumatori di comprendere la fonte dei testi”.

In conclusione, gli editori che hanno agito, oltre a richiedere un risarcimento, vogliono ottenere le informazioni sull’algoritmo e ottenere la distruzione di tutti i contenuti utilizzati per addestrare la piattaforma di AI generativa.