AI e copyright, la soluzione è nelle licenze esclusive

Dopo l’annuncio dell’azione giudiziaria promossa da New York Times contro OpenAI e Microsoft si sono susseguiti molti commenti sul rapporto tra normative internazionali sul copyright e gli sviluppi in materia di AI generativa.

Sul blog ufficiale di OpenAI è apparso un post che ancora una volta ha ripreso le posizioni espresse in diverse sedi, ad esempio nella submission presso il Copyright Office USA o nella recente consultazione della Camera dei Lord britannica.

Addestramento delle piattaforme di AI: la posizione di OpenAI

Secondo OpenAI “gli strumenti di intelligenza artificiale danno il meglio di sé quando incorporano e rappresentano l’intera diversità e ampiezza dell’intelligenza e dell’esperienza umana”. Per fare ciò, le odierne tecnologie di intelligenza artificiale richiedono una grande quantità di dati di addestramento e calcoli, poiché i modelli esaminano, analizzano e apprendono modelli e concetti che emergono da trilioni di parole e immagini.

I grandi modelli linguistici di OpenAI, inclusi i modelli che alimentano ChatGPT, sono sviluppati utilizzando tre fonti principali di dati di addestramento:

informazioni disponibili pubblicamente su Internet,

informazioni concesse in licenza da terze parti e

informazioni forniti dai nostri utenti o dai nostri formatori umani.

“Poiché oggi il copyright copre praticamente ogni tipo di espressione umana, inclusi post di blog, fotografie, post di forum, frammenti di codice software e documenti governativi, sarebbe impossibile addestrare i principali modelli di intelligenza artificiale di oggi senza utilizzare materiali protetti da copyright. Limitare i dati di addestramento ai libri e alle immagini di pubblico dominio creati più di un secolo fa potrebbe produrre un esperimento interessante, ma non fornirebbe sistemi di intelligenza artificiale in grado di soddisfare le esigenze dei cittadini di oggi.”

OpenAI aggiunge che “addestrare modelli di intelligenza artificiale utilizzando materiali Internet disponibili al pubblico è un uso corretto, come supportato da precedenti di lunga data e ampiamente accettati. Consideriamo questo principio giusto per i creatori, necessario per gli innovatori e fondamentale per la competitività degli Stati Uniti”.

Contenuti protetti e fair use, il precedente di Napster

La pretesa di riprodurre contenuti protetti tramite un’eccezione sulla base del fair use è ricorrente negli anni dell’innovazione tecnologica e molte società tech, più o meno legali, hanno spinto su questa strada della libera fruizione dei contenuti.

Già Napster, la famosa piattaforma illegale di file sharing, nei primi anni Duemila sosteneva che il suo servizio fosse “fair use” secondo tre diverse teorie: (1) sampling o campionamento (in cui gli utenti in generale facevano copie temporanee delle varie opere prima dell’acquisto); (2) space-shifting: spostamento dello spazio (in cui gli utenti accedevano semplicemente a una registrazione audio attraverso il sistema anche se possedevano già la registrazione in formato CD audio); e (3) distribuzione permissiva delle registrazioni.

La Corte respinse, come noto, tutte queste pretese e la piattaforma fu costretta a chiudere i battenti.

L’errore di antropomorfizzare le macchine

Tra le ulteriori generalizzazioni che vengono spesso descritte nel rappresentare la funzionalità dei LLM spicca anche l’esempio secondo il quale piattaforme come ChatGPT leggono (o ascoltano) e imparano. Poi a fronte del prompt, producono un output sulla base di ciò che hanno imparato leggendo (libri o giornali) o ascoltando (musica). È una teoria abbastanza peculiare per la quale se l’umano non deve chiedere autorizzazione per apprendere, così non dovrebbe farlo l’intelligenza artificiale. Una sorta di antropomorfizzazione della macchina tanto cara più a scrittori di fiction come Philip K. Dick che a un’aula giudiziaria dove si decide il destino della produzione umana di contenuti creativi.

Il dibattito sulle misure tecniche di protezione contro lo scraping

Ovviamente si tratta di caratterizzazioni che non hanno alcuna sostanza dato che l’ingestion di contenuti attraverso lo scraping di contenuti e dati è ammesso dalle stesse piattaforme.

Un’altra generalizzazione sostiene che le attuali misure tecniche di protezione potrebbero essere utilizzate per prevenire lo scraping di opere protette da copyright che sono pubblicamente disponibili su Internet e che questo sarebbe un modo efficace per i titolari dei diritti d’autore di fare opt-out per le loro opere.

È ovviamente un grave malinteso perché questa teoria equivarrebbe a stabilire che la disponibilità e l’accessibilità delle opere protette su Internet equivale a un’autorizzazione per prendere, rastrellare, copiare o sfruttare in altro modo queste opere senza l’espressa autorizzazione del proprietario del copyright.

Anche se determinare se un uso particolare è idoneo come fair use in caso di violazione richiede un’indagine specifica sui fatti che viene considerata caso per caso, non esistono utilizzi che si qualificano sempre e categoricamente come fair use. Ciò è altrettanto vero quando vengono utilizzate opere protette da copyright per l’acquisizione dell’intelligenza artificiale.

In effetti, è particolarmente improbabile che l’acquisizione di opere protette da copyright da parte di un tipico sistema commerciale possa qualificarsi come fair use quando il sistema di intelligenza artificiale genera opere concorrenti come abbiamo visto, ad esempio, nel caso NYT vs OpenAI Microsoft.

La strada possibile: individuare accordi di licenza con i titolari dei diritti esclusivi

Più in generale, come anche evidenziato dalla recente decisione “Andy Warhol Foundation v. Goldsmith” vi sono forti limiti anche nel caso si dovesse considerare le opere generate dall’AI nell’ambito dell’uso trasformativo.

In attesa degli sviluppi nel caso NYT vs OpenAI e Universal Music Group (UMG), Concord e ABKCO vs Anthropic così come in altre iniziative giudiziarie promosse negli USA l’unica strada percorribile è sicuramente quella di individuare degli accordi di licenza con i titolari dei diritti esclusivi. E non dovrebbe essere adottata alcuna legislazione sul copyright dell’IA in risposta all’IA generativa che interferisca con il libero mercato o la libertà di licenza.

È essenziale che le licenze siano rispettate da qualsiasi regime legale sul diritto d’autore o sull’IA. Ottenere una licenza per utilizzare opere protette da copyright è il modo migliore per gli sviluppatori per assicurarsi di evitare responsabilità per violazione.

Inoltre, se esistono o si stanno sviluppando mercati basati su licenze, questo può solo consentire una crescita di modelli di business che favoriscono sia l’industria creativa così come gli sviluppatori di piattaforme e applicazioni di AI.