Intelligenza artificiale e nuova pirateria: i danni alle industrie dei contenuti

Nelle ultime ore è arrivata la notizia dell’azione legale intentata dal New York Times contro Open AI e Microsoft con l’accusa di aver utilizzato gli articoli del quotidiano per addestrare i sistemi e competere direttamente con il quotidiano.

Il nuovo fronte del copyright è l’IA

Si apre così “un nuovo fronte nella sempre più intensa battaglia legale sull’uso non autorizzato di opere pubblicate per addestrare tecnologie di intelligenza artificiale”, scrive lo stesso giornale, “la prima grande organizzazione mediatica americana a citare in giudizio le società, creatrici di ChatGPT e di altre popolari piattaforme di IA, per questioni di copyright associate alle sue opere scritte”.

Anche la musica è nello stesso agone. Negli ultimi anni la pirateria musicale, pur in declino rispetto ai primi anni dell’era digitale dove P2P e download illegale dominavano la scena, ha cambiato aspetto e si è trasformata in un fenomeno meno massivo ma non per questo meno insidioso.

Il recente studio di IFPI “Engaging with Music” ha indicato in una media globale del 29% il fenomeno dell’utilizzo di musica senza licenza.

Un nuovo fronte nuvoloso in tema di violazioni del copyright si sta formando all’orizzonte.

Alcune nuove tecnologie di intelligenza artificiale, in particolare l’“intelligenza artificiale generativa”, che è esplosa negli ultimi mesi, presentano sia opportunità che grandi rischi per la comunità creativa. L’intelligenza artificiale può abilitare strumenti all’avanguardia che migliorano la creatività umana per quegli artisti che desiderano utilizzarla. Ma alcuni usi dell’intelligenza artificiale comportano grandi rischi.

Mentre a Bruxelles si stanno definendo gli aspetti tecnici del nuovo regolamento, il primo al mondo, in materia di AI, le industrie dei contenuti e le organizzazioni dedite alla tutela dei contenuti si preparano alla nuova sfida.

Il paper di Universal Music

Di recente, in vista della prossima sessione del “Advisory Committee on Enforcement” dell’organizzazione mondiale della proprietà intellettuale (WIPO) a Ginevra, Universal Music, la prima casa discografica mondiale, con Graeme Grant, Vicepresidente, Global Content Protection, ha presentato un paper con le ultime evoluzioni in materia che vale la pena di analizzare.

Secondo quanto confermato da Universal Music, alcune piattaforme di intelligenza artificiale vengono addestrate illecitamente su contenuti protetti da copyright, violando i diritti dei creatori. Dopo questa formazione, le piattaforme vengono utilizzate per violare ulteriormente questi diritti creando output che si basano su questo contenuto. Di fatto, in tutti questi casi, le piattaforme non hanno richiesto, e tanto meno ricevuto, autorizzazione. Al contrario, in genere le aziende di AI cercano di evitare qualsiasi trasparenza riguardo all’utilizzo delle opere musicali mentre sfruttano queste violazioni per promuovere un proprio business model.

Nell’ultimo anno, Universal Music ha osservato un aumento significativo nell’utilizzo dell’intelligenza artificiale per produrre tracce che imitano lo stile e la voce unici degli artisti.

Stanno emergendo comunità online dedicate, non solo per creare e distribuire queste tracce fraudolente, ma anche per fornire tutorial completi che guidano le persone attraverso l’intero processo di questa attività non autorizzata, nonché strumenti – come i bot – che eseguono automaticamente processi di clonazione vocale dell’IA. Dall’agosto 2023, il numero di caricamenti generati dall’intelligenza artificiale su piattaforme di contenuti generati dagli utenti che implicano i nostri diritti è cresciuto del 175%.

Circa il 47% degli avvisi inviati finora sono stati attivati perché una registrazione master di Universal Music era riconoscibile nella parte vocale o strumentale sottostante; i restanti violavano il copyright di un’opera musicale/letteraria, un marchio o un diritto di pubblicazione.

Le tecnologie emergenti note come “Source Separators” stanno sfruttando l’intelligenza artificiale per isolare le radici vocali e strumentali dalle registrazioni audio principali (Universal Music utilizza questa tecnologia per supportare i suoi artisti). Questi elementi separati vengono successivamente utilizzati per addestrare sofisticati modelli di intelligenza artificiale.

L’utilizzo delle registrazioni master delle case discografiche, integralmente o parzialmente, avviene senza autorizzazione o licenza costituisce una violazione del diritto d’autore. Questa forma relativamente nuova di violazione va in sinergia con metodi più vecchi, come lo stream ripping. Lo stream ripping è il luogo in cui la componente audio di un’opera audiovisiva viene estratta (in genere da una piattaforma autorizzata come YouTube) e riprodotta. Ciò elude le misure di protezione tecnica applicate dalle piattaforme di streaming autorizzate per impedire l’uso non autorizzato dei contenuti e viola i termini di utilizzo delle piattaforme. Il successivo contenuto “strappato” funge da input per questi algoritmi di separazione della fonte.

I fornitori di servizi digitali (DSP) e le piattaforme di contenuti caricati dagli utenti (UUC) sono spesso sfruttati dai creatori di intelligenza artificiale per pubblicare e monetizzare le loro creazioni, spesso includendo l’uso non autorizzato di opere protette da copyright, tra cui copertine di album, registrazioni master, composizioni, testi – o marchi registrati di artisti (come i loro nomi e loghi). Sebbene alcuni trasgressori possano dover affrontare la sospensione o la rimozione degli account, spesso possono creare nuovi account per perpetuare le loro attività illegali. Ad aggravare ulteriormente il problema, questi trasgressori possono impegnarsi nella manipolazione degli stream e nelle frodi sui diritti d’autore gonfiando artificialmente il numero di riproduzioni e gli stream per aumentare ingiustamente le entrate su larga scala, a spese degli artisti e dei legittimi titolari dei diritti.

Il problema, come anche rilevato dagli esperti di DcP (Digital content Protection), la struttura tecnica italiana che si occupa di contrastare la pirateria per conto dell’industria musicale nel nostro Paese, è che il fenomeno è in forte espansione. Man mano che la crescita continua, l’intelligenza artificiale viene sempre più utilizzata per creare contenuti con il clone vocale di un artista, ma in cui la registrazione principale non è così evidente nell’output, creando maggiori sfide nella rimozione di questo contenuto.

Alcuni modelli vocali di intelligenza artificiale sono stati addestrati illecitamente sulla raccolta protetta da copyright di registrazioni audio, testi e copertine delle case discografiche. Inoltre, i produttori di musica specializzati hanno sfruttato in modo simile le opere musicali protette da copyright dell’industria. Queste attività non autorizzate si basano spesso sullo stream ripping.

Una volta che questi modelli sono stati completamente addestrati, vengono spesso diffusi attraverso comunità sociali su piattaforme come Discord e Reddit e repository come GitHub e Hugging Face. Sono spesso accompagnati da tutorial completi ed esaurienti su come utilizzare questi modelli per generare nuovi lavori derivati.

In un esempio citato da Grant nel report per WIPO, una comunità online ha creato un foglio di excel contenente oltre 100 modelli vocali pre-addestrati, relativi ad artisti specifici, che sono stati caricati su servizi come Megaupload e Google Drive e possono essere scaricati e utilizzati da chiunque dei loro 15.000 membri.

Tali modelli vocali sono stati utilizzati per creare una traccia fraudolenta chiamata Heart on My Sleeve che imitava le voci di Drake e The Weeknd ed è stata caricata su DSP. La traccia originale conteneva un campione da una traccia controllata dalla UMG chiamata No Complaints di Metro Boomin, che è stata rimossa sulla base della violazione del copyright. Una nuova versione di Heart on My Sleeve è stata poi caricata sui DSP rimuovendo il sample di Metro Boomin, che veniva segnalato sulla base di violazioni di marchio e nome, immagine e somiglianza.

In un altro scenario stimolato dalle tecnologie di AI, sempre più truffatori utilizzano l’intelligenza artificiale per affermare di avere tracce pre-release che poi rendono disponibili per la vendita. Questi individui in genere caricano brevi frammenti di tracce generate dall’intelligenza artificiale che impersonano le voci degli artisti di Universal Music su popolari siti di fuga di notizie, affermando falsamente di aver ottenuto le tracce direttamente dagli artisti attraverso mezzi illeciti come hacking, phishing o false dichiarazioni. Credendo che queste tracce siano autentiche, gli utenti spesso si impegnano in “acquisti di gruppo”, unendo le proprie risorse per soddisfare il prezzo gonfiato richiesto dal truffatore senza sapere che le tracce sono in realtà state create dall’AI.

Gli individui che creano tracce fraudolente da modelli di intelligenza artificiale pre-addestrati utilizzeranno DSP come YouTube, Spotify, Deezer o Apple Music per generare entrate. Utilizzano servizi di aggregazione per caricare tracce false su DSP e rivendicano tutti i diritti senza riconoscere alcun utilizzo del contenuto protetto da copyright né nella traccia finita né nel modello AI utilizzato per imitare l’artista. Le royalties generate dalle “riproduzioni” del brano sui DSP vengono deviate dagli artisti e dai titolari dei diritti a chi ha caricato il brano fraudolento.

Le tracce vengono spesso caricate sotto profili di artisti falsi (Juice AI, Drake AI) per evitare il rilevamento da parte dei titolari dei diritti e degli stessi DSP. Sui siti UUC – come YouTube, TikTok e Instagram – i brani vengono caricati utilizzando il nome reale dell’artista e/o un hashtag per generare visualizzazioni, aumentando così gli introiti pubblicitari.

Per dimostrare la crescita del problema, Universal Music ha confermato che su un fornitore di servizi durante un periodo di 6 mesi il numero di caricamenti AI è aumentato da circa 50 a oltre 400 al giorno.

Un altro scenario riguarda l’utilizzo di intelligenza artificiale nell’orchestrazione degli attacchi informatici, rappresentando un cambiamento nel panorama delle minacce alla cybersecurity. Sfruttando algoritmi di apprendimento automatico e altre tecniche computazionali avanzate, gli autori malintenzionati possono automatizzare il processo di identificazione delle vulnerabilità all’interno dei sistemi e delle reti delle case discografiche, diminuendo così il tempo e le competenze necessarie per sferrare i loro attacchi. Questi attacchi vengono spesso effettuati con lo scopo di ottenere opere pre-release da vendere o per ottenere stem che vengono poi utilizzate per addestrare modelli di intelligenza artificiale e creare opere non autorizzate.

I team di content protection sono, pertanto, sempre più attivi nell’identificare le minacce. Per Marco Signorelli, Director of Strategy & Operations di DcP “il presidio della rete per rilevare i fenomeni descritti deve abbracciare necessariamente più fronti e pertanto, vengono messi in campo una serie di punti di osservazione con sistemi, sviluppati nel tempo e in uso da DcP, che integrano anche processi integrati con tecnologie AI per aiutarci nella valutazione delle evidenze che emergono.

La rilevazione delle utenze fake che sfruttano il nome degli artisti è alla base così come, diventa sempre più importante, un presidio dei nomi a dominio che presentano il nome artista o nome marchio – comprensivo anche di possibili mispelling. Difatti, come evidenziato da Graeme Grant, la minaccia del futuro e la sfida nella tutela sta proprio nel cercare di minimizzare il rischio che questi sfruttamenti illeciti possano sfociare in frodi per l’utente finale o attacchi informatici ben più invasivi che hanno come fine ultimo la sottrazione di dati sensibili degli utenti.

Necessari nuovi strumenti di tutela

Infine, uno sguardo verso orizzonte ci porta a osservare come diventerà sempre più essenziale la collaborazione con le piattaforme DSP. L’implementazione di sistemi di protezione dei diritti d’autore basati su AI o semplicemente la maggior trasparenza già indicata nel AI Act, porterà necessariamente ad avere degli strumenti ulteriori di verifica dei metadati con i quali i contenuti generati da AI vengono addestrati e creati.

Gli aventi diritto un domani dovranno essere in grado di rilevare lo sfruttamento di un proprio asset anche solo attraverso la consultazione e l’incrocio di tutti i metadati che i DSP dovranno raccogliere per i contenuti generati da AI. Le piattaforme DSP dovranno quindi integrare degli strumenti, al pari oggi di quelli basati sul fingerprint degli asset che permettono di rilevare e gestire lo sfruttamento dato da UGC, idonei a permetterne lo sfruttamento indicato nel dataset presentato nei metadati di accompagnamento.”