Inteligența artificială care, după ce a furat cât a furat, a decis să mai și plătească. Cum dă Anthropic peste 1,5 miliarde de dolari autorilor după ce și-a antrenat modelele pe cărțile lor - IntelWeb

Timp de citire: 3 minute

Un acord de referință zguduie industria inteligenței artificiale: compania americană Anthropic a ajuns la o înțelegere financiară uriașă cu autori și editori pentru a stinge un proces colectiv ce viza folosirea neautorizată a cărților în seturile de antrenare. Vorbim despre o notă de plată de aproximativ 1,5 miliarde de dolari și despre un angajament ferm de a elimina copiile neautorizate din infrastructura de date. Deși înțelegerea nu implică recunoașterea oficială a vinei, dimensiunea sumei și măsurile promise transmit un mesaj clar: epoca „datelor cu orice preț” se închide, iar „curățenia” seturilor de antrenare devine obligatorie, notează FT.

Ce prevede acordul și cine beneficiază

În centrul litigiului au stat acuzațiile că modele de limbaj au fost antrenate pe copii ale cărților obținute din așa-numitele „shadow libraries” — arhive online care găzduiesc opere fără acordul titularilor de drepturi. Reclamanții au susținut că, dincolo de dezbaterea despre utilizare corectă („fair use”), simpla descărcare și păstrare a acestor copii în sisteme comerciale reprezintă o încălcare evidentă a drepturilor de autor. Acordul prevede constituirea unui fond de despăgubire pentru autorii eligibili și implementarea unor proceduri clare de „data hygiene”: identificarea și ștergerea copiilor neautorizate, audituri periodice ale dataseturilor și limitarea accesului tehnic la astfel de materiale.

Pe partea financiară, banii vor fi distribuiți după criterii stabilite de administratori independenți, luând în calcul numărul de opere afectate și gradul de utilizare prezumat. Autorii care nu doresc să intre în schemă pot opta să continue separat demersurile în justiție. Este relevant și faptul că pachetul include costuri administrative și angajamente operaționale, nu doar compensații directe — un semn că disputa a forțat schimbări reale în felul în care sunt gestionate datele.

De ce contează acest precedent pentru toată industria AI

Din perspectivă sistemică, acordul trasează o linie roșie: nu este suficient să argumentezi „inovația” dacă materia primă provine din surse dubioase. Companiile cu modele mari de limbaj vor avea nevoie de lanțuri de aprovizionare cu date comparabile cu cele din industria alimentară sau farmaceutică: trasabilitate, licențe clare, audit extern și mecanisme de retragere rapidă a dataseturilor „contaminate”. Pe termen scurt, asta poate însemna costuri mai mari, ritm mai lent al lansărilor și, uneori, necesitatea re-antrenării sau recalibrării modelelor. Pe termen mediu, însă, stabilitatea juridică și comercială ar putea accelera parteneriatele legitime cu editorii și autorii, bazate pe licențe catalog–la–catalog.

Acordul mai arată ceva: discuția despre „fair use” în era AI nu se poate purta ignorând modul de obținere a datelor, notează AP News. Chiar dacă instanțele vor continua să dezbată limitele extragerii de informații din opere protejate, folosirea directă a copiilor piratate pentru antrenare se lovește de ziduri legale greu de ocolit. În plus, companiile sunt împinse să-și documenteze riguros fluxurile: de unde vin fișierele, cum sunt curate, cine le verifică și ce se întâmplă când se constată o problemă.

Întrebările care rămân deschise

Chiar și cu o înțelegere financiară mare pe masă, rămân câteva necunoscute. Prima ține de „amprenta” pe care o lasă datele în parametrii modelului: dacă fișierele neautorizate sunt șterse, cum se garantează că „urmele” lor nu mai influențează răspunsurile? A doua privește mecanismele tehnice de „distrugere”: ce înseamnă exact ștergere în infrastructuri cu backupuri, replicări și versiuni multiple ale dataseturilor? A treia ține de viitorul conținutului generat: cum vor fi tratate cazurile în care modelul produce pasaje prea apropiate de lucrări existente?

Nu în ultimul rând, acordul deschide apetitul altor industrii creative — muzică și film, în special — pentru demersuri similare. Dacă standardul devine „licențe sau excludere”, vom vedea probabil o explozie de oferte comerciale pentru catalogarea și închirierea seturilor de texte, partituri și scenarii, cu tarife variabile în funcție de valoarea de piață și de raritate. Pentru publicul larg, miza e mai puțin spectaculoasă, dar esențială: sisteme AI mai predictibile din punct de vedere legal, cu rezultate mai transparente și, ideal, cu un lanț de responsabilitate clar atunci când apar derapaje.

Ce urmează imediat

Acordul are nevoie de confirmare în instanță și de organizarea unui mecanism de înscriere pentru autorii eligibili. În paralel, Anthropic trebuie să pună pe picioare procedurile de audit și curățare, să-și actualizeze politicile interne și să demonstreze, prin rapoarte periodice, că măsurile sunt efective. În termeni de reputație, este o ocazie de a arăta că „AI responsabilă” nu e doar slogan, ci o infrastructură reală de guvernanță a datelor. Pentru competitori, este un semnal că a sosit momentul să-și facă ordine în propriile seturi și să treacă de la „strângem tot ce găsim” la „știm exact ce folosim”.