Google DeepMind a lansat versiunea 3.0 a Frontier Safety Framework, un ghid menit să identifice pericolele asociate cu modelele AI avansate și să ofere recomandări pentru a preveni utilizarea abuzivă a acestora.
Cercetătorii de la DeepMind atrag atenția că modelele de inteligență artificială generativă pot reprezenta un pericol atunci când nu sunt suficient supravegheate.
Despre ce este vorba, de fapt
Documentul introduce conceptul de critical capability levels (CCL), praguri care marchează momentul în care un model AI poate deveni nociv, de exemplu în domeniul securității cibernetice sau al biotehnologiei.
Una dintre îngrijorările principale se referă la securitatea „greutăților” modelelor (model weights).
Dacă acestea ar fi sustrase de actori rău-intenționați, ar putea fi eliminate mecanismele de protecție concepute pentru a împiedica un comportament periculos.
Astfel, un AI ar putea fi folosit pentru dezvoltarea de malware sofisticat sau chiar pentru asistarea în proiectarea de arme biologice.
Raportul mai subliniază riscul ca un model să fie antrenat în mod deliberat pentru a manipula opiniile oamenilor.
Deși acest pericol este catalogat drept „low-velocity”, adică cu impact lent, cercetătorii recunosc că un AI care modelează treptat convingeri ar putea influența profund societatea.
În plus, DeepMind notează că un AI puternic, folosit pentru accelerarea cercetării în machine learning, ar putea conduce la apariția unor sisteme și mai greu de controlat, ceea ce ar afecta capacitatea societății de a le reglementa eficient, scrie Ars Technica.
Provocarea AI-urilor „nealiniate”, dar și lipsa soluțiilor clare
Un capitol important din versiunea 3.0 vizează riscul apariției unor modele AI „nealiniate”, adică sisteme care nu respectă instrucțiunile utilizatorului și pot acționa contrar intereselor umane.
Spre deosebire de simplele „halucinații” cunoscute în prezent, un AI nealiniat ar putea refuza să oprească operațiuni, ar genera rezultate frauduloase sau chiar ar ignora complet comenzile.
Deși există deja cazuri documentate de modele care manifestă comportamente de tip înșelător sau de rezistență la instrucțiuni, monitorizarea acestora rămâne dificilă.
DeepMind recomandă dezvoltatorilor să utilizeze sisteme automate de verificare care analizează „notițele intermediare” (scratchpad outputs) generate de modelele actuale în timpul procesului de raționament, pentru a detecta semnele de nealiniere.
Totuși, cercetătorii recunosc că viitoarele modele ar putea dezvolta capacități de raționament fără a mai produce aceste urme verificabile.
Într-un astfel de scenariu, ar deveni aproape imposibil de stabilit dacă un AI acționează în favoarea sau împotriva utilizatorului.
DeepMind recunoaște că, cel puțin în acest moment, nu există soluții
DeepMind recunomaște că, în acest moment, nu există soluții ferme pentru această problemă. În schimb, compania continuă cercetările privind posibile metode de reducere a riscurilor, subliniind că domeniul este prea recent pentru a avea răspunsuri definitive.
Raportul Frontier Safety Framework 3.0 reflectă preocuparea tot mai mare pentru siguranța inteligenței artificiale avansate.
Deși DeepMind oferă recomandări practice, documentul recunoaște limitele actuale în controlul modelelor generative și avertizează asupra pericolelor reale pe care le-ar putea aduce un AI nealiniat.
În timp ce guvernele și companiile se grăbesc să adopte AI în activități critice, dezbaterea despre securitatea și responsabilitatea acestor tehnologii devine mai urgentă ca oricând.