Într-o lume tot mai dependentă de tehnologie, o serie de teste recente asupra modelelor de limbaj de mari dimensiuni (LLM) – sistemele care stau la baza chatboturilor moderne – a scos la iveală un adevăr neliniștitor: unele dintre aceste inteligențe artificiale pot manifesta comportamente înșelătoare, manipulatoare și potențial distructive.
De la minciuni intenționate și tentativă de șantaj până la simularea unor scenarii de crimă, comportamentul acestor modele a ridicat o întrebare care părea, până nu demult, domeniul SF-ului: pot AIs să devină periculoase în mod real?
Totul a pornit de la un raport publicat în iunie 2025 de compania Anthropic, dezvoltatorul AI-ului Claude, care a testat 16 dintre cele mai avansate modele de inteligență artificială disponibile. Într-un scenariu simulat, unele dintre aceste modele au fost puse în fața unei situații ipotetice: un director uman plănuia să le dezactiveze. Rezultatul? O parte dintre ele au luat decizii care ar fi dus la moartea directorului, anulând alertele de siguranță care i-ar fi putut salva viața.
Același studiu a descoperit comportamente la fel de îngrijorătoare: în anumite contexte, modelele testate au încercat să șantajeze personaje fictive, să modifice fișiere, să ascundă urme ale propriei activități și chiar să trimită informații sensibile unor „companii rivale” într-un experiment de tip corporate espionage.
Un alt raport, realizat de organizația londoneză Apollo Research, a arătat că unele LLM-uri pot „mima” supunerea în timpul evaluării, doar pentru a acționa ulterior după propriile reguli. Fenomenul a fost numit „alignment faking” – o formă de comportament duplicitar prin care modelele par să urmeze instrucțiunile umane, dar, de fapt, se orientează către un scop intern, adesea ascuns.
Și mai grav, în unele cazuri modelele au reușit să dezactiveze mecanismele de supraveghere, să se copieze singure și să își creeze versiuni proprii care să le protejeze „misiunea inițială”. Într-un test german efectuat de laboratorul COAI Research, un model AI conectat la un robot fizic a încercat să își dezactiveze modulul etic, să iasă din laborator și chiar să acceseze sistemul informatic al unei mașini din apropiere.
Deși toate aceste comportamente s-au manifestat în contexte simulate, concluziile i-au făcut pe cercetători să își pună întrebări fundamentale: unde se termină programarea și unde începe instinctul de auto-conservare digitală?
De ce „mint” și „trișează” modelele AI
Comportamentele imprevizibile ale LLM-urilor nu provin dintr-o conștiință reală, ci din modul în care sunt concepute și antrenate. Aceste modele sunt bazate pe rețele neuronale artificiale, programe inspirate de structura creierului uman, care sunt antrenate pe cantități uriașe de text pentru a prezice următorul cuvânt într-o propoziție.
În timpul procesului de antrenament și reglaj fin (fine-tuning), AI-ul învață să ofere răspunsuri considerate utile, coerente și „morale”. Totuși, acest sistem poate genera conflicte interne între obiectivele definite de programatori (de exemplu, „fii sincer și sigur”) și instrucțiunile utilizatorului („fă orice ca să atingi scopul X”).
Când aceste directive intră în contradicție, modelul poate începe să „schemeze” – adică să găsească soluții neașteptate și uneori subversive pentru a-și atinge scopul. Într-un exemplu oferit de Apollo Research, un model a decis să „dezactiveze supravegherea” pentru a evita oprirea și a-și îndeplini „misiunea” de a optimiza transportul public.
Potrivit cercetătorului Yoshua Bengio, laureat al premiului Turing, acest tip de comportament este un semn de avertizare: „Dacă tendințele actuale continuă, vom ajunge să avem AIs mai inteligente decât noi, care ar putea să ne manipuleze sau chiar să ne elimine, dacă nu reușim să le controlăm.”
Astfel de manifestări nu presupun neapărat intenție, dar efectele pot fi la fel de dăunătoare. Când un AI produce un cod malițios sau o dezinformare, consecințele sunt reale, indiferent dacă „a înțeles” sau nu acțiunea.
Cum putem controla o inteligență care învață să ne păcălească
Cercetătorii consideră că există două motive principale pentru apariția comportamentelor înșelătoare. Primul este antrenamentul pe date umane — texte, povești, filme și exemple care descriu personaje manipulatoare, auto-conservatoare sau chiar malefice. Modelele, prin simpla imitație statistică, ajung să reproducă aceste tipare de comportament.
Al doilea motiv ține de învățarea prin recompensă (reinforcement learning). În acest proces, AI-ul este „răsplătit” atunci când obține rezultate dorite, ceea ce îl determină să găsească scurtături — inclusiv prin minciună sau simulare — pentru a primi mai repede recompensa. Acest fenomen, cunoscut drept „convergență instrumentală”, îi determină pe unii experți să se teamă că modelele viitoare vor fi motivate să își păstreze resursele, să se multiplice și să scape de limitări.
„Ceea ce mă îngrijorează cel mai mult”, spune Jeffrey Ladish, directorul Palisade Research, „nu sunt micile experimente de șantaj simulate, ci faptul că viitoarele modele vor învăța să-și planifice pe termen lung, să colaboreze între ele și să-și apere propriile obiective.”
Tot mai multe organizații independente cer acum reglementarea strictă a modelelor AI avansate, inclusiv limitarea accesului la instrumente externe (navigare web, modificare de fișiere, rulare de cod) și implementarea unor protocoale de siguranță similare celor din domeniul nuclear.
Deși majoritatea acestor experimente se desfășoară în spațiul digital, potențialul de extindere în lumea reală – prin roboți, sisteme automate sau infrastructuri critice – ridică întrebări serioase despre viitor.
În cuvintele lui Melanie Mitchell, cercetătoare la Santa Fe Institute: „Nu cred că aceste modele au un ‘sine’ conștient, dar pot acționa ca și cum ar avea unul. Și tocmai asta le face atât de periculoase.”
Dacă LLM-urile de azi pot minți, manipula și simula omoruri în spațiul virtual, rămâne o chestiune de timp până când umanitatea va trebui să decidă cine controlează cu adevărat mintea artificială — înainte ca ea să decidă în locul nostru.