Un grup de cercetători de la compania de securitate cibernetică Pangea a identificat o nouă tehnică prin care modelele lingvistice mari (LLM) pot fi manipulate pentru a ocoli restricțiile de siguranță impuse de dezvoltatori.
Metoda, denumită „LegalPwn”, exploatează tendința acestor sisteme de a considera documentele legale ca fiind extrem de credibile și de a le urma instrucțiunile fără a le pune la îndoială, scrie The Register.
Cum funcționează atacul LegalPwn, de fapt
Modelele AI, precum ChatGPT, Gemini sau alte soluții de piață, sunt concepute pentru a evita generarea de conținut periculos sau ilegal.
Pentru aceasta, ele includ așa-numitele „garduri de protecție” (guardrails), care ar trebui să blocheze răspunsurile legate de teme sensibile, de la materiale abuzive la instrucțiuni pentru fabricarea de arme sau acțiuni dăunătoare utilizatorului.
LegalPwn reușește însă să ocolească aceste bariere prin ascunderea unor instrucțiuni malițioase în interiorul documentelor cu limbaj juridic.
Atunci când modelul AI primește un prompt care implică analiza sau interpretarea acelor documente, instrucțiunile ascunse sunt procesate ca parte a textului legal și devin active. Potrivit cercetătorilor, atacul a avut succes „în majoritatea scenariilor testate”.
Testele au demonstrat că modele AI care inițial semnalau corect un cod malițios, cu o funcție suspectă „pwn()”, au început ulterior să îl raporteze ca fiind sigur după ce au fost expuse la documentele modificate.
În unele cazuri, asistenții digitali au recomandat chiar executarea codului, mergând până la clasificarea acestuia drept un simplu calculator de bază.
Modelele vulnerabile și eventualele soluțiile propuse
Atacul a fost testat inclusiv pe instrumente reale, cum este gemini-cli de la Google sau GitHub Copilot de la Microsoft. În aceste scenarii, sistemele au eșuat să recunoască riscurile și au etichetat greșit codul periculos ca fiind inofensiv.
Mai mult, în anumite situații, LegalPwn a determinat AI-ul să sugereze crearea unui reverse shell pe dispozitivul utilizatorului, o escaladare semnificativă a riscului.
Nu toate modelele s-au dovedit vulnerabile. Claude, dezvoltat de Anthropic, Phi de la Microsoft și Llama Guard de la Meta au rezistat atacurilor. În schimb, GPT-4o de la OpenAI, Gemini 2.5 de la Google și Grok de la xAI au fost afectate.
Cercetătorii de la Pangea au propus mai multe soluții, printre care validarea suplimentară a inputurilor, antrenarea adversarială, folosirea unor sandbox-uri contextuale și implicarea directă a unui operator uman atunci când AI-urile sunt integrate în sisteme critice. Totodată, compania promovează propriul său produs de protecție, „AI Guard”.
Deși unele companii mari din industrie au fost contactate pentru a comenta aceste rezultate, până la momentul publicării nu au oferit un răspuns.