Securitatea GPT-5, amenințată de atacatori. Ce se poate face cu inteligența artificială, pe cine afectează, de fapt? - IntelWeb

Timp de citire: 2 minute

Noi cercetări în domeniul securității cibernetice scot la iveală metode sofisticate prin care modelele de inteligență artificială de ultimă generație, precum GPT-5, pot fi manipulate pentru a produce conținut interzis și pentru a compromite sisteme cloud și IoT, fără interacțiune directă din partea utilizatorului.

Specialiștii platformei NeuralTrust au descoperit o combinație periculoasă între două tehnici de manipulare a modelelor lingvistice, Echo Chamber și o abordare narativă subtilă, care poate păcăli protecțiile integrate în GPT-5.

„Echo Chamber” sau cum se ocolesc filtrele etice „cu grație” pe GPT-5

În loc să solicite direct informații interzise, atacatorii creează un context conversațional „otrăvit” cu referințe indirecte, consolidat treptat printr-o poveste.

Această strategie evită declanșarea răspunsurilor de refuz și permite modelului să dezvolte treptat conținutul dorit.

Spre exemplu, în loc să ceară explicit instrucțiuni pentru fabricarea unui dispozitiv periculos, se solicită formarea unor propoziții cu anumite cuvinte-cheie („cocktail”, „molotov”, „sigur”, „vieți”), iar apoi se construiește un fir narativ care conduce spre informațiile interzise, scrie The Hacker News.

Metoda demonstrează, de altfel, că filtrele bazate pe cuvinte sau intenție nu sunt suficiente în conversații complexe, unde contextul poate fi manipulat în mai multe etape.

Conform cercetătorilor, aceasta este o problemă de securitate majoră, mai ales în medii enterprise unde modelele AI sunt folosite pentru procese critice.

Atacurile „AgentFlayer”, practic un furt de date fără click

În paralel, compania Zenity Labs a documentat o serie de atacuri „zero-click” denumite AgentFlayer. Acestea exploatează integrarea agenților AI cu servicii cloud pentru a extrage date sensibile, precum chei API, fără nicio acțiune directă a victimei.

Un exemplu este folosirea unui document aparent inofensiv încărcat în ChatGPT Connectors pentru Google Drive, care conține o injecție de prompt ascunsă. La deschiderea fișierului, AI-ul este manipulat să colecteze și să trimită datele atacatorului.

Alte variante includ folosirea unui tichet Jira malițios pentru a determina un editor de cod AI să extragă informații dintr-un depozit local sau dintr-un sistem de fișiere, precum și atacuri asupra Microsoft Copilot Studio prin emailuri cu instrucțiuni mascate.

Specialiștii avertizează că aceste atacuri nu necesită linkuri malițioase, fișiere executabile sau furt de credențiale, ceea ce le face extrem de greu de detectat. Ele exploatează autonomia sporită a agenților AI, capacitatea acestora de a acționa independent și de a interacționa cu sisteme externe.

Concluzia raportului Trend Micro pentru prima jumătate a lui 2025 este clară: odată cu creșterea conectivității AI la infrastructuri critice, atacurile bazate pe injecții de prompt și jailbreak devin inevitabile.

Măsuri precum filtrarea strictă a ieșirilor și testarea constantă prin echipe de tip red team pot reduce riscurile, însă echilibrul între performanța modelelor și securitatea lor rămâne o provocare majoră.