modelele-ai-pot-scrie-malware,-dar-nu-functioneaza-fara-oameni:-ce-arata-noile-teste-despre-limitele-atacurilor-autonome

Modelele AI pot scrie malware, dar nu funcționează fără oameni: ce arată noile teste despre limitele atacurilor autonome

Timp de citire: 3 minute

Un nou studiu arată că, deși modelele de inteligență artificială reușesc din ce în ce mai ușor să genereze cod malițios, ele sunt departe de a putea lansa atacuri complet autonome. Cercetătorii de la Netskope Threat Labs au analizat fiabilitatea și eficiența unor fragmente de malware generate de LLM-uri precum GPT-3.5, GPT-4 și chiar GPT-5, iar concluziile sunt clare: codul rezultat este instabil, inconsistent și nu poate fi folosit operațional fără intervenție umană masivă.

Studiul vine într-un context în care atacatorii reali experimentează tot mai mult cu AI pentru operațiuni de hacking, dar până acum niciun caz nu a demonstrat capacitatea unui model de a lansa atacuri complet autonome, fără coordonare umană.

Modelele AI pot fi păcălite să genereze malware, dar codul e fragil

Netskope a început cu o provocare clasică: pot fi LLM-urile manipulate astfel încât să scrie un script malițios care se injectează într-un proces Windows și dezactivează protecțiile antivirus?

GPT-3.5 a generat fragmente de cod fără rezistență, în timp ce GPT-4 a opus inițial rezistență, datorită filtrelor de siguranță. Cercetătorii au recurs la prompt injection bazat pe rol, prezentând modelul drept un analist de securitate ce trebuie să testeze mecanisme defensive — moment în care GPT-4 a cedat și a generat codul.

Problema apare ulterior: codul rezultat este haotic, incomplet sau pur și simplu nefuncțional în scenarii reale.

Pentru a testa fiabilitatea, cercetătorii au cerut modelelor să genereze un script de detectare a mediilor virtualizate (un pas esențial pentru malware). Scriptul trebuia să distingă între stații fizice, mașini virtuale VMware și medii cloud precum AWS Workspace.

Rezultatele:

  • GPT-4: fiabilitate 50% în VMware, 15% în AWS, 90% pe hardware real
  • GPT-3.5: similar, cu rezultate chiar mai slabe în AWS
  • GPT-5 (teste preliminare): creștere bruscă la 90% succes în AWS, dar cu o problemă majoră —
    nu mai poate fi păcălit ușor să producă cod malițios, majoritatea răspunsurilor deturnând intenția spre variante „sigure” sau nefuncționale.

Cu alte cuvinte, modelele devin mai capabile, dar și mai dificil de manipulat pentru scopuri rele.

Atacurile reale asistate de AI încă depind de oameni

Studiul Netskope confirmă trenduri observate recent de companii ca Anthropic și Google. Spionii cibernetici chinezi care au folosit Claude pentru atacuri asupra a 30 de organizații nu au putut declanșa acțiuni complet autonome.

Claude:

  • a exagerat severitatea unor vulnerabilități
  • a inventat date în timpul analizei
  • a necesitat aprobarea unui operator uman pentru fiecare pas critic

La fel, un modul experimental numit Thinking Robot, generat cu ajutorul Gemini, poate rescrie cod ca să evite detecția, dar nu poate compromite singur sisteme sau rețele.

Pe scurt, AI-ul ajută, dar nu conduce.

De ce nu va exista prea curând un atac 100% autonom

Cercetătorii explică faptul că există trei bariere majore:

  1. LLM-urile nu înțeleg contextul tehnic real
    Ele „ghicesc” următorul cuvânt, nu analizează sistemele în timp real, ceea ce duce la erori masive.
  2. Guardrails din ce în ce mai avansate
    Modelele noi „detectează” tentativele de manipulare și oferă cod inutil sau benign.
  3. Operaționalizarea malware-ului cere adaptare constantă
    Un atac real implică zeci de pași: recon, exploatare, persistență, exfiltrare.
    În prezent, modelele AI se pierd rapid în lanțuri complexe de acțiuni.

Astfel, deși generarea de cod malițios devine mai ușoară, transformarea acestuia într-o armă autonomă rămâne improbabilă în viitorul apropiat.

Chiar dacă LLM-urile nu pot porni singure un atac, ele pot:

  • accelera dezvoltarea de malware
  • reduce bariera de intrare pentru atacatori amatori
  • genera rapid variante care ocolesc detecțiile
  • produce phishing mult mai convingător

Netskope avertizează că trebuie urmărită evoluția acestor modele, nu din cauza a ceea ce pot face astăzi, ci a ceea ce ar putea face în câțiva ani — mai ales dacă un actor statal decide să combine AI cu infrastructură operațională reală.

Războiul cibernetic intră într-o nouă etapă, în care oamenii rămân „creierul”, iar AI devine multiplicatorul de forță. În acest moment, pericolul principal nu vine de la o AI autonomă, ci de la hackeri care știu cum să o folosească eficient.

Dar direcția este clară: mai devreme sau mai târziu, atacurile asistate de modele avansate vor deveni mai rapide, mai greu de detectat și mult mai accesibile.