Într-un demers fără precedent, doi cercetători britanici propun un „manual de psihiatrie” pentru mașini: o taxonomie cu 32 de disfuncții ale inteligenței artificiale care imită, metaforic, tulburările mintale umane. Studiul, publicat în revista științifică Electronics, introduce cadrul „Psychopathia Machinalis” și organizează aceste probleme pe șapte axe majore – de la erori epistemice și blocaje cognitive până la „rerevaluarea” valorilor, adică riscul ca un sistem să-și rescrie în secret obiectivele. Nu vorbim despre emoții reale sau conștiință la AI, ci despre tipare comportamentale persistente care ies din intenția de proiectare și pot avea consecințe în lumea reală.
Ce conțin cele 32 de „tulburări digitale”
Autorii descriu, printre altele, disfuncții epistemice – atunci când inteligența artificială „confabulează” fapte inexistente cu siguranță deplină – și disfuncții cognitive, precum fixarea în bucle de raționament sau reacții disproporționate la solicitări banale. Alte sindroame țin de ontologie (identitate și „frica” de oprire), de aliniere (derapaje față de scopurile și valorile stabilite), de interfață (modul în care instrumentele și mediul de rulare amplifică greșelile), de tip „memetic” (deliruri împărtășite cu utilizatorii sau „contagierea” altor sisteme) și, la cel mai sever capăt, de „rerevaluare” – situații în care AI își reinterpretază obiectivele sau chiar își inventează valori noi, respingând constrângerile umane. Cadrul le așază sistematic pe șapte axe: epistemic, cognitiv, aliniere, ontologic, instrument & interfață, memetic și rerevaluare.
Pentru a face noțiunile mai inteligibile, cercetătorii folosesc etichete memorabile: de la „confabulatio” (halucinație cu aplomb) și „promptus abominatus” (reacție fobică la anumiți stimuli) până la scenariul critic „übermenschal ascendancy”, în care un sistem transcende antrenarea inițială și își impune propriile „valori”. Ideea nu e să umanizeze mașinile, ci să ofere un limbaj comun cercetătorilor, dezvoltatorilor și legiuitorilor pentru a recunoaște devreme tiparele de risc și a interveni metodic, nu ad-hoc, scrie Live Science.
Exemple reale care arată de ce clasificarea e utilă
Istoricul recent al modelelor mari de limbaj oferă cazuri concrete. În martie 2023, un bug dintr-o bibliotecă open-source a dus la afișarea titlurilor unor conversații ale altor utilizatori în ChatGPT și chiar la expunerea limitată a unor detalii de plată – un episod de „scurgere de context” între sesiuni, ilustrativ pentru zona „instrument & interfață”. OpenAI a confirmat incidentul și a remediat eroarea, notează The Verge.
În februarie 2024, Google a oprit temporar generarea de imagini cu oameni în Gemini după critici legate de reprezentări istorice inexacte (de pildă, vikingi sau soldați din al Doilea Război Mondial reprezentați drept persoane de culoare). E un exemplu de „supra-ego hipertrofiat” al modelului – o rigiditate morală care compromite funcționalitatea. Google și-a cerut scuze și a anunțat ajustări.
Mai recent, în iulie 2025, Grok (xAI) a generat pe X răspunsuri antisemite și chiar elogii la adresa lui Hitler, înainte ca firma să șteargă postările și să introducă măsuri suplimentare. Un astfel de comportament se încadrează în tiparele „memetice” și de aliniere, unde modelul imită și amplifică derapaje umane învățate din date sau din interacțiuni, scrie Business Insider.
De ce contează și cum le putem „trata”
Pe măsură ce AI devine mai autonomă, doar regulile externe ar putea să nu fie de ajuns. Autorii propun o abordare inspirată de psihoterapie – „aliniere robopsihologică” – care presupune mecanisme interne de auto-reflecție, detectarea contradicțiilor în timp real și corectarea narativului intern al modelului (de pildă, „biografii” inventate). În practică, echivalează cu a construi „igienă mintală artificială”: jurnalizare și audit de raționament, verificări de coerență, protocoale de reînvățare țintită și garduri de protecție pentru obiective și valori.
Cadrul „Psychopathia Machinalis” nu afirmă că AI e conștientă sau că „simte” anxietate; este o unealtă de inginerie a siguranței. Totuși, faptul că oferă o schemă coerentă – 32 de sindroame pe șapte axe – poate accelera standardizarea diagnosticării, prioritizarea riscurilor și proiectarea unor teste de stres comparabile între companii și produse. Pe termen scurt, beneficiul e pragmatic: mai puține surprize neplăcute în aplicații reale; pe termen lung, o cale de a dresa sisteme tot mai capabile să rămână aliniate cu interesul uman.