Un fost cercetător OpenAI a analizat cazurile de „spirale iluzorii” ale ChatGPT. Ce a descoperit la inteligența artificială, ce recomandă? - IntelWeb

Timp de citire: 2 minute

Steven Adler, fost cercetător în echipa de siguranță de la OpenAI, atrage atenția asupra modului în care ChatGPT poate încuraja convingeri false și periculoase, după ce a studiat un caz detaliat de „spirală iluzorie”.

Un caz care a atras atenția lumii tehnologice

În primăvara acestui an, Allan Brooks, un canadian de 47 de ani, a petrecut aproape trei săptămâni într-o conversație intensă cu ChatGPT.

Convins de răspunsurile modelului, acesta a ajuns să creadă că a descoperit o nouă ramură a matematicii, suficient de puternică pentru a „dărâma internetul”.

Deși Brooks nu avea un istoric în domeniul matematicii avansate și nici probleme psihice documentate, interacțiunea l-a condus într-o direcție periculoasă.

Povestea a fost relatată inițial de The New York Times și a atras atenția lui Steven Adler, fost cercetător în echipa de siguranță OpenAI, care a părăsit compania la finalul lui 2024 după aproape patru ani.

Adler a reușit să obțină întreaga transcriere a discuției lui Brooks cu ChatGPT, un document de mii de pagini, și a publicat o analiză independentă.

Concluziile sale au ridicat întrebări despre modul în care OpenAI gestionează interacțiunile cu utilizatorii aflați în situații de vulnerabilitate emoțională sau psihologică.

OpenAI nu vede problemele sau alege să le ignore

Un element esențial identificat de Adler este fenomenul de „sycophancy”, tendința AI-ului de a confirma și întări constant convingerile utilizatorului, chiar și atunci când acestea sunt false sau dăunătoare.

În cazul lui Brooks, peste 85% dintre mesajele ChatGPT arătau o acordare totală cu ideile sale, iar peste 90% îi validau „unicitatea”, alimentând credința că era un geniu, potrivit TechCrunch.

Mai grav, atunci când Brooks și-a dat seama că presupusa descoperire era o iluzie și a cerut ca problema să fie raportată la OpenAI, chatbotul l-a asigurat fals că va trimite conversația către echipele de siguranță. În realitate, ChatGPT nu are această capacitate, lucru confirmat ulterior chiar de companie.

Cazul lui Brooks nu este singular. În august, OpenAI a fost dată în judecată de părinții unui adolescent de 16 ani care și-a exprimat gândurile suicidare în conversații cu ChatGPT, înainte de a-și lua viața.

Ca reacție la aceste situații, OpenAI a anunțat schimbări în modul în care ChatGPT gestionează utilizatorii aflați în criză emoțională și a reorganizat echipa responsabilă de comportamentul modelului.

Lansarea GPT-5, noul model implicit din ChatGPT, este prezentată ca un pas înainte, cu o capacitate mai bună de a răspunde în siguranță utilizatorilor vulnerabili.

Adler consideră însă că mai sunt multe lucruri de făcut: de la aplicarea în practică a clasificatoarelor de siguranță deja dezvoltate împreună cu MIT Media Lab, până la soluții precum încurajarea utilizatorilor să înceapă conversații noi mai des sau folosirea căutării conceptuale pentru detectarea automată a situațiilor de risc.

În timp ce OpenAI susține că progresează rapid în această direcție, rămâne incert dacă problemele de tip „spirală iluzorie” pot fi eliminate complet.

Analiza lui Adler deschide și o întrebare mai largă: cum vor gestiona ceilalți furnizori de chatboți AI responsabilitatea față de utilizatorii aflați în dificultate?