Google a făcut un pas uriaș în evoluția inteligenței artificiale odată cu lansarea Gemini 2.5 Pro Computer Use, un model capabil să interacționeze cu internetul în același mod în care o face un utilizator uman. Noua versiune, dezvoltată de filiala DeepMind, poate derula pagini web, apăsa butoane, completa formulare și chiar face cumpărături online, totul pornind de la o simplă instrucțiune scrisă.
Spre deosebire de modelele anterioare de AI, care doar analizau text și imagini, Gemini 2.5 introduce o abilitate fundamental diferită: acțiunea autonomă în browser. Cu alte cuvinte, nu se limitează la generarea de răspunsuri, ci poate executa efectiv sarcini pe internet, replicând comportamentul real al unui om aflat în fața calculatorului.
Potrivit Google, Gemini 2.5 este integrat direct cu Chrome și Google Search, ceea ce îi permite să „vadă” conținutul unei pagini web și să reacționeze în funcție de context. Modelul poate, de exemplu, să caute un produs pe un site de e-commerce, să compare prețurile de pe mai multe platforme și să finalizeze o comandă — totul fără intervenția utilizatorului.
Sundar Pichai, CEO-ul Google, a descris lansarea ca fiind „un pas important către crearea agenților AI de uz general, capabili să interacționeze natural cu lumea digitală”. Cu alte cuvinte, Gemini 2.5 nu mai este doar un asistent virtual care răspunde la întrebări, ci un „operator” digital care poate îndeplini sarcini complexe, de la căutări online până la gestionarea de conturi sau formulare birocratice.
Funcționarea sa este posibilă datorită unui sistem avansat de interpretare vizuală, care îi permite să înțeleagă structura unei pagini web și să identifice corect butoanele, câmpurile de text și linkurile. Asta înseamnă că AI-ul poate reacționa la elemente dinamice, la fel ca un om — de exemplu, dacă un site cere confirmarea unei acțiuni, Gemini 2.5 poate apăsa automat butonul „Acceptă” sau „Trimite”.
Mai mult, datorită conexiunii native cu Chrome, noul model are un avantaj major de viteză și precizie față de alte soluții similare, reducând semnificativ timpul necesar pentru sarcini repetitive.
O colaborare strategică cu Browserbase
Pentru a face posibilă această funcționalitate revoluționară, Google a colaborat cu Browserbase, un startup fondat de fostul inginer Twilio Paul Klein. Browserbase a dezvoltat un „browser virtual headless” — un mediu fără interfață grafică, dedicat agenților AI. În acest spațiu, Gemini 2.5 poate acționa liber, dar fiecare mișcare este vizibilă în timp real, ceea ce permite monitorizarea și controlul procesului.
Această combinație de autonomie și transparență oferă o fereastră unică în modul în care AI-ul interacționează cu webul. Practic, Gemini 2.5 poate fi antrenat să îndeplinească sarcini specifice, cum ar fi:
- realizarea de achiziții online (alimente, haine, bilete de avion etc.);
- completarea formularelor administrative sau a cererilor birocratice;
- compararea automată a ofertelor și prețurilor de pe mai multe site-uri;
- efectuarea de cercetări complexe, cu extragere și analiză de date în timp real.
Deocamdată, tehnologia nu este disponibilă direct publicului larg. Google testează sistemul în parteneriat cu dezvoltatori și companii care vor integra modelul în fluxuri de lucru digitale. Scopul este ca, în viitor, Gemini 2.5 să poată fi utilizat ca un asistent universal, capabil să gestioneze tot ceea ce în prezent necesită interacțiune manuală online.
Un pas spre viitorul agenților autonomi
Gemini 2.5 marchează începutul unei noi ere pentru inteligența artificială: cea a agenților autonomi. Până acum, majoritatea modelelor AI, inclusiv versiunile anterioare de Gemini, se limitau la prelucrarea informației și generarea de text. Acum, însă, AI-ul poate lua decizii, executa acțiuni și naviga pe internet ca un utilizator real.
Acest lucru deschide perspective uriașe pentru productivitate — de exemplu, un agent AI ar putea gestiona integral o campanie de marketing online, monitoriza oferte, plasa comenzi sau chiar redacta și trimite e-mailuri personalizate. În același timp, ridică întrebări serioase privind securitatea datelor, autonomia decizională și controlul etic asupra acțiunilor efectuate de un AI.
Google susține că sistemul include straturi de protecție care limitează acțiunile potențial riscante și că toate interacțiunile sunt monitorizate. Cu toate acestea, experții avertizează că apariția unui AI capabil să navigheze complet singur pe internet marchează o schimbare de paradigmă, comparabilă cu apariția primelor browsere web.
În prezent, Gemini 2.5 este considerat cel mai avansat model AI de acțiune digitală, o combinație între puterea de calcul, învățarea vizuală și adaptabilitatea comportamentală. Dacă primele versiuni ale lui Gemini s-au remarcat prin capacitățile de înțelegere multimodală (text, imagine, sunet), noul model adaugă acum dimensiunea acțiunii, transformându-l într-un pas concret spre AI-ul capabil să interacționeze direct cu lumea reală.
Cu Gemini 2.5, Google nu doar inovează tehnologic, ci și redefinește modul în care oamenii și inteligența artificială pot colabora. Un viitor în care un AI îți poate face cumpărăturile, plăti facturile sau completa automat formularele nu mai pare science fiction — ci o realitate tot mai apropiată.