DeepMind, filiala Google dedicată inteligenței artificiale, a prezentat o arhitectură în doi pași pentru roboți, concepută să îi facă mai versatili și mai autonomi în lumea reală. Noutatea stă în colaborarea dintre două modele complementare, capabile să planifice „ca un creier de nivel înalt”, să caute informații pe internet atunci când le lipsește contextul și apoi să traducă planul în mișcări precise. În demonstrațiile companiei, roboții au reușit să sorteze corect deșeurile după regulile locale sau să pregătească un bagaj, adaptând conținutul la prognoza meteo din destinație.
Cum funcționează duetul de modele
La baza sistemului se află două componente: Gemini Robotics-ER 1.5 și Gemini Robotics 1.5. Primul acționează ca un „dirijor” cu vedere de ansamblu. Este un model multimodal (viziune-limbaj) capabil să înțeleagă scene fizice, să elaboreze planuri în mai mulți pași, să evalueze progresul și, la nevoie, să ceară ajutor din exterior — inclusiv prin căutări pe internet. Practic, atunci când sarcina depinde de reguli locale sau de informații actualizate (cum reciclezi corect într-un anumit oraș ori dacă plouă mâine la Londra), ER 1.5 pune întrebările potrivite și integrează răspunsurile în planul de acțiune.
După ce „strategul” stabilește pașii, intră în scenă Gemini Robotics 1.5, un model viziune-limbaj-acțiune (VLA) care transformă instrucțiunile în comenzi motorii. Acesta „vede” mediul cu camerele robotului, înțelege indicațiile în limbaj natural și controlează brațele, prinderile sau deplasarea pentru a executa sarcina, arată cei de la FT. Un element remarcabil este transferul mișcărilor: comportamente învățate pe un robot pot fi portate pe un altul, fără o perioadă lungă de specializare. Asta scurtează semnificativ timpul de punere în producție pentru familii diferite de roboți.
Ce pot face concret noile sisteme
În scenariile prezentate, un robot a primit sarcina de a sorta la fața locului gunoiul menajer, compostul și reciclabilele. Înainte de a apuca efectiv obiectele, ER 1.5 a căutat online regulile municipale relevante (exemplul dat a fost San Francisco), a extras categoriile acceptate și excepțiile, apoi a generat o succesiune de pași: inspectează obiectul, identifică materialul, verifică regulile, plasează în recipientul corect. VLA a preluat planul și l-a executat, folosindu-se de vedere și control motor pentru a muta obiectele în containerele potrivite.
Într-o altă demonstrație, robotul a ajutat la pregătirea unui bagaj pentru o călătorie la Londra. Modelul „strateg” a consultat prognoza meteo, a dedus că este probabil să plouă și a adăugat în listă umbrela și o jachetă impermeabilă, alături de obiectele standard. A urmat apoi selectarea efectivă a itemilor dintr-un mediu de lucru, plasarea lor în geantă și verificarea finală a listei. Exemplul arată cum internetul devine o extensie a memoriei robotului, astfel încât acțiunile pot fi corelate cu realitatea curentă, nu doar cu reguli „înghețate” în setul de antrenament.
De ce contează, care sunt limitele și ce urmează
Abordarea în doi pași împinge roboții mai aproape de statutul de asistenți generaliști. Separarea clară între planificare și execuție permite sistemului să fie mai flexibil: dacă regulile se schimbă sau contextul este ambiguu, „creierul” poate căuta informații proaspete, în timp ce „corpul” execută mișcări din ce în ce mai precise pe baza acelorași principii de control. Pentru industrie, înseamnă potențial costuri mai mici de adaptare, deoarece competențele motorii odată învățate pot fi transferate între platforme hardware diferite.
Totuși, există limite evidente. Accesul la internet introduce dependențe de calitatea și credibilitatea surselor, necesitând filtre, citări și mecanisme de verificare. În mediile fizice, percepția rămâne fragilă în fața obiectelor atipice, a iluminării variabile sau a occluderilor. În plus, integrarea în spații reale — de la depozite la bucătării — ridică probleme de siguranță: robotul trebuie să știe când să se oprească, cum să evite coliziunile și cum să ceară ajutorul unui om. Nu în ultimul rând, aspectele de confidențialitate și guvernanță devin centrale atunci când un agent robotic consultă web-ul și ia decizii în timp real.
Pe termen scurt, este de așteptat ca astfel de sisteme să fie pilotate în medii controlate, unde sarcinile au structură clară (sortare, asamblare ușoară, manipulare de obiecte) și unde accesul la informații externe chiar adaugă valoare. Dacă rezultatele se confirmă, următorul pas va fi standardizarea „interfeței” dintre planificatorii de nivel înalt și controlul motor, astfel încât producătorii de roboți să poată adopta mai ușor același „creier” pe platforme diferite. În paralel, comunitatea de cercetare va pune accent pe robusteză, pe învățarea din medii diverse și pe auditarea deciziilor, pentru ca „roboții care gândesc” să fie nu doar utili, ci și previzibili și siguri.