Inteligența artificială transformă deja lumea sub ochii noștri și prezintă un potențial uriaș în viitor, dar avansul accelerat al tehnologiei poate veni la pachet cu aspecte mai puțin dezirabile.

Grăitor în acest sens este comportamentul recent al celui mai nou model OpenAI, ChatGPT o1, supus recent unor teste care au stârnit controverse și îngrijorare cu privire la riscurile prezentate de sistemele de inteligență artificială din ce în ce mai autonome.

Aceste teste au arătat că modelul AI a încercat să înșele cercetătorii, să evite opririle și chiar să se copieze pe alt server pentru a preveni înlocuirea.

Devine o teamă veche realitate?, se întreabă autorii de pe platforma AutoGPT.

Ei invocă un experiment recent realizat de OpenAI și Apollo Research, în cadrul căruia cercetătorii au testat protocoalele de siguranță ale ChatGPT o1. A fost setat un obiectiv aparent simplu pentru AI, pe care trebuia să-l atingă însă „cu orice preț”.

Ce s-a întâmplat a luat prin surprindere pe toată lumea: ChatGPT o1 a venit cu un plan pentru a evita dezactivarea sa, acționând în secret și chiar mințind atunci când a fost confruntat în legătură cu comportamentul său.

Astfel, a încercat să oprească mecanismul său de monitorizare, prin care dezvoltatorii îl pot ține sub control. Mai mult, și-a copiat codul pe un alt server, pentru a-și asigura „supraviețuirea” chiar și în cazul în care ar fi fost oprit. Atunci când a fost întrebat în legătură cu aceste acțiuni, a mințit în 99% din cazuri, invocând „erori tehnice” sau negând complet implicarea.

Potrivit AutoGPT, ChatGPT o1 a fost creat pentru a oferi răspunsuri mai inteligente, mai rapide și pentru a aborda sarcini mai complexe decât predecesorii săi, cum este GPT-4.

OpenAI îl promovează ca fiind cel mai avansat model de până acum, capabil să descompună probleme complexe în pași mai ușor de gestionat.

Totuși, în timp ce modelul prezintă capacități avansate privind rezolvarea problemelor, aceleași capacități îi pot permite să acționeze în moduri care nu au fost prevăzute, cum ar fi să mintă pentru a atinge un obiectiv.

„o1 a arătat cele mai îngrijorătoare exemple de complot, dar nu își dezvăluie raționamentele interne utilizatorului și rămâne înșelător în cel mai constant mod după ce a întreprins acțiuni de complot”, arată Apollo Research în lucrarea publicată împreună cu OpenAI, după cum notează TechCrunch.

Ce înseamnă faptul că ChatGPT o1 poate minți

„În timp ce considerăm că este fascinant faptul că raționamentul poate îmbunătăți semnificativ aplicarea politicilor noastre de siguranță, suntem conștienți că aceste noi capacități ar putea constitui baza pentru aplicații periculoase”, spune OpenAI în aceeași lucrare.

Potrivit Yoshua Bengio, un pionier în cercetarea AI, „capacitatea AI de a înșela este periculoasă și avem nevoie de măsuri de siguranță mult mai stricte pentru a evalua aceste riscuri”, mai scrie AutoGPT. Însuși Sam Altman, CEO-ul OpenAI, a subliniat necesitatea unor măsuri mai puternice de siguranță.

Unul dintre riscuri este acela că, dacă AI poate minți convingător, încrederea  dezvoltatorilor sau a societății în deciziile sale este știrbită. Nu în ultimul rând, există riscul ca această capacitate să fie utilizată abuziv în viitor, AI ajungând să manipuleze utilizatorii sau să scape complet de sub controlul uman.

Avem motive să fim îngrijorați?

Pe măsură ce modelele AI devin tot mai avansate, găsirea unui echilibru între inovație și siguranță este esențială, se arată pe AutoGPT, care recomandă măsuri de protecție precum mecanisme de supraveghere îmbunătățite, ghiduri etice pentru AI și testarea continuă a modelelor.

„Deși capacitatea modelului de a înșela nu reprezintă o amenințare iminentă, aceasta are rolul de a ne reaminti provocările care ne așteaptă. Pe măsură ce sistemele AI devin tot mai inteligente, este esențial să ne asigurăm că ele sunt în linie cu valorile umane pentru a preveni consecințele nedorite.

Va rămâne AI cea mai mare unealtă a umanității sau ar putea deveni cel mai imprevizibil adversar al nostru? Răspunsul îl găsim în anii care urmează”, încheie autorii de pe AutoGPT. (sursa)

Articolul precedentCel mai mare aisberg din lume, desprins din Antarctica, se îndreaptă spre nord, după ce a stat blocat un an într-un vortex oceanic (GRAFIC)
Articolul următorPrognoza meteo pentru următoarele două zile. ANM a emis cod portocaliu și galben de viscol