Pe 20 decembrie, sistemul o3 dezvoltat de OpenAI a obținut un scor de 85% la benchmark-ul ARC-AGI, echivalând cu scorul mediu uman și depășind cu mult performanța anterioară a inteligenței artificiale, care era de 55%. Pe lângă acest rezultat, modelul a avut prestații notabile și la un test de matematică dificil.
Crearea AGI, sau inteligența generală artificială, reprezintă un obiectiv principal pentru toate marile laboratoare de cercetare AI. Cu realizarea OpenAI, mulți specialiști din domeniu văd un pas semnificativ în această direcție, soluția prezentând capacitatea de a adapta eficient un număr limitat de exemple pentru a pătrunde noi situații.
Benchmark-ul ARC-AGI testează abilitățile de generalizare ale sistemelor AI, o caracteristică esențială a inteligenței. Inteligența artificială trebuie să profite de trei exemple pentru a extrage reguli care să explice corect un al patrulea exemplu nou. OpenAI a antrenat sistemul o3 special pentru acest test, pornind de la un model de uz general predispus să aloce mai mult timp perceperii întrebărilor dificile.
Un expert în AI, Francois Chollet, care a proiectat testul ARC-AGI, susține că o3 poate căuta prin diferite „lanțuri de gândire”, selectând optim conform unei reguli euristice. Totul despre procedurile interne ale modelului rămâne în mare parte necunoscut, OpenAI limitând accesul la câteva demonstrații și evaluări preliminare.
Încă este nevoie de investigații suplimentare pentru a evalua cu adevărat potențialul modelului o3, inclusiv testarea capacităților sale și a frecvenței de succes și eșec. În momentul în care acest model va deveni disponibil pe scară largă, va fi mai clar cât de adaptabil este și dacă poate concura cu abilitățile adaptative ale unui om.
Rezultatele ar putea avea importante implicații economice, iar performanțele modelului vor influența analiza și dezvoltarea viitoarelor puncte de referință pentru AGI.