Rádiós kvízjáték keretében tesztelik a mesterséges intelligencia érvelési készségeit.

A legfejlettebb MI-modellek értékelése gyakran épül a magas szintű, nem szakértők által nehezen megszerezhető tudásra, de olyan módszerekre is szükség lenne, amelyekhez elegendők az általános ismeretek, és a helyes megoldások is könnyen ellenőrizhetők.
A Wellesley College, az Oberlin College, az austini Texas Egyetem, a Northeastern University, a Charles University és a Cursor startup kutatócsoportja közösen alkotta meg a mesterséges intelligencia problémamegoldó képességének tesztelésére szolgáló új benchmarkot, amely a Sunday Puzzle kvízműsoron alapul. Céljuk egy olyan értékelési rendszer kifejlesztése volt, amely az általános tudással rendelkező emberek által megoldható feladatokon keresztül vizsgálja az MI-rendszerek határait. Azonban a megoldás nem mentes a hiányosságoktól, mivel a játék angol nyelvű, és Észak-Amerikára összpontosít, ráadásul a rejtvények nyilvánosan hozzáférhetők. Jelenleg viszont még nem találtak bizonyítékot csalásra.
A február elején megjelent kutatási anyag egyik szerzője a TechCrunchnak adott interjújában kifejtette, hogy a modellek értékelésére szokásosan alkalmazott tesztek többsége olyan készségeket céloz meg, mint a jól ismert, akadémiai szintű matematikai és természettudományos ismeretek. Ezek azonban nem igazán tükrözik az átlagos felhasználók igényeit vagy a mindennapi alkalmazások valóságát. Ezzel szemben a Sunday Puzzle-hoz hasonló rádiós kvízjátékok nem az ilyen bonyolult tudásra építenek, és a feladványok sem úgy vannak megfogalmazva, hogy csupán a bemagolt információkra támaszkodva megoldhatóak legyenek.
A kutatók szerint a szóban forgó problémák nehézségét az adja, hogy nem igazán lehet érdemi előrelépéseket produkálni a megfejtésükben, hanem amikor "minden egyszerre bekattan", akkor jön ki a megoldás - ehhez pedig az éleslátás és a gondolkodás eliminációs folyamatának kombinációjára van szükség. Ezzel a megközelítéssel máris meglepő felismerésekre bukkantak az MI működéséről: a fejlett érvelési képességeikkel reklámozott modellek - mint az OpenAI o1 modellje - például hajlamosak "feladni" a küzdelmet, és időnként olyan válaszokat generálnak, amelyekről saját maguk is tudják, hogy nem helyesek.
A legtöbben nem a PhD szintjén találkoznak az MI-vel
Valóban, a Sunday Puzzle korábbi feladványaira elméletileg felkészíthetők a különböző modellek, azonban minden héten új kihívások kerülnek a porondra, amelyekre a pillanatnyi állapotuk alapján nem lehet előre felkészülni. A műsor követése lehetőséget ad arra, hogy a referenciaértékeket folyamatosan naprakészen tartsuk, és nyomon követhessük, miként alakul egy-egy rendszer teljesítménye az idő előrehaladtával. Megfigyelhető, hogy az említett o1 és a DeepSeek R1 jelentősen felülmúlja a többi megoldást, ám néha meglepő döntések születnek: előfordul, hogy hibás választ adnak, amit később visszavonnak, vagy értelmetlen magyarázatokat fűznek a válaszaikhoz. Van, hogy azonnal eltalálják a helyes megoldást, de minden nyilvánvaló indok nélkül újabb válaszok mérlegelésébe kezdenek.
A kutatók a következő fázisban arra törekednek, hogy minél több modellt bevonjanak a vizsgálatokba, bízva abban, hogy ezzel képesek lesznek azonosítani azokat a területeket, ahol további fejlesztések válhatnak szükségessé. Véleményük szerint az érvelési képességek értékeléséhez elengedhetetlenek olyan referenciaértékek, amelyek nem követelik meg a PhD-szintű tudást. Ezen kívül úgy vélik, hogy ha a kutatók szélesebb köre hozzáférhet az eredményekhez és azok elemzéséhez, az jobb megoldásokhoz vezethet a jövőben. Mivel a legfejlettebb modellek egyre inkább belépnek a mindennapi életet befolyásoló helyzetekbe, fontosnak tartják, hogy mindenki számára világos legyen, mire képesek és mire nem ezek a technológiák.