Egy mesterséges intelligenciának sikerült megcsalnia az emberiség legjobb kínálatát, miután felfedezte a Q * bert klasszikus arcade játék kihasználását és futott vele.
Míg a mesterséges intelligencia korábbi iterációi megfelelően játszanák a Q * bert, a játék működésének elsajátításának egy bizonyos pontján felfedez egy olyan kihasználást, amely lehetővé teszi őrült pontok gyűjtését. Természetesen, mint bármelyik eredményvadász játékos, megismétli a folyamatot, így a lehető leghatékonyabb módon növelheti pontszámát.
Az alábbi videóban láthatja a mesterséges intelligenciát, amely a platformokon jár. Eleinte úgy tűnik, mintha céltalanul ugrálna a platformok között. Ahelyett, hogy látná a játék előrelépését a következő fordulóba, a Q * bert beleakad egy hurokba, ahol minden platformja villogni kezd - itt az AI ezután folytathatja a pontszám-őrületet, és hatalmas pontokat gyűjthet.
OLVASSA TOVÁBB: Az egyik legvitatottabb játéklemez végül hiteltelenné vált
hogyan lehet megmondani, hogy egy mobiltelefon ki van-e nyitva
Hogyan nyerte meg az AI a Q * bert háborút
Megdöntve a cím minden idők rekordját, az AI hihetetlenül magas pontszámot ért el az evolúciós stratégia algoritmus programozásának köszönhetően. Az evolúciós stratégiák (ES) eltérnek a szokásos megerősítő tanulástól (RL), amelyet a hagyományos mesterséges intelligencia használ, mivel generációs tanulása miatt skálázhatóbbnak tekintik.
Minden tanulási ciklust generációnak neveznek, és addig folytatja feladatát, amíg egy meghatározott feltétel (ebben az esetben magas pontszám) teljesül. Minden egyes egymást követő generációval az AI magába szívja az előző generáció tudását, ezért jobban képes elérni ugyanazt a célt és meghaladja azt. Folytasd, és olyan AI-vel fogsz végezni, amely abszolút páratlan a feladatában. Pontosan ez történt itt a Q * bert pontszámmal.
Vázolta a papír , amelyet a múlt héten publikáltak a németországi Freiburgi Egyetem kutatói, úgy tűnik, hogy a hiba nem volt ismert mennyiség. Valójában, bár nem lepődnek meg túlságosan a hiba megtalálásán, érdekes látni, hogy az AI hogyan ment előre, és megtanulta kiaknázni minden egyes játékát, hogy maximalizálja pontszerzési lehetőségeit.
OLVASSA TOVÁBB: Ez a mesterséges intelligencia megtanulta elsajátítani a Super Mario Bros-t
A hiba megtalálásához az ügynöknek először meg kellett tanulnia szinte teljesíteni az első szintet - ezt nem egyszerre, hanem sok apró fejlesztéssel alkalmazták - magyarázták a kutatók A regisztráció . Gyanítjuk, hogy a képzés egy pontján az egyik utódmegoldás találkozott a hibával, és sokkal jobb pontszámot kapott testvéreihez képest, ami viszont növelte hozzájárulását a frissítéshez - súlya a súlyozott átlagban volt a legnagyobb. Ez lassan áthelyezte a megoldást abba a térbe, ahol egyre több utód kezdett ugyanazzal a hibával találkozni.
Nem ismerjük a hiba pontos megjelenési feltételeit; lehetséges, hogy csak akkor jelenik meg, ha az ágens nem optimálisnak tűnő mintát követ, [például amikor az ügynök időt pazarol, vagy akár életet veszít]. Ha ez lenne a helyzet, akkor a standard RL-nek rendkívül nehéz lenne megtalálni a hibát: ha növekményes jutalmakat használ, akkor olyan stratégiákat fog tanulni, amelyek gyorsan hoznak valamilyen jutalmat, nem pedig olyan tanulási stratégiákat, amelyek egy ideig nem sok jutalmat eredményeznek, és aztán hirtelen nagyot nyer.
Lásd kapcsolódó Todd Rogers, a Dragster bajnoka 35 év után éppen elvesztette koronáját Ez a mesterséges intelligencia 17 napja tanulja elsajátítani a Super Mario Bros 1-2-t Nézze meg, ahogyan a mesterséges intelligencia megtanulja a vezetést a Twitch GTA V-n
Azonban a bot csodálatos eredményei ellenére a kutatók nem állítják, hogy ez az ES-bajnok RL-n keresztül történő tanulásának esete. Valójában mindkét rendszernek megvannak a maga problémái, és a kettő kombinációját nagyrészt a legjobb megoldásnak tekintik.
Ugyanaz az ES módszer más Atari játékokon sem hozta közel a pozitív eredményeket. Másrészt az RL felelős a bal, jobb és középső rekordok szétzúzásáért, beleértve a világ legjobb GO-játékosának megverését. Az ES-nek mégis megvan a maga helye a dolgokban, és valójában az, hogy az Nvidia sok AI-edzést hajt végre, mivel nagyobb számítási teljesítményt igényel, de hosszabb ideig jobb eredményeket ér el.
Függetlenül attól, hogy az AI fejlesztésének melyik útja lesz a jövő, legalábbis ez a rendszert átverő bot nem olyan rossz, mint ez most szégyenteljes videojáték világbajnok .