Legfontosabb Streaming Szolgáltatások Az AI megtanul csalni a Q * bert-en oly módon, ahogy még soha ember nem tett

Az AI megtanul csalni a Q * bert-en oly módon, ahogy még soha ember nem tett



Egy mesterséges intelligenciának sikerült megcsalnia az emberiség legjobb kínálatát, miután felfedezte a Q * bert klasszikus arcade játék kihasználását és futott vele.

Míg a mesterséges intelligencia korábbi iterációi megfelelően játszanák a Q * bert, a játék működésének elsajátításának egy bizonyos pontján felfedez egy olyan kihasználást, amely lehetővé teszi őrült pontok gyűjtését. Természetesen, mint bármelyik eredményvadász játékos, megismétli a folyamatot, így a lehető leghatékonyabb módon növelheti pontszámát.

Az alábbi videóban láthatja a mesterséges intelligenciát, amely a platformokon jár. Eleinte úgy tűnik, mintha céltalanul ugrálna a platformok között. Ahelyett, hogy látná a játék előrelépését a következő fordulóba, a Q * bert beleakad egy hurokba, ahol minden platformja villogni kezd - itt az AI ezután folytathatja a pontszám-őrületet, és hatalmas pontokat gyűjthet.

OLVASSA TOVÁBB: Az egyik legvitatottabb játéklemez végül hiteltelenné vált

hogyan lehet megmondani, hogy egy mobiltelefon ki van-e nyitva

Hogyan nyerte meg az AI a Q * bert háborút

Megdöntve a cím minden idők rekordját, az AI hihetetlenül magas pontszámot ért el az evolúciós stratégia algoritmus programozásának köszönhetően. Az evolúciós stratégiák (ES) eltérnek a szokásos megerősítő tanulástól (RL), amelyet a hagyományos mesterséges intelligencia használ, mivel generációs tanulása miatt skálázhatóbbnak tekintik.

Minden tanulási ciklust generációnak neveznek, és addig folytatja feladatát, amíg egy meghatározott feltétel (ebben az esetben magas pontszám) teljesül. Minden egyes egymást követő generációval az AI magába szívja az előző generáció tudását, ezért jobban képes elérni ugyanazt a célt és meghaladja azt. Folytasd, és olyan AI-vel fogsz végezni, amely abszolút páratlan a feladatában. Pontosan ez történt itt a Q * bert pontszámmal.

Vázolta a papír , amelyet a múlt héten publikáltak a németországi Freiburgi Egyetem kutatói, úgy tűnik, hogy a hiba nem volt ismert mennyiség. Valójában, bár nem lepődnek meg túlságosan a hiba megtalálásán, érdekes látni, hogy az AI hogyan ment előre, és megtanulta kiaknázni minden egyes játékát, hogy maximalizálja pontszerzési lehetőségeit.

OLVASSA TOVÁBB: Ez a mesterséges intelligencia megtanulta elsajátítani a Super Mario Bros-t

A hiba megtalálásához az ügynöknek először meg kellett tanulnia szinte teljesíteni az első szintet - ezt nem egyszerre, hanem sok apró fejlesztéssel alkalmazták - magyarázták a kutatók A regisztráció . Gyanítjuk, hogy a képzés egy pontján az egyik utódmegoldás találkozott a hibával, és sokkal jobb pontszámot kapott testvéreihez képest, ami viszont növelte hozzájárulását a frissítéshez - súlya a súlyozott átlagban volt a legnagyobb. Ez lassan áthelyezte a megoldást abba a térbe, ahol egyre több utód kezdett ugyanazzal a hibával találkozni.

Nem ismerjük a hiba pontos megjelenési feltételeit; lehetséges, hogy csak akkor jelenik meg, ha az ágens nem optimálisnak tűnő mintát követ, [például amikor az ügynök időt pazarol, vagy akár életet veszít]. Ha ez lenne a helyzet, akkor a standard RL-nek rendkívül nehéz lenne megtalálni a hibát: ha növekményes jutalmakat használ, akkor olyan stratégiákat fog tanulni, amelyek gyorsan hoznak valamilyen jutalmat, nem pedig olyan tanulási stratégiákat, amelyek egy ideig nem sok jutalmat eredményeznek, és aztán hirtelen nagyot nyer.

Lásd kapcsolódó Todd Rogers, a Dragster bajnoka 35 év után éppen elvesztette koronáját Ez a mesterséges intelligencia 17 napja tanulja elsajátítani a Super Mario Bros 1-2-t Nézze meg, ahogyan a mesterséges intelligencia megtanulja a vezetést a Twitch GTA V-n

Azonban a bot csodálatos eredményei ellenére a kutatók nem állítják, hogy ez az ES-bajnok RL-n keresztül történő tanulásának esete. Valójában mindkét rendszernek megvannak a maga problémái, és a kettő kombinációját nagyrészt a legjobb megoldásnak tekintik.

Ugyanaz az ES módszer más Atari játékokon sem hozta közel a pozitív eredményeket. Másrészt az RL felelős a bal, jobb és középső rekordok szétzúzásáért, beleértve a világ legjobb GO-játékosának megverését. Az ES-nek mégis megvan a maga helye a dolgokban, és valójában az, hogy az Nvidia sok AI-edzést hajt végre, mivel nagyobb számítási teljesítményt igényel, de hosszabb ideig jobb eredményeket ér el.

Függetlenül attól, hogy az AI fejlesztésének melyik útja lesz a jövő, legalábbis ez a rendszert átverő bot nem olyan rossz, mint ez most szégyenteljes videojáték világbajnok .

Érdekes Cikkek

Szerkesztő Választása

Régi klasszikus cetlik a Windows 10 rendszerhez
Régi klasszikus cetlik a Windows 10 rendszerhez
Töltse le a Classic Sticky Notes alkalmazást a Windows 10 rendszerhez. A régi Sticky Notes asztali alkalmazást, amely teljes mértékben támogatja az operációs rendszer területi beállításait és nyelvét.
A Chrome eltávolítása Mac rendszeren
A Chrome eltávolítása Mac rendszeren
Lehet, hogy ideje eltávolítani a Chrome-ot Mac gépéről, ha böngészőt váltott, vagy egyszerűen csak el szeretné távolítani a rendetlenséget.
Hogyan küldhet át Fire Stick-re Android telefonról
Hogyan küldhet át Fire Stick-re Android telefonról
Az Android-okostelefonok Amazon Fire TV Stick streaming stick-re való átküldésére vagy tükrözésére vonatkozó teljes útmutatás a Samsung modellekhez szükséges lépésekkel.
Fel kell gyorsítani az asztali alkalmazások indítását a Windows 10 rendszerben
Fel kell gyorsítani az asztali alkalmazások indítását a Windows 10 rendszerben
Tudja meg, hogyan csökkentheti az asztali alkalmazások indítási késleltetését a Windows 10 rendszerben egy egyszerű rendszerleíró adatbázis-módosítással.
Jelszavak hozzáadása a Google Jelszókezelőhöz
Jelszavak hozzáadása a Google Jelszókezelőhöz
A Google Jelszókezelő egy beépített online biztonsági eszköz. Az összes olyan eszközbe integrálva van, amelyre bejelentkezett Google Chrome-fiókjával. Nemcsak erős, egyedi jelszavakat javasol, hanem automatikusan megjegyzi is
Hogyan adhatunk helyadatokat vagy szűrőket egy Snapchat-bejegyzéshez
Hogyan adhatunk helyadatokat vagy szűrőket egy Snapchat-bejegyzéshez
Azok számára, akik szeretik a matricák és szűrők végtelen lehetőségét, a Snapchat valószínűleg a legjobb közösségi média platform. Hihetetlenül interaktív, és minden, ami benne van, elősegíti a kreativitást és a barátok megszólítását, és vonzó.
Hogyan fogjunk cápát az Animal Crossingben: New Horizons
Hogyan fogjunk cápát az Animal Crossingben: New Horizons
A cápák a legkeményebb halak a New Horizonsban. Hogyan lehet megszelídíteni és elfogni ezeket a nagy chompereket? Tanulj meg elkapni egy Animal Crossing cápát.