Egyre jobban blöfföl a pókerező szoftver
További Tudomány cikkek
Az online pókertől a pókerprogramokig
Tavaly májusban sokan, főként profi játékosok hökkentek meg, amikor az amatőr (de rendkívül tetszetős művésznevű) Chris Moneymaker mindenkit lekörözve két és fél millió dollárt nyert az egyik nagy nemzetközi versenyen. Előtte a kaszinóknál olcsóbb, ám ugyanúgy igazi pénzre menő online szalonokban pallérozódott intenzíven, s ott szokott hozzá a gyorsabb leosztásokhoz.
A számítógépes környezet megváltoztatta a póker arculatát: régebben bevett stratégiákkal hagytak fel, újak kerültek előtérbe, pörgősebbek, rövidebb lefolyásúak a menetek.
A szoftver-szimuláció a gyakorlás egyik módja. A stratégiákat, nüánszokat, a legkülönbözőbb lapkombinációkat többezer, akár millió meneten keresztül tesztelhetjük. Ha nem is az összest, de rengeteg lehetséges kimenetet végigjátszhatunk. A programok - az állandóan a biztonságra ügyelőtől az ész nélkül hazardírozóig - eltérő, színes játékos-archetípusokat "személyesítenek meg". Az ismert Wilson Software mesterséges kártyásai például elsősorban arra tanítanak, hogyan győzzünk élesben.
Mások viszont nem egyszerű gyakorlótársakat, hanem - az MI, vagy akár a gazdaságtan eredményeit alkalmazva - tényleges opponenseket terveznek. A póker matematikájának mélységeit ismerő botjaik a legjobb stratégiákat keresik, s a játék szépsége helyett a győzelem lebeg előttük.
Tíz évig fejlesztették
Az eddigi legkiválóbb pókerbotnak az Alberta Egyetem (Kanada) Számítógépes-póker Kutatócsoport fejlesztése, az elsősorban védekezésben és ellentámadásban jeleskedő PsOpt (pseudo-optimal poker program) bizonyult. Technikai leírása ezerkétszáz résztvevő feletti mezőnyben nyerte el az első helyet, melyet az augusztus 9-15. között, Acapulcóban megrendezésre kerülő MI Konferencián adnak át tervezőinek. Tíz éves - a Kanadai Természettudományos és Mérnöki Kutatótanács (NSERC) által szponzorált -, mesterséges világbajnok kidolgozását megcélzó munka gyümölcse.
A csoportot a sikeres Chinook sakkprogramjáról (1994) ismert Jonathan Schaeffer vezeti, míg a fődesigner a korábbi hivatásos játékos, jelenleg doktorandusz, Darse Billings.
"Számítástudományos szempontokat nézve, a póker a sakknál és a dámánál is sokkal érdekesebb" - állítja Schaeffer. "A dáma egy tökéletes információ-játék. Ránézünk a táblára, s látjuk, hol van az összes bábu. A póker más. Nem ismerjük ellenfelünk lapjait, ami azt jelenti: cselekedeteiből következtetéseket kell levonnunk. Az ellenfél legfőbb érdeke, hogy megtévesszen. A blöff a játék egyik kritikus része."
"PsOpt kemény dió, nagyon nehéz játszani ellene" - nyilatkozta programjukról Billings. "Nem úgy versenyez, mint az ember. És ez így jó. Az első, valóban kiegyensúlyozott stratégiát követő program. A szükséges gyakorisággal blöfföl, gyorsítja fel, lassítja le a játékot." Modellt épít fel magának, az alapján teszi fel a tétet, vagy passzol.
Mindketten lefogadnák: csak idő kérdése a világ legjobb kártyása felett diadalmaskodó digitális versenyző színrelépése.
Egyelőre azonban még nem történt meg a "csoda". Januárban az egyik nemzetközi éljátékos küzdött PsOpt-tal: nagyjából hétezer (!) leosztás után derült ki, hogy az ember a jobb.
Nash-equilibrium
John Nash |
Michael Wooldridge szerint abban az esetben beszélhetünk két stratégia (s1, s2) NE-áról, kölcsönös egyensúlyáról, ha i ágens s1-et játszik, és j ágens nem tud jobbat tenni, mint s2-t játszani, illetve ha j ágens s1-et játszik, és i ágens nem tud jobbat tenni, mint s2-t játszani (An Introduction to Multiagent Systems, 2002). Nem tartalmaz minden interakció-forgatókönyv NE-ot, viszont akad olyan, amelyik egynél többel rendelkezik.
Az új generációra várva
Mivel - a milliárd és milliárd lehetséges kimenet miatt - teljes modellt lehetetlen készíteni, Schaefferék a hasonló leosztások kombinálásával hét csoportra szűkítették a kört. A bot számára ezek alapján dolgozták ki az akciótervet. A régebbi változatok tíz-résztvevős, míg a mostani két-résztvevős játékra íródott. És sokkal jobban teljesít elődjeinél.
Billings már a következő generációs botot fejleszti. A program "maximum-stratégiát" követ: figyelemmel kíséri az ellenfél viselkedését, alkalmazkodik hozzá, megingásaiból profitál. A játékelméletet felhasználva (és a hosszútávú győzelem alapfeltételeként), a veszteségek kezelését szintén elsajátítja.
A fejlesztők kihangsúlyozzák: mindezzel nem pénznyerés a céljuk. "Ez egy kutatási projekt" - húzza alá Schaeffer. "Új, a számítógépek számára a bizonytalanság kezelését lehetővé tevő módszereket vizsgálunk. És a póker ideális terep erre." Schaeffer állítását alátámasztja, hogy programjaik igazi pénzben még nem játszottak. Talán az újabb generáció.