擊敗世界冠軍,AI玩6人德州撲克煉成超級(jí)賭神!訓(xùn)練只需8天
?
【新智元導(dǎo)讀】CMU和Facebook聯(lián)合打造了史上最強(qiáng)德州撲克AI,自對(duì)戰(zhàn)零起點(diǎn)訓(xùn)練8天,在人機(jī)大混戰(zhàn)吊打了各路職業(yè)牌手。這款名為Pluribus的AI重點(diǎn)解決了多人對(duì)局環(huán)境下的非零和博弈和隱藏信息推理問(wèn)題,訓(xùn)練成本僅150美元。
AI又完成了一項(xiàng)“里程碑式”的挑戰(zhàn)。
一款名叫“Pluribus”的AI撲克牌機(jī)器人在六人無(wú)限制德州撲克這項(xiàng)復(fù)雜游戲中,碾壓了人類(lèi)職業(yè)選手!——這是AI機(jī)器人首次在規(guī)模超過(guò)兩人的復(fù)雜對(duì)局中擊敗頂級(jí)人類(lèi)玩家。
這樣的一項(xiàng)研究,你肯定會(huì)認(rèn)為訓(xùn)練消耗的成本會(huì)非常大,對(duì)吧?
但是!恰恰相反!劃重點(diǎn):
Pluribus的藍(lán)圖策略在64核CPU的服務(wù)器上訓(xùn)練了8天,使用512 GB的RAM,沒(méi)有使用GPU。在一般的云計(jì)算實(shí)例價(jià)格下,訓(xùn)練費(fèi)用不到150美元!
這與其他最近的AI突破性成果形成鮮明對(duì)比,其中包括那些涉及游戲中自對(duì)戰(zhàn)的突破,訓(xùn)練成本動(dòng)輒就需要幾百萬(wàn)美元。
許多網(wǎng)友們紛紛感慨:“原來(lái)小資源的研究也能推動(dòng)人工智能研究大步向前發(fā)展”。這項(xiàng)研究讓人們對(duì)如何構(gòu)建通用的人工智能有了更好的基礎(chǔ)理解。
這項(xiàng)研究是由卡耐基梅隆大學(xué)與Facebook人工智能團(tuán)隊(duì)共同合作完成。目前,各大頂級(jí)期刊和知名媒體都在瘋狂刷屏報(bào)道:
https://www.nature.com/articles/d41586-019-02156-9
https://science.sciencemag.org/content/early/2019/07/10/science.aay2400
https://www.techmeme.com/
那么這款德州撲克AI到底為何如此厲害?新智元帶你慢慢揭秘。
Pluribus:面向“隱藏信息”更新算法,戰(zhàn)勝職業(yè)牌手
幾十年來(lái),德州撲克一直是人工智能領(lǐng)域最難以攻克的重大問(wèn)題之一。因?yàn)閾淇藢?duì)局涉及“隱藏信息”。你不知道對(duì)手的牌是什么,要想在牌局中獲勝,需要成功運(yùn)用bluff和其他多種策略,這些策略并不適用于國(guó)際象棋、圍棋等對(duì)局。這使得德州撲克成為AI難以攻克的堡壘之一。
近年來(lái)隨著技術(shù)的進(jìn)步,AI在1V1德州撲克對(duì)局中,已經(jīng)能擊敗頂級(jí)人類(lèi)玩家。但如何開(kāi)發(fā)出能夠在1對(duì)多的牌局中戰(zhàn)勝頂級(jí)玩家的AI,仍是研究人員不斷努力的目標(biāo)。
Pluribus是Facebook與卡內(nèi)基梅隆大學(xué)合作開(kāi)發(fā)的新型AI機(jī)器人,它成功實(shí)現(xiàn)了這一目標(biāo),擊敗了德州撲克精英人類(lèi)玩家:比賽采用六人無(wú)限制德州撲克。Pluribus在“五個(gè)AI和一個(gè)人類(lèi)玩家”和“一個(gè)AI 和五個(gè)人類(lèi)玩家”的比賽中都擊敗了人類(lèi)職業(yè)玩家。
在每個(gè)籌碼價(jià)值1美元的假設(shè)下,Pluribus每手牌平均能贏5美元,在與五名職業(yè)玩家的對(duì)戰(zhàn)中,每小時(shí)能贏 1000美元??梢哉f(shuō)是取得了決定性勝利。
Pluribus在此前的德州撲克AI Libratus的基礎(chǔ)上進(jìn)行了幾項(xiàng)創(chuàng)新,實(shí)現(xiàn)了這一成果,Libratus是2017年在雙人無(wú)限注德州撲克中擊敗人類(lèi)職業(yè)選手的AI,我們還借助了Tuomas Sandholm在卡內(nèi)基梅隆大學(xué)研究實(shí)驗(yàn)室開(kāi)發(fā)的其他算法和代碼。
特別是,Pluribus采用了一種新的在線搜索算法,可以通過(guò)前面的幾個(gè)步驟而不是僅僅搜索到游戲結(jié)束來(lái)有效地評(píng)估策略選擇。Pluribus還針對(duì)涉及“隱藏信息”的對(duì)戰(zhàn)使用新的、更快的自對(duì)弈算法。AI只需非常少的處理能力和內(nèi)存就能進(jìn)行訓(xùn)練,只需價(jià)值不到150美元的云計(jì)算資源。這種高效率與近期其他撲克AI項(xiàng)目形成鮮明對(duì)比,后者往往需要價(jià)值數(shù)百萬(wàn)美元的計(jì)算資源才能進(jìn)行訓(xùn)練。
上面的視頻中展示了Pluribus 在對(duì)陣幾位職業(yè)玩家時(shí)采用的牌局策略。(牌面已公開(kāi)展示)
這些創(chuàng)新在德州撲克以外的領(lǐng)域也具有重要意義,因?yàn)殡p人零和博弈(一個(gè)玩家贏了,另一個(gè)玩家就要輸)在休閑游戲中很常見(jiàn),但在現(xiàn)實(shí)生活中非常罕見(jiàn)。而在真實(shí)場(chǎng)景中,比如對(duì)有害內(nèi)容采取行動(dòng),應(yīng)對(duì)網(wǎng)絡(luò)安全挑戰(zhàn),以及管理在線拍賣(mài)、導(dǎo)航流量,這些行為通常涉及多個(gè)參與者,并涉及隱藏信息。我們的成果表明,AI算法可以在雙人零和博弈領(lǐng)域之外,也達(dá)到超過(guò)人類(lèi)的表現(xiàn)。
來(lái)自職業(yè)牌手的贊譽(yù):和AI打牌壓力山大
“與Pluribus比賽最激動(dòng)的事就是應(yīng)對(duì)其在翻牌前采取的復(fù)雜策略。與人類(lèi)不同,Pluribus在翻牌前會(huì)多次加注。這與人類(lèi)對(duì)局的風(fēng)格完全不同,很有意思。”
Seth Davies,職業(yè)撲克選手
“我很高興能夠與機(jī)器人對(duì)戰(zhàn),這是一種獨(dú)特的學(xué)習(xí)體驗(yàn)。我認(rèn)為機(jī)器人玩得非常穩(wěn)。當(dāng)我的手牌不強(qiáng)時(shí),AI總能逼我做艱難的決定,而且AI在擁有強(qiáng)手牌時(shí)總能贏到錢(qián),AI做的很漂亮,這是一個(gè)有趣的挑戰(zhàn),我很高興再次與它對(duì)戰(zhàn)。”
Trevor Savage,職業(yè)撲克選手
“Pluribus是一個(gè)非常努力的對(duì)手,任何手牌你都很難壓倒它。AI非常善于在河牌輪下小注。非常擅長(zhǎng)在手握好牌時(shí)盡量多贏。”
Cris Ferguson,WSOP冠軍
“這個(gè)AI就是個(gè)bluff怪物。我覺(jué)得它比大多數(shù)人更有效率。你和它對(duì)戰(zhàn)總能感覺(jué)到很大壓力,你知道它隨時(shí)可能在bluff?!?/p>
Jason Les,職業(yè)撲克選手
“每當(dāng)和機(jī)器人玩牌時(shí),我會(huì)選擇一些新的策略。作為人類(lèi),我認(rèn)為我們傾向于為自己過(guò)度簡(jiǎn)化對(duì)局,讓對(duì)局策略更易于使用和記憶,更傾向于走捷徑。機(jī)器人就不會(huì)走這種捷徑,它的每個(gè)決定背后都有一個(gè)極其復(fù)雜而平衡的策略樹(shù)?!?/p>
Jimmy Chou,職業(yè)撲克玩家
“能與機(jī)器人對(duì)戰(zhàn),并看到它選擇的一些策略真的令人難以置信。AI是德州撲克發(fā)展過(guò)程中的一個(gè)重要組成部分,在面向未來(lái)的這一大步中獲得第一手經(jīng)驗(yàn)真是太棒了?!?/p>
Michael Gagliano,職業(yè)撲克玩家
從雙人對(duì)戰(zhàn)到六人混戰(zhàn),產(chǎn)生了哪些新問(wèn)題?
六人的德州撲克對(duì)戰(zhàn)與之前的二人對(duì)戰(zhàn)的AI基準(zhǔn)測(cè)試相比,多了兩個(gè)主要挑戰(zhàn)。
一、不再只是雙人零和博弈
此前,所有取得突破的AI僅限于那些只有兩名玩家或兩支球隊(duì)參加的零和博弈對(duì)局(如跳棋,國(guó)際象棋,圍棋、雙人德州撲克,星際爭(zhēng)霸2和Dota 2等)。
在這些對(duì)局中,AI可以采用一種稱(chēng)為“納什均衡”的策略。在雙人和雙隊(duì)的零和博弈中,無(wú)論對(duì)手做什么,只要采用足夠精確的納什均衡策略,就能保證不輸。(例如,“石頭剪刀布”的納什均衡策略是以相同的概率隨機(jī)出石頭、布或剪刀。)
盡管在任何有限制的對(duì)戰(zhàn)中都會(huì)存在納什均衡,但在三個(gè)或更多玩家參與的游戲中,納什均衡難以有效計(jì)算。此外,在有兩個(gè)以上玩家參與的游戲中,即使在精確的納什均衡策略下,有時(shí)也無(wú)法避免失敗。
在六人制德州撲克中,目標(biāo)不應(yīng)該是確定特定的博弈論解決方案的概念,而是創(chuàng)建一個(gè)從長(zhǎng)遠(yuǎn)來(lái)看,可以憑經(jīng)驗(yàn)擊敗人類(lèi)對(duì)手的AI。對(duì)于AI機(jī)器人來(lái)說(shuō),這通常被認(rèn)為是“超人”的表現(xiàn)。
我們用來(lái)構(gòu)建Pluribus的算法并不能保證在雙人零和博弈之外的領(lǐng)域收斂到納什均衡。盡管如此,Pluribus在六人德州撲克中采用的策略始終能擊敗精英專(zhuān)業(yè)玩家,因此這些算法能夠在超級(jí)玩家零和游戲之外的更廣泛的場(chǎng)景中產(chǎn)生超人策略。
二、要面對(duì)復(fù)雜環(huán)境下的“隱藏信息”
沒(méi)有其他游戲像撲克一樣體現(xiàn)“隱藏信息”的挑戰(zhàn),每個(gè)玩家都擁有其他玩家所缺乏的信息(手牌)。一個(gè)成功的AI必須會(huì)推理這個(gè)隱藏信息,并仔細(xì)平衡策略,以保持對(duì)自身信息的不可預(yù)測(cè),同時(shí)仍然采取良好的行動(dòng)策略。例如,采用bluff偶爾會(huì)有效,但總用bluff就會(huì)容易被人摸透,可能會(huì)導(dǎo)致大量損失。因此,有必要仔細(xì)在“bluff”和“手握大牌下大注”的概率之間取得一個(gè)平衡。換句話說(shuō),就是令不完全信息博弈中的行動(dòng)策略,取決于選擇某策略和選擇其他動(dòng)作的概率區(qū)分上。
而在完全信息博弈中,玩家不必考慮這一點(diǎn)。國(guó)際象棋中的好手就是好手。但我們不可能將特定德州撲克牌局中的最佳策略與德州撲克的整體策略區(qū)分開(kāi)來(lái)。
像Libratus這樣的德州撲克AI,結(jié)合了基于反事故遺憾最小化(CFR)理論中的合理的自對(duì)戰(zhàn)算法和精心構(gòu)建的搜索程序,來(lái)應(yīng)對(duì)牌局中的隱藏信息。對(duì)于不完全的信息博弈,牌局中的玩家的增加,會(huì)讓對(duì)局的復(fù)雜性呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。以前的技術(shù)無(wú)法擴(kuò)展應(yīng)用到六人對(duì)局中,即使計(jì)算量提升10000倍也不行。Pluribus使用的新技術(shù),比以前的任何技術(shù)更好地應(yīng)對(duì)這一挑戰(zhàn)。
Pluribus對(duì)戰(zhàn)策略:從零開(kāi)始自對(duì)戰(zhàn),8天訓(xùn)練戰(zhàn)勝職業(yè)高手
Pluribus在牌局中策略核心是通過(guò)自對(duì)戰(zhàn)計(jì)算出來(lái)的,AI自己和自己進(jìn)行對(duì)局,沒(méi)有任何人類(lèi)對(duì)局的數(shù)據(jù)作為輸入。AI從零開(kāi)始,一開(kāi)始是完全是隨機(jī)行動(dòng),隨著牌技逐漸提升,學(xué)著確定哪些行動(dòng)更好,確定各類(lèi)行動(dòng)的概率分布中哪些可以產(chǎn)生更好的結(jié)果。Pluribus使用的自對(duì)戰(zhàn)版本是迭代蒙特卡羅CFR(MCCFR)算法的改進(jìn)版。
上面的視頻中顯示了蒙特卡羅CFR算法通過(guò)評(píng)估實(shí)際和假設(shè)行動(dòng)值,來(lái)更新遍歷者策略的過(guò)程。在Pluribus中,出于優(yōu)化目的,這種遍歷實(shí)際上是以深度優(yōu)先的方式完成的。
此時(shí),探索其他假設(shè)的結(jié)果是可能的,因?yàn)锳I正與自己進(jìn)行對(duì)局。如果AI想知道選擇了其他一些行動(dòng)會(huì)發(fā)生什么事情,那么它只需自問(wèn)應(yīng)該如何回應(yīng)該行動(dòng)就行了。
在對(duì)局中的每個(gè)決策點(diǎn)中維持每個(gè)動(dòng)作的CFR,需要的計(jì)算資源比宇宙中原子總數(shù)還多。為了降低游戲的復(fù)雜性,我們忽略了一些操作,并通過(guò)抽取將類(lèi)似的決策點(diǎn)放在一起。在抽象之后,劃分在一起的決策點(diǎn)被視為相同決策點(diǎn)。
Pluribus經(jīng)過(guò)自對(duì)戰(zhàn),輸出整個(gè)對(duì)戰(zhàn)中的藍(lán)圖策略。在實(shí)際對(duì)局中,Pluribus使用搜索算法改進(jìn)了這個(gè)藍(lán)圖策略。但是,Pluribus并沒(méi)有根據(jù)其觀察到的對(duì)手的傾向來(lái)調(diào)整策略.
上圖顯示了在64核CPU訓(xùn)練期間,Pluribus的藍(lán)圖策略的改進(jìn)過(guò)程???jī)效是根據(jù)訓(xùn)練的最終快照來(lái)衡量的。
Pluribus的藍(lán)圖策略在64核CPU的服務(wù)器上訓(xùn)練了8天,使用512 GB的RAM,沒(méi)有使用GPU。在一般的云計(jì)算實(shí)例價(jià)格下,訓(xùn)練費(fèi)用不到150美元。這與其他最近的AI突破性成果形成鮮明對(duì)比,其中包括那些涉及游戲中自對(duì)戰(zhàn)的突破,訓(xùn)練成本一般需要幾百萬(wàn)美元。由于算法的改進(jìn),我們能夠在如此低的計(jì)算成本下實(shí)現(xiàn)“超人”的表現(xiàn).
超越人類(lèi)的一個(gè)更有效的搜索策略
由于無(wú)限制德州撲克的規(guī)模和復(fù)雜性,藍(lán)圖(blueprint)策略必然是粗粒度的。
在實(shí)際游戲中,Pluribus通過(guò)實(shí)時(shí)搜索來(lái)確定針對(duì)其特定情況下的更好、更細(xì)粒度的策略,從而改進(jìn)了藍(lán)圖策略。
目前,我們知道AI已經(jīng)在許多游戲中大展拳腳,也使用了實(shí)時(shí)搜索,包括西洋雙陸棋(double -ply search)、國(guó)際象棋(alpha-beta pruning search)和圍棋(Monte Carlo tree search)。
但是,這些搜索方法對(duì)不完全信息博弈不起任何作用,因?yàn)樗鼈儧](méi)有考慮到對(duì)手在葉子節(jié)點(diǎn)之外轉(zhuǎn)向不同策略的能力。這個(gè)弱點(diǎn)就導(dǎo)致搜索策略是非常脆弱且不平衡的,也因此使得AI無(wú)法解決這一挑戰(zhàn)。
相反,Pluribus使用了一種方法,在這種方法中,搜索者明確地認(rèn)為任何或所有玩家都可以在子游戲的葉子節(jié)點(diǎn)之外轉(zhuǎn)向不同的策略。
具體而言,研究人員不是假設(shè)所有玩家都根據(jù)葉子節(jié)點(diǎn)之外的單個(gè)固定策略進(jìn)行游戲,而是假設(shè)每個(gè)玩家可以選擇四種不同的策略來(lái)玩剩余的到達(dá)葉節(jié)點(diǎn)時(shí)的游戲。
那么這四種策略是什么呢?
首先是預(yù)先計(jì)算的藍(lán)圖策略;第二是藍(lán)圖策略的修改形式,這個(gè)策略偏向于折疊;第三是偏向于調(diào)用的藍(lán)圖策略;最后一個(gè)是偏向于raising的藍(lán)圖策略。
這種技術(shù)可以讓搜索者找到一個(gè)更加平衡的策略,從而產(chǎn)生更強(qiáng)的整體性能。若是選了一個(gè)不平衡的策略,就會(huì)讓對(duì)手轉(zhuǎn)向其他延續(xù)策略,例如,在玩兒石頭剪刀布的時(shí)候,若是你總出“石頭”,對(duì)手就會(huì)出“布”來(lái)應(yīng)對(duì)你。
在不完全信息游戲中,搜索的另一個(gè)主要挑戰(zhàn)是玩家在特定情況下的最佳策略取決于他的對(duì)手如何看待他的游戲玩兒法。如果玩家從不“虛張聲勢(shì)”,那么他的對(duì)手就會(huì)知道若是一旦下了大賭注,他們就會(huì)做出讓步。
為了應(yīng)對(duì)這種情況,Pluribus根據(jù)自己的策略,用每一只可能的手牌追蹤它達(dá)到當(dāng)前狀態(tài)的概率。
無(wú)論P(yáng)luribus實(shí)際握的是哪張手牌,它都會(huì)首先計(jì)算每一張可能的手牌會(huì)如何行動(dòng)——小心地在所有的手牌上平衡它的策略,讓對(duì)手無(wú)法預(yù)測(cè)。一旦計(jì)算了所有手牌的這個(gè)平衡策略,Pluribus就會(huì)為它實(shí)際持有的手牌執(zhí)行一個(gè)操作。
在游戲過(guò)程當(dāng),Pluribus在只2個(gè)CPU上運(yùn)行。相比之下,AlphaGo在2016年與頂級(jí)Go專(zhuān)業(yè)人士Lee Sedol的比賽中使用1920個(gè)CPU和280個(gè)GPU進(jìn)行實(shí)時(shí)搜索。
Pluribus還使用不到128 GB的內(nèi)存。Pluribus搜索單個(gè)子游戲所花費(fèi)的時(shí)間在1秒到33秒之間變化,具體取決于具體情況。
平均而言,Pluribus的速度是典型人類(lèi)職業(yè)選手的兩倍:在六人撲克中與自己的副本進(jìn)行比賽時(shí)每手20秒。
Pluribus是如何對(duì)抗人類(lèi)職業(yè)選手的?
那么,此次與AI對(duì)抗的人類(lèi)職業(yè)選手都是誰(shuí)呢?
2000年世界撲克大賽主賽事冠軍Chris ” Jesus ” Ferguson、 2012年世界撲克大賽主賽事冠軍Greg Merson以及四次世界撲克巡回賽冠軍Darren Elias。
完整的全明星陣容包括:Jimmy Chou、Seth Davies、Michael Gagliano、Anthony Gregg、Dong Kim、Jason Les、Linus Loeliger、Daniel McAulay、Nick Petrangelo、Sean Ruan、Trevor Savage和Jake Toole。
上述每一位職業(yè)選手在職業(yè)撲克比賽中都贏得了超過(guò)100萬(wàn)美元的獎(jiǎng)金,其中許多人贏得了超過(guò)1000萬(wàn)美元的獎(jiǎng)金。
人工智能系統(tǒng)在其他基準(zhǔn)游戲中與人類(lèi)對(duì)戰(zhàn)時(shí),機(jī)器有時(shí)一開(kāi)始表現(xiàn)得很好,但最終由于人類(lèi)玩家發(fā)現(xiàn)了它的漏洞而失敗。
人工智能要想精通一款游戲,即使人類(lèi)對(duì)手有時(shí)間去適應(yīng),它也必須證明自己是能贏的。而這次,在幾天的時(shí)間里進(jìn)行了數(shù)千次撲克比賽,給了人類(lèi)職業(yè)選手充足的時(shí)間來(lái)尋找AI的弱點(diǎn)來(lái)適應(yīng)。
Elias說(shuō):“機(jī)器人不僅僅是跟普通的職業(yè)選手在比賽,而是在和世界上最頂尖的選手作戰(zhàn)?!?/p>
這是Pluribus和職業(yè)玩家在實(shí)驗(yàn)中使用的界面
實(shí)驗(yàn)有兩種形式:
- 5個(gè)人類(lèi)職業(yè)選手與1個(gè)AI共同玩兒游戲;
- 1個(gè)人類(lèi)職業(yè)選手與5個(gè)AI共同玩兒游戲。
在每一種情況下,游戲都有六名玩家在參與,每一手開(kāi)始都有10000個(gè)籌碼。小盲注是50片,大盲注是100片。
雖然撲克是一種技巧游戲,但也有很大的運(yùn)氣成分。對(duì)于頂級(jí)專(zhuān)業(yè)人士來(lái)說(shuō),僅僅因?yàn)檫\(yùn)氣不好,就在1萬(wàn)手撲克牌的過(guò)程中輸?shù)翦X(qián)是很常見(jiàn)的。
為了減少運(yùn)氣的成分,實(shí)驗(yàn)使用了一種版本的AIVAT方差減少(variance reduction)算法,該算法在保持樣本無(wú)偏的情況下,對(duì)每種情況的值進(jìn)行基線估計(jì),以降低方差。
5個(gè)人類(lèi)職業(yè)選手 1個(gè)AI
在這個(gè)實(shí)驗(yàn)中,10000手撲克牌被玩了12天。
每天從專(zhuān)業(yè)人員中挑選五名志愿者參與。根據(jù)他們的表現(xiàn),將50000美元的獎(jiǎng)金分配給人類(lèi)專(zhuān)業(yè)人士,以激勵(lì)他們發(fā)揮最佳水平。
在應(yīng)用AIVAT之后,Pluribus的獲勝率估計(jì)為每100手(5 bb / 100)約5個(gè)大盲注,這被認(rèn)為是在對(duì)戰(zhàn)人類(lèi)精英對(duì)手時(shí)取得的很好的勝利(盈利,p值為0.021)。
如果每個(gè)籌碼都值1美元,Pluribus將會(huì)贏得平均每人5美元的獎(jiǎng)金,并且每小時(shí)可以賺到1000美元。這一結(jié)果超過(guò)了職業(yè)選手在與職業(yè)、業(yè)余選手的混合比賽中獲勝的預(yù)期。
Ferguson在實(shí)驗(yàn)后感慨道:“Pluribus是一個(gè)很難應(yīng)付的對(duì)手。”
5個(gè)AI 1個(gè)人類(lèi)職業(yè)選手
這個(gè)實(shí)驗(yàn)是由Ferguson、Elias和Linus Loeliger進(jìn)行的。 許多人認(rèn)為L(zhǎng)oeliger是六人無(wú)限注德州撲克現(xiàn)金游戲中世界上最好的玩家。
每個(gè)人玩5000手撲克牌,桌上還有5個(gè)Pluribus。Pluribus并沒(méi)有根據(jù)對(duì)手的情況調(diào)整策略,因此機(jī)器人之間的故意勾結(jié)不是問(wèn)題。
總的來(lái)說(shuō),人類(lèi)損失了2.3 bb/100。Elias下跌4.0 bb/100(標(biāo)準(zhǔn)誤差2.2 bb/100), Ferguson下跌2.5 bb/100(標(biāo)準(zhǔn)誤差2.0 bb/100), Loeliger下跌0.5 bb/100(標(biāo)準(zhǔn)誤差1.0 bb/100)。
這張圖顯示了Pluribus在10000手實(shí)驗(yàn)中對(duì)職業(yè)撲克玩家的平均勝率。直線表示實(shí)際結(jié)果,虛線表示一個(gè)標(biāo)準(zhǔn)差。
Elias說(shuō):“它的主要優(yōu)勢(shì)是能夠使用混合策略,這也是人類(lèi)試圖做的事情。對(duì)人類(lèi)來(lái)說(shuō),這是一個(gè)執(zhí)行的問(wèn)題——以一種完全隨機(jī)的方式,并始終如一地這樣做。大多數(shù)人就是做不到?!?/p>
由于Pluribus的策略完全是在沒(méi)有任何人類(lèi)數(shù)據(jù)的情況下從自我游戲決定的,因此它也提供了一個(gè)外部視角,即在多人無(wú)限制德州撲克游戲中最優(yōu)的游戲應(yīng)該是什么樣子。
雖然Pluribus最初嘗試通過(guò)自玩離線計(jì)算藍(lán)圖策略時(shí)采用了limping策略,但隨著游戲的繼續(xù),它逐漸放棄了這一策略。但是Pluribus不同意“民間”的觀點(diǎn),認(rèn)為donk投注是一個(gè)錯(cuò)誤;Pluribus比專(zhuān)業(yè)人士更經(jīng)常采用這樣的策略。
Gagliano說(shuō):“和撲克機(jī)器人比賽,看到它選擇的一些策略,真是令人難以置信的美妙。”
這張圖顯示了Pluribus在與職業(yè)選手競(jìng)爭(zhēng)時(shí)的籌碼數(shù)量。直線表示實(shí)際結(jié)果,虛線表示一個(gè)標(biāo)準(zhǔn)差。
少量資源也推動(dòng)人工智能發(fā)展:Pluribus讓通用AI有了更好的理解
此前,人工智能在完全信息的雙人zero-sum游戲中取得了一系列引人矚目的成功。但現(xiàn)實(shí)世界中的大多數(shù)戰(zhàn)略互動(dòng)都涉及隱藏的信息,而不是兩方的zero-sum博弈。
Pluribus的成功表明,在大規(guī)模、復(fù)雜的多玩家設(shè)置中,盡管缺乏已知的對(duì)性能的強(qiáng)有力的理論保證,但精心構(gòu)造的自我游戲搜索算法仍然可以成功。
Pluribus的不同尋常之處還在于,它的訓(xùn)練和運(yùn)行成本遠(yuǎn)低于近期其他用于基準(zhǔn)游戲的人工智能系統(tǒng)。
該領(lǐng)域的一些專(zhuān)家擔(dān)心,未來(lái)的人工智能研究將由擁有數(shù)百萬(wàn)美元計(jì)算資源的大型團(tuán)隊(duì)主導(dǎo)。
但是Pluribus是一個(gè)強(qiáng)有力的證據(jù),證明了只需少量資源的新方法也可以推動(dòng)前沿人工智能研究。
盡管Pluribus是為玩撲克而開(kāi)發(fā)的,但所使用的技術(shù)并不針對(duì)撲克,也不需要開(kāi)發(fā)任何專(zhuān)業(yè)領(lǐng)域知識(shí)。
這項(xiàng)研究讓人們對(duì)如何構(gòu)建通用的人工智能有了更好的基礎(chǔ)理解,它可以處理多智能體環(huán)境,既可以處理其他智能體,也可以處理人類(lèi),并讓人們可以用人類(lèi)能力的巔峰來(lái)衡量這一領(lǐng)域的進(jìn)展。
當(dāng)然,在Pluribus中采用的方法可能不會(huì)在所有多智能體設(shè)置中都成功。
在撲克游戲中,玩家交流和串通的機(jī)會(huì)是有限的。在構(gòu)建非常簡(jiǎn)單的協(xié)調(diào)博弈時(shí),現(xiàn)有的自我游戲算法可能無(wú)法找到一個(gè)好的策略。
然而,許多真實(shí)世界的交互——包括涉及欺詐預(yù)防、網(wǎng)絡(luò)安全以及對(duì)有害內(nèi)容采取行動(dòng)的交互——可能被建模為涉及隱藏信息和/或多個(gè)智能體的場(chǎng)景,這些智能體之間的通信是有限的。
使Pluribus能夠在牌桌上擊敗多個(gè)對(duì)手的技術(shù)可能有助于AI社區(qū)在這些和其他領(lǐng)域開(kāi)發(fā)有效的策略。
關(guān)注新智元和群,獲取Science論文原文!