場景描述:還記得去年 8 月微軟發布的「雀神AI」Suphx 嗎?今天,該研究團隊在 arXiv 上發布了更新版的論文,進一步介紹了 Suphx 背後的技術。
原創:HyperAI超神經
關鍵詞:麻將 AI, Suphx,卷積神經網絡
2019 年 8 月 29 日,微軟發布了一個名爲 Suphx(超級鳳凰)的「麻將 AI」,在專業的麻將競技平台上,Suphx 的實力勝過了頂級人類選手的平均水平。
當時一經發布,Suphx 便引起了廣泛的關注,不僅是人工智能領域,不少麻將愛好者也都趕來圍觀討論。(可點擊此文回顧打麻將三缺一?一家胡三家的人工智能來了)
《Suphx:掌握麻將與深度強化學習》
論文地址:https://arxiv.org/pdf/2003.13590.pdf
Suphx 愈戰愈勇:已超越 99.99% 玩家
此前我們已經介紹過,Suphx 系統利用深度強化學習,從 5000 場比賽中學習、吸取經驗之後,在日本專業的麻將競技平台「天鳳」上擊敗了衆多麻將玩家,取得平台「特上房」的最高段位十段。
discard 模型(上)與其它四個模型的架構(下)
在此基礎上,Suphx 采用另一種基于規則的模型,來決定是否宣布贏家並進行下一輪,檢查是否贏牌可以從其他玩家丟棄的牌中來判斷,或者從排牆上抽出來的牌來判斷。
據介紹,Suphx 的訓練過程一共分爲三步。
首先,它的 5 個模型都使用從「天鳳」平台收集的頂級人類玩家的日志進行訓練。
然後,使用包含一套基于CPU 的麻將模擬器和基于 GPU 的軌迹生成推理引擎,通過自我博弈強化學習對系統進行微調。
最後,在在線遊戲期間,使用運行時策略調整被用來觀察當前輪的結果,從而使系統執行得更好。
強化學習 agent 最終穩定排名統計在不斷優化中,RL-2 最終取得更好的表現
有趣的是,研究人員寫道,Suphx 的防守「非常強」,放胡的概率很低,只有 10.06%,而且它開發了自己的遊戲風格,可以保證牌的安全,並以半平手取勝。



