微軟麻將 AI 論文發布，首次公開技術細節

場景描述：還記得去年 8 月微軟發布的「雀神AI」Suphx 嗎？今天，該研究團隊在 arXiv 上發布了更新版的論文，進一步介紹了 Suphx 背後的技術。

原創：HyperAI超神經

關鍵詞：麻將 AI， Suphx，卷積神經網絡

2019 年 8 月 29 日，微軟發布了一個名爲 Suphx（超級鳳凰）的「麻將 AI」，在專業的麻將競技平台上，Suphx 的實力勝過了頂級人類選手的平均水平。

當時一經發布，Suphx 便引起了廣泛的關注，不僅是人工智能領域，不少麻將愛好者也都趕來圍觀討論。（可點擊此文回顧打麻將三缺一？一家胡三家的人工智能來了）

《Suphx：掌握麻將與深度強化學習》

論文地址：https://arxiv.org/pdf/2003.13590.pdf

Suphx 愈戰愈勇：已超越 99.99% 玩家

此前我們已經介紹過，Suphx 系統利用深度強化學習，從 5000 場比賽中學習、吸取經驗之後，在日本專業的麻將競技平台「天鳳」上擊敗了衆多麻將玩家，取得平台「特上房」的最高段位十段。

discard 模型（上）與其它四個模型的架構（下）

在此基礎上，Suphx 采用另一種基于規則的模型，來決定是否宣布贏家並進行下一輪，檢查是否贏牌可以從其他玩家丟棄的牌中來判斷，或者從排牆上抽出來的牌來判斷。

據介紹，Suphx 的訓練過程一共分爲三步。

首先，它的 5 個模型都使用從「天鳳」平台收集的頂級人類玩家的日志進行訓練。

然後，使用包含一套基于CPU 的麻將模擬器和基于 GPU 的軌迹生成推理引擎，通過自我博弈強化學習對系統進行微調。

最後，在在線遊戲期間，使用運行時策略調整被用來觀察當前輪的結果，從而使系統執行得更好。

強化學習 agent 最終穩定排名統計在不斷優化中，RL-2 最終取得更好的表現

有趣的是，研究人員寫道，Suphx 的防守「非常強」，放胡的概率很低，只有 10.06%，而且它開發了自己的遊戲風格，可以保證牌的安全，並以半平手取勝。

養生