Menu
快讀
  • 旅遊
  • 生活
    • 美食
    • 寵物
    • 養生
    • 親子
  • 娛樂
    • 動漫
  • 時尚
  • 社會
  • 探索
  • 故事
  • 科技
  • 軍事
  • 国际
快讀

微軟麻將 AI 論文發布,首次公開技術細節

2021 年 3 月 12 日 会打篮球的汽车

場景描述:還記得去年 8 月微軟發布的「雀神AI」Suphx 嗎?今天,該研究團隊在 arXiv 上發布了更新版的論文,進一步介紹了 Suphx 背後的技術。

原創:HyperAI超神經

關鍵詞:麻將 AI, Suphx,卷積神經網絡

2019 年 8 月 29 日,微軟發布了一個名爲 Suphx(超級鳳凰)的「麻將 AI」,在專業的麻將競技平台上,Suphx 的實力勝過了頂級人類選手的平均水平。

當時一經發布,Suphx 便引起了廣泛的關注,不僅是人工智能領域,不少麻將愛好者也都趕來圍觀討論。(可點擊此文回顧打麻將三缺一?一家胡三家的人工智能來了)

微軟麻將 AI 論文發布,首次公開技術細節

《Suphx:掌握麻將與深度強化學習》

論文地址:https://arxiv.org/pdf/2003.13590.pdf

Suphx 愈戰愈勇:已超越 99.99% 玩家

此前我們已經介紹過,Suphx 系統利用深度強化學習,從 5000 場比賽中學習、吸取經驗之後,在日本專業的麻將競技平台「天鳳」上擊敗了衆多麻將玩家,取得平台「特上房」的最高段位十段。

微軟麻將 AI 論文發布,首次公開技術細節

discard 模型(上)與其它四個模型的架構(下)

在此基礎上,Suphx 采用另一種基于規則的模型,來決定是否宣布贏家並進行下一輪,檢查是否贏牌可以從其他玩家丟棄的牌中來判斷,或者從排牆上抽出來的牌來判斷。

據介紹,Suphx 的訓練過程一共分爲三步。

首先,它的 5 個模型都使用從「天鳳」平台收集的頂級人類玩家的日志進行訓練。

然後,使用包含一套基于CPU 的麻將模擬器和基于 GPU 的軌迹生成推理引擎,通過自我博弈強化學習對系統進行微調。

最後,在在線遊戲期間,使用運行時策略調整被用來觀察當前輪的結果,從而使系統執行得更好。

微軟麻將 AI 論文發布,首次公開技術細節

強化學習 agent 最終穩定排名統計在不斷優化中,RL-2 最終取得更好的表現

有趣的是,研究人員寫道,Suphx 的防守「非常強」,放胡的概率很低,只有 10.06%,而且它開發了自己的遊戲風格,可以保證牌的安全,並以半平手取勝。

微軟麻將 AI 論文發布,首次公開技術細節

相關文章:

  • Arxiv網絡科學論文摘要25篇(2020-04-10)
  • ACL 2019 所有獲獎論文將出自這32篇,多所國內高校、機構入選
  • 用戶界面開發自動化,新研究根據設計圖自動生成用戶界面屬性
  • 2021年新加坡留學關鍵詞盤點!重新聚焦,砥砺前行
  • 2019 NLP大全:論文、博客、教程、工程進展全梳理(長文預警)
  • 距離新年還剩一個月,年貨清單該安排上了
養生

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

©2026 快讀 | 服務協議 | DMCA | 聯繫我們