倫敦當地時間10月18日傍晚,阿法狗(AlphaGo)再次登上世界頂級科學雜志——《自然》。谷歌人工智能團隊以《脫離人類認知,精通圍棋遊戲》爲題,用整整5頁的篇幅,隆重介紹了阿法狗的新版本AlphaGo Zero。
▲《自然》雜志官方網站公布AlphaGo Zero
一年多前,阿法狗便是2016年1月28日當期的封面文章,一篇題爲《用人工神經網絡和樹狀研究,精通圍棋》的重磅論文,介紹了這個擊敗歐洲圍棋冠軍樊麾的人工智能程序。2個月之後,阿法狗在人機大戰中擊敗世界頂級圍棋棋手李世石,從此開始征服世界之旅。
▲2016年3月9日,韓國棋手李世石九段及女兒與“阿爾法圍棋”創始人德米什·哈薩比斯(前左)合影 圖據新華社
從“人工神經網絡研究”到“脫離人類認知”,新一代的阿法狗到底有什麽不同?在今年5月烏鎮一役完勝人類第一高手柯潔、宣布就此封盤退役的阿法狗爲何在短短數月之後又卷土重來?紅星新聞記者19日晚在第一時間連線到了阿法狗之父、谷歌Deepmind公司CEO德米什·哈薩比斯,他向我們獨家揭秘了新一代阿法狗之謎。
阿法狗之父
曾是國際象棋神童
被評價爲這個星球最聰明的人
德米什·哈薩比斯,41歲,英國倫敦生,父親有著希臘和塞浦路斯血統,而母親出身于新加坡和中國人的家庭。哈薩比斯幼年是一名國際象棋神童,13歲時,他就成爲該年齡段世界排名第二的象棋大師。16歲考入劍橋大學,並以雙重一級榮譽學位的成績從劍橋畢業。
有“互聯網之父”之稱的英國計算機科學家蒂姆·伯納斯·李曾評價:哈薩比斯是這個星球上最聰明的人之一。
2014年,哈薩比斯和合作夥伴將他們創辦的人工智能公司DeepMind,以4億英鎊(6.3億美元)的價格賣給了谷歌。哈薩比斯則繼續擔任CEO,潛心科研。
2016年,哈薩比斯聯合開發的AI(人工智能)程序阿法狗問世,擊敗了頂尖的人類專業圍棋選手,凸顯了人工智能快速擴張的潛力。
2016年12月,哈薩比斯入選英國《自然》雜志年度十大科學人物。
2017年4月21日,美國《時代》周刊公布本年度“全球100位最具影響力人物”榜,AlphaGo之父哈薩比斯入選該排行榜。
起名“零”
並非舊版的升級
而是有顛覆性的全新版
對于新版本阿法狗的研發,其實在烏鎮“人狗大戰”前後一直沒有停止過。
在3比0完勝中國天才圍棋少年柯潔後,哈薩比斯曾在中國公開表示,“這次比賽聚集了圍棋起源地最優秀的棋手,是阿法狗作爲一個競賽系統能夠對弈的最高級別對手。因此,本次中國烏鎮圍棋峰會是阿法狗參加的最後對弈比賽。”
在所有人的解讀中,阿法狗會就此退役。然而,對于阿法狗的升級工作從未停止,當時哈薩比斯就透露,今年DeepMind會繼續發一篇論文,揭曉阿爾法狗自去年以來的升級。
于是,在當地時間本周三晚間,DeepMind再次傳出爆炸性消息。只不過,這並不是對過去阿法狗的升級,而是完全創造了一個新 的 AlphaGo:AlphaGo Zero ,“零”。
新版阿法狗來勢洶洶,據Deepmind團隊透露,新阿法狗“零”的水平已經超過之前所有版本的阿法狗。在對陣曾贏下李世石的那版阿法狗時,AlphaGo Zero取得了100:0的壓倒性戰績。而且,它是從一張白紙開始,零基礎學習,在短短3天內,成爲頂級高手。
▲曆代AlphaGo 所需的算力對比,圖片來源:DeepMind
▲AlphaGo Zero 成長曲線說明:第0天,AlphaGo Zero此前沒有儲備任何關于圍棋比賽的知識,只輸入了圍棋比賽的基本規則;第3天,AlphaGo Zero已超過了AlphaGo Lee的水平,AlphaGo Lee在2015年與世界冠軍李世石的5局對弈中贏得其中4局;第21天,AlphaGo Zero已達到此前AlphaGo Master的水平,而此前這個版本的AlphaGo在網絡上打敗了全球範圍內的60名高手,並且在2017年以3:0全勝世界冠軍柯潔;第40天,AlphaGo Zero已超過此前所有AlphaGo的版本,無可爭議地成爲了目前全世界最強圍棋玩家。而這一成果的取得全部源于其自學,沒有任何人類介入,沒有使用任何曆史數據。圖片來源:DeepMind
紅星新聞記者將是否自食其言的問題抛給Deepmind團隊,哈薩比斯對此解釋道,“新版阿法狗‘零’的得名正是解釋了新狗與老狗的區別所在——零(Zero),即完全不依靠人類數據和任何曆史經驗,完全依靠人工智能自身的獨立思考和學習能力。”
這也解釋了,烏鎮人機大戰以後,谷歌就宣布阿法狗退役,實際是在研究完全不同的新狗。
對于阿法狗名字的由來,團隊表示頗有深意。在今年年初接受紅星新聞記者專訪時,阿法狗團隊就曾解釋過,alpha是希臘字母表的第一個字母。第一個,即開端,最初的含意。而後來橫掃世界網絡的Master(大師)的本名Magister,是德國作家赫爾曼·黑塞晚年作品《The Glass Bead Game(玻璃球遊戲)》裏的一個詞。
而這一次的“零”,無疑是一個顛覆性的成果。
重大突破
沒有人類知識輸入
靠自我博弈而自學成才
“此前的阿法狗是通過大量吸收傳統圍棋對戰路數、學習人類的圍棋招式、數據實現的,而人類知識具有昂貴、不可靠、難以獲取的特點。因此,對于AI長遠發展而言,必須跳過這一步,在沒有人類知識輸入的前提下,創造出超人類(superhuman)的計算程式。”哈薩比斯解釋道。
如果說此前版本的阿法狗需要被成千上萬的人類棋手訓練的話,新一代的阿法狗則跳躍了這一步、完全自學成才,“它自己就是自己的老師”。
▲圖a展示了程序的自我對弈過程。程序在從S1到ST的棋局中進行自我對弈。在任意位置ST,程序會用最新的神經網絡程序執行計算,然後,根據計算出的搜索概率at~ πt選擇落子位置,根據遊戲規則來決定最終位置ST,並計算出勝者z。圖b展示了AlphaGo Zero中 的神經網絡訓練過程。神經網絡以棋盤位置St輸入,將它和參數θ通過多層傳遞,輸出向量Pt和張量值 Vt(Pt表示幾步之後可能的局面,Vt 表示 St 位置上當前玩家的勝率)。爲了將Pt和搜索概率πt的相似度最大化,並最小化Vt和遊戲實際勝者z之間的誤差,神經網絡的 參數θ會不斷更新,更新後的參數會用到如圖 a 所示的下一次自我對弈叠代中。
哈薩比斯向記者表示,“零”是目前最強版本的阿法狗,“阿法狗在短短兩年時間就達到如此成就,我們也相當驚喜”。
它是從一張白紙開始,零基礎學習,沒有使用任何人類數據,而是直接與目前世界圍棋最高水平的阿法狗自身學習,“每一次的自我博弈都取得了一定程度的提升”,就這樣,在短短3天內,“零”成爲頂級高手。
因此,這一次,新版阿法狗並沒有和任何人類高手進行人機大戰,而是直接通過“自我博弈”而“自學成才”。在對陣曾贏下李世石那版阿法狗時,“零”取得了100:0的壓倒性戰績。
哈薩比斯評價道,人工智能極少地使用電腦的力量並完全抛棄了人類的數據經驗,這是一個裏程碑式的事件。
探索未知
若服務于醫療行業研究
阿法狗的算法將帶去新的曙光
“這兩年頻繁地進行人機大戰和線上對壘,最終目標是什麽?”上次專訪阿法狗團隊時,紅星新聞記者就曾向他們提出過這樣的問題。
當時團隊解釋,“最終希望能將技術應用于解決現實世界的難題。在這些測試賽之外,我們更想人類的專業棋手和阿法狗一起,共同探索更多圍棋的未知領域。”
而這次的阿法狗新版“零”幹脆“抛棄”人類,通過自己輸入,而摘得世界圍棋最頂級的那個皇冠。
那麽他們如此做的目的又是什麽呢?這次哈薩比斯給出了更精確的答案和目標産業,“使用這種曆史性的突破,來解決現實生活中目前無法解決的問題,比如在醫療行業的蛋白質折疊問題,還有就是新材料的發明。”
這一點與哈薩比斯自身的生活息息相關。生物學研究的一個重要課題就是蛋白質如何折疊成3D結構,因爲3D結構將決定蛋白質在體內如何工作和反應,患阿爾海默氏(老年癡呆)症的病人或許就是因爲蛋白質的折疊方式錯誤。而哈薩比斯的妻子是一名意大利的分子生物學家,多年一直專注于阿茲海默症的研究。
夫妻二人會一起工作、研究,他們經常討論怎樣加速科學發現的過程,AI在其中扮演怎樣的角色。妻子一直希望能取出一個氨基酸序列,然後根據其中的基因序列判斷3D結構會是什麽樣子,這樣就可以令藥物研發加速5到10年,而實驗室通常都要幾年的時間才能搞清楚這些結構。
而阿法狗的算法恰恰給了模擬這些蛋白質的折疊一絲曙光。
哈薩比斯最喜歡的音樂是電影《星際穿越》的插曲,而導演克裏斯托弗·諾蘭是正是他的好朋友,他常和《機械姬》導演埃裏克斯·加蘭德一起討論宇宙、人類和人工智能的話題。哈薩比斯曾表示,《星際穿越》和他的最終目標關聯緊密,“我想理解我們周圍的整個宇宙:理解時間、黑洞、我們在整個宇宙中的真正地位。”
也正是如此,哈薩比斯不停地推動著對阿法狗的研究,“如果在這些實用性領域也能帶入阿法狗的成就,將會極大地造福人類的生活。”哈薩比斯對紅星新聞記者表示。
END
紅星新聞記者丨胡敏娟
編輯丨王睿