雷鋒網 AI 科技評論消息,全球頂級的知識庫構建測評KBP2017日期公布了最新排名。阿裏巴巴人工智能研究機構iDST斬獲英文實體發現測評全球冠軍,在准確率和召回率上均表現出色,核心指標F1達到0.811。這次測評吸引了全球20多支頂尖團隊參與,包括IBM Research, BBN, Stanford Univ, CMU Univ, UIUC Univ, Columbia Univ, 騰訊等。
KBP是由NIST(National Institute of Standards and Technology,美國國家標准與技術研究院)指導、美國國防部協辦的賽事,主要任務爲從自然書寫的非結構化文本中抽取實體,以及實體之間的關系。
這項測評要求AI算法在“讀完”一篇英文文章後,構建一個物理世界的命名實體和實體之間關系的知識庫,如“克林頓和希拉裏之間是夫妻關系”、“克林頓畢業于耶魯法學院”這樣一個個實體的關系。
阿裏巴巴iDST自然語言處理首席科學家司羅介紹,他們的算法可以做到對文章上下文的理解。比如,文章出現了Apple,再出現Jobs,就可以辨別出這個Jobs指的是喬布斯,而不是工作。再比如,文章出現了Microsoft,那麽Apple就更有可能是蘋果公司,而不是一種水果。
“另外,我們構建了一個算法去學習不同領域之間共同的部分,通過遷移學習提升我們學習的准確度。對于不同領域數據,我們取其精華,去其糟粕,進行智能學習”,司羅說。
在這次測評中,iDST團隊采用經過改良的深度神經網絡架構對文本進行理解。改良的架構有三個主要特點:首先該模型可以自動閱讀海量文章(如維基百科)並從中汲取經驗;其次,該架構可以智能選擇訓練數據集以保證訓練數據的准確性;最後,我們采用post regularization的辦法保證模型結果的一致性。
對于KBP2017的成績,司羅表示:“很榮幸能夠同全球的同行分享阿裏巴巴的研究成果,人工智能在機器閱讀理解和知識庫構建上還處在起步階段,我們正在積極和同行業頂尖機構學習交流,推動行業發展。比如我們內部建設的信息抽取平台AliIE項目就在同斯坦福大學展開積極合作”。
阿裏巴巴正在將這樣的信息抽取技術廣泛的應用到實際業務當中,並致力于讓更多的中小開發者從中收益。他們搭建的信息抽取平台AliIE擁有最頂尖的AI技術,並從一開始的架構設計就考慮到平台的開放性和可擴展性。可以讓更多的開發者、研究員共同開發,並將成果回饋給這個社區。
阿裏巴巴iDST自然語言處理首席科學家司羅
司羅是全球權威機器智能學者,曾擔任美國普渡大學計算機系終身教授,主持的20余個項目得到美國政府、工業界資助,先後獲得美國國家科學基金會成就獎、雅虎、谷歌研究獎等。
由他領導的自然語言處理團隊目前支持了阿裏巴巴大生態每天多達600億次的自然語言處理需求,團隊橫跨杭州、北京、硅谷、西雅圖(新加坡)多地,成員大多擁有10年以上的研發經驗。檢索招聘網站可以看到,他們依舊在不斷擴充團隊。