本文轉自騰訊AI Lab微信公衆號(tencent_ailab),獲取更多騰訊AI Lab團隊技術幹貨,可關注其微信公衆號。本文將通過介紹入選NLP領域頂級學術會議 ACL 的論文,解讀騰訊 AI Lab 的重點研究方向:自然語言理解、對話系統和文本生成,以及機器翻譯等。
自然語言處理領域頂級會議 ACL 2019 將于 7 月 28 日– 8 月 2 日在意大利弗洛倫薩舉辦。此次騰訊 AI 共計入選 34 篇文章,含騰訊 AI Lab 20 篇、微信AI 9 篇、其他部門 5 篇(據內部不完全統計)。
這是騰訊 AI Lab 第三次參加 ACL,本次入選的論文涉及自然語言理解、對話系統和文本生成,以及機器翻譯等幾大重點研究方向,下面將以不嚴格的方式分組介紹。Lab 往年參會入選論文可見「 騰訊 AI 實驗室 」公衆號。
ACL 大會期間,騰訊還將在弗洛倫薩舉辦 TAIC 學術交流大會,邀請騰訊 AI Lab 副主任俞棟博士等多位技術專家和業界領袖,共談前沿研究進展。歡迎您前來參加。
時間:7月29日17:00-20:30
地點:Sala della Scherma,Fortezza da Basso,Florence
方向一:自然語言理解
自然語言理解(Natural Language Understanding)的目標是賦予機器閱讀、消化和理解人類語言的能力,是人工智能數十年來致力完成的使命之一,也是自然語言處理研究者長期以來努力攻克的重點和難點之一。騰訊AI Lab長期以來在自然語言理解領域有著持續的投入,本次會議上展示的論文,主要圍繞詞的語義表示和知識的構建,希望在多語種、跨平台的自然語言理解問題上有所突破。
1. 社交媒體語言的主題感知神經關鍵詞生成
Topic-Aware Neural Keyphrase Generation for Social Media Language
論文地址:https://arxiv.org/pdf/1906.03889.pdf
本文由騰訊AI Lab主導,與香港中文大學聯合完成。每天在社交媒體上有大量用戶生成的內容發布。爲了便于自動語言理解,我們研究關鍵詞預測,即從大量帖子中提取顯著信息。相比于大多數從源帖子中提取單詞以形成關鍵短語的現有方法,我們提出了基于序列到序列(seq2seq)的神經關鍵詞生成框架,使得不出現在帖子中的關鍵詞也可以被生成。此外,我們的模型有主題感知的特性,能對跨文本級的隱性主題表示進行聯合建模,這有助于緩解在社交媒體語言中廣泛存在的數據稀疏性。在從英文和中文社交媒體平台收集的三個數據集的實驗表明,我們的模型明顯優于不利用隱性主題的基于抽取或生成的模型。進一步的討論表明,我們的模型能學習到有意義的主題,這也解釋了它在社交媒體關鍵詞生成中的優越性。
2. 基于圖匹配神經網絡的跨語言知識庫實體對齊
Cross-lingual Knowledge Graph Alignment via Graph Matching Neural Network
本文由騰訊AI Lab主導,與IBM T.J Waston Research Center、Amazon AWS合作完成。之前面向跨語言知識庫實體對齊的工作主要是基于從單語言知識庫中學習出來的實體表達,因此很難對齊在跨語言知識庫中具有不同事實性描述的實體。爲了解決這個問題,本工作提出一個“實體主題圖”,即首先將實體在跨語言知識庫裏的事實抽取出來,各自形成一個子圖。然後將實體對齊的任務轉變成圖匹配的問題。同時我們提出一個圖匹配神經網絡算法,首先匹配兩個子圖裏面所有實體,再綜合實體匹配的結果生成一個圖匹配結果。實驗結果表明,通過這樣的方法,我們提出的模型可以更好地利用實體附近的上下文信息判斷實體匹配的結果。
3. 用于專名識別的可靠性感知的動態特征組合
Reliability-aware Dynamic Feature Composition for Name Tagging
論文地址:
http://nlp.cs.rpi.edu/paper/featurecomposition2019.pdf
本文由騰訊AI Lab與RPI、UIUC合作完成。詞向量被廣泛運用于各種任務,然而受限于,詞頻的長尾分布,其性能在整個詞彙表中並不一致。由于缺乏足夠的語境信息,稀有詞的向量表示通常不如普通詞的表示。通用的模型通常信任所有詞向量,而不考慮它們的可靠性,因此可能引入噪聲並損害其性能。由于專有名詞通常包含罕見和未知的詞語,因此該問題對于專名識別尤其重要。本文提出了一種新穎的可靠性感知的專名識別模型來解決這個問題。我們設計了一組基于字頻率的可靠性信號,以指示每個詞向量的質量。在可靠性信號的指導下,該模型能夠使用門控機制動態選擇和組合諸如詞向量和字符級表示之類的特征。例如,如果輸入單詞爲罕見詞/稀有詞,則模型較少依賴于其詞嵌入,並爲其字符和上下文特征分配較高權重。在OntoNotes 5.0上的實驗表明,我們的模型比基准模型提高了6.2%的F-score。在OntoNotes的六個文體的跨類型實驗中,我們的模型提升了大多數類型對上的性能,平均獲得2.3%的F-score絕對增益。
方向二:對話系統和文本生成
目前大多數對話系統是通過生成方法或基于檢索方法實現。隨著大數據和深度學習技術的發展,生成式對話系統及文本生成技術取得了巨大進展。最早的序列到序列(Seq2Seq)模型把對話回複生成視爲一個翻譯問題,學習對話上下文到其回複的對齊關系。但生成回複比翻譯語言要困難得多,這可能是在對話場景中,輸入與輸出之間並沒有嚴格的短語對齊關系,允許有大量看似合理的回複同時存在。本次 ACL 會議中,騰訊AI Lab的工作討論了多個對話任務場景中的特性及問題,包括結合對話的句子功能、增強對話生成中的語料記憶能力以及提升對話回複的語義可控性、多樣性、連貫性等問題。
1. 短文本對話中的細粒度句子功能
Fine-Grained Sentence Functions for Short-Text Conversation
帶有細粒度句子功能的短文本對話句對。可以看到,對于不同句子功能的query(Yes-no/Wh-style疑問句), 他們本身以及相應回複的句子結構都大不相同。
三種細粒度疑問句的常見句子結構。x和y是代表內容詞的變量。句子中帶下劃線的單詞對應于句子結構中的單詞。
本文由騰訊AI Lab主導,與蘇州大學合作完成。句子功能(Sentence function)是一個重要的語言學特征,該特征在對話中能夠體現說話者的目的。已經有許多研究結果表明引入句子功能特征改善對話模型的性能。但是,目前仍舊不存在一個帶有句子功能標注的大型對話數據。在這個工作中,我們構建了一個新的帶有句子功能標注的短文本對話數據集。在此數據集上我們訓練了分類網絡用于:(1) 確定新的大型短文本對話數據中句子的功能類別;(2) 根據測試輸入預測回複文本可能的句子功能。我們在此基礎上搭建了基于檢索和生成的兩種對話模型。實驗結果表明使用句子功能特征可以幫助這些對話模型提高生成回複的性能。
2. 學習如何抽象:一種記憶增強的對話生成模型
Learning to Abstract for Memory-Augmented Conversational Response Generation
模型框架圖:本文致力于開放域閑聊對話,探究檢索式對話和生成式對話更好的結合方式。
本文由騰訊AI Lab主導,與香港科技大學合作完成。神經網絡生成模型存在諸如生成的回複多樣性差、信息量不足等一些問題。一些研究者嘗試利用檢索系統去增強生成模型的效果,但是該方法受限于檢索系統的質量。在本文中,我們提出了一種記憶增強的生成模型,他可以對訓練語料進行抽象,並且把抽象出來的有用的信息存儲在記憶模塊中,以便輔助生成模型去生成回複。具體來說,我們的模型會先對用戶輸入(query)-回複(response)的聚對做聚類,接著抽取出每個類的共性,然後讓生成模型學習如何利用抽出的共性信息。實驗效果表面我們的模型可以大幅提升回複生成的效果。
3. 基于指代對齊和對話流建模的連續問題生成
Interconnected Question Generation with Coreference Alignment and Conversation Flow Modeling
論文地址:https://arxiv.org/abs/1906.06893
本文研究了問答式對話這一場景中的連續問題生成,目標是生成具有對話性的問題Q1~10。
模型框架圖
本文由騰訊 AI Lab 主導,與香港中文大學合作完成。本文研究問答式對話這一場景中的連續問題生成。之前的工作是基于一句話(或一段話)生成問題,本工作的不同之處在于: (1)問題的對話性很強,對話中一半的問題利用指代關系依賴于曆史對話;(2)在一個連貫的對話中,不同輪之前的問題有著連貫的焦點轉移。我們提出了一個端到端的基于指代對齊和對話流建模的模型。指代對齊模塊顯式地將對話曆史中的實體名詞和生成問題中的相應的代詞對齊,使得問題能夠與曆史對話連貫。對話流模塊在對話的前幾輪關注文章前半部分的內容,並隨著對話的深入,逐漸轉移注意力到文章後面的部分。實驗表明我們提出的模型超過了基線系統的水平並能夠生成對話性強的問題。
4. 基于多級解偶自注意力機制的對話回複生成機制
Semantically Conditioned Dialog Response Generation via Hierarchical Disentangled Self-Attention
論文地址:https://arxiv.org/pdf/1905.12866.pdf
本文研究了對話回複生成機制,目標是生成語義可控的對話回複。
模型框架圖
本文由騰訊AI Lab和加州大學Santa Barbara分校合作完成。本文主要解決用語義來控制對話回複生成的問題。在用語義控制多領域大規模對話的生成的問題中,因爲多種語義輸入的組合呈現指數增長,所以在實際解決時會面臨很大困難。本文針對這個問題,將一系列對話決策整合成一個多層的分級圖結構,並將這個結構整合到Transformer模型結構中,用于控制其對話文本生成過程。在大規模Multi-Domain-WOZ數據集上,我們提出的模型獲得了超過4個BLEU點的提升,同時人工評測也顯著超越其他基准方法。
5. 訓練數據是否相互關聯?基于多個參考回複的對話生成模型
Are Training Samples Correlated? Learning to Generate Dialogue Responses with Multiple References
兩步生成架構示意圖:傳統模型從頭開始建模每個回複(綠色標識),我們的方法首先建立多個回複的共同特征,然後在此基礎上對每個回複進行建模。
本文由騰訊AI Lab與北京大學合作完成。現有的生成式模型往往會面臨通用回複的問題,這是因爲其未能很好地考慮到對話中自然存在的提問與回複之間一對多的映射關系。對此,本文通過考慮多個參考回複之間的相關性,提出了一種兩步式的對話生成模型,來分別建模多個回複之間的共性與個性特征。實驗結果顯示本文提出的方法可以生成多樣且合理的回複,並且相較于基准模型在自動與人工評測指標下均有著更好的表現。
方向三:機器翻譯
機器翻譯是人工智能的終極目標之一,其中核心的語言理解和語言生成是自然語言處理的兩大基本問題,極具挑戰性。雖然神經網絡機器翻譯近幾年來取得了巨大進展,但是由于當前神經網絡的不可解釋性,無法保證原文內容完整傳遞到譯文,使得神經網絡翻譯模型存在譯文忠實度問題 (即“達而不信”) 。騰訊AI Lab專注于解決該核心問題,在ACL2019會議上發表的多篇論文,嘗試解釋當前主流Transformer模型核心的解碼器及注意力模型的建模能力,加強對神經網絡翻譯模型的理解,希望能啓發其他研究者對神經網絡翻譯模型的進一步改進。
1. 神經機器翻譯中句子表示的利用
Exploiting Sentential Context for Neural Machine Translation
論文地址:https://arxiv.org/pdf/1906.01268.pdf
圖1 利用多層源語言句子表示的方法框架
本文由騰訊AI Lab獨立完成。本文針對“編碼器-解碼器”結構的神經機器翻譯模型提出一種利用源語言句子表示的方法。具體地,針對神經機器翻譯中的多層表示,分別提出源語言句子淺層表示和深層表示兩種具體的方法 (圖1),並將該源語言句子表示集成至神經機器翻譯解碼器中以指導目標語言句子的生成。實驗表明,在多個翻譯數據集上,該方法可以取得比基准模型更好的翻譯性能。進一步分析表明,該方法可以增強編碼器對原句語言信息的建模能力。該論文是我們探索編碼器表示的第四個工作,前續工作通過深層表示融合及結構化建模,改進編碼器對原句的理解及表達能力。
2. 評估自注意力網絡的詞序學習能力
Assessing the Ability of Self-Attention Networks to Learn Word Order
論文地址:https://arxiv.org/pdf/1906.00592.pdf
圖1 單詞重排序檢測任務 (WRD)
表1 翻譯 (Translation) 及WRD准確率 (Detection) 。”En=>De Enc.”和”En=>Ja Enc.”指對應雙語語料訓練的NMT模型的編碼器,”WRD Enc.”指在WRD單語數據上訓練的編碼器。”- Pos_Emb”指去除SAN模型中的詞語位置編碼。
本文由騰訊 AI Lab 主導,與澳門大學合作完成。自注意力網絡(SAN)由于其高並行化和在機器翻譯等NLP任務上的出色表現而受到廣泛關注。由于缺乏諸如遞歸神經網絡(RNN)之類的遞歸結構,SAN被認爲在序列建模時學習詞序信息的能力較弱。然而,這種推測既沒有得到經驗上的驗證,也無法解釋爲何在”缺乏位置信息”的情況下基于SAN的機器翻譯模型依然表現出色。爲此,我們提出了一種全新的單詞重新排序檢測任務 (圖1),用來量化SAN和RNN結構的詞序信息的捕獲能力。具體地,我們將一個單詞隨機移動到另一個位置,並檢驗特定模型是否能夠檢測出原始位置和插入位置。實驗結果 (表1) 表明:1) 即使引入位置編碼 (position encoding) ,SAN在單詞重排序檢測任務中難以學習好詞序信息; 2) 但是在機器翻譯任務中,SAN可以比RNN可以更好地捕獲詞序信息,其中位置編碼起著至關重要的作用。盡管遞歸結構使模型在學習詞序方面更普遍有效,但學習目標在機器翻譯等下遊任務中更爲重要。該論文是我們探索自注意力模型的第四個工作,前續工作改進了自注意力模型的局部建模能力和全局建模能力。
3. 機器翻譯中的詞對齊
On the Word Alignment from Neural Machine Translation
本文由騰訊AI Lab 主導,與香港中文大學、哈爾濱工業大學合作完成。在機器翻譯的研究中,注意力機制一直被認爲是詞對齊,然而在多層複雜結構的神經機器翻譯模型裏,研究者發現編碼器-解碼器注意力機制可能不能做爲一個有效的詞對齊模型。于是,本文提出了兩種與機器翻譯具體模型無關的獲取詞對齊的方法。實驗表明所提出的兩種方法獲得的詞對齊都遠好于注意力機制獲取的詞對齊(參見Table 1)。在論證了神經機器翻譯模型確實可以學到不錯的詞對齊之後,研究者試圖使用神經機器翻譯模型本身詞對齊去理解機器翻譯。通過在數據集上量化分析詞級別上的詞對齊錯誤對于翻譯錯誤的影響,本文論證了詞對齊錯誤會一定程度上導致翻譯的錯誤。通過將目標端的詞分爲主要貢獻來自于源端(CFS)和目標端(CFT),分析結果顯示,主要貢獻來自于源端的詞的詞對齊錯誤對翻譯錯誤的影響占主要部分(參見Table 2)。
注意力模型一直是神經網絡翻譯模型的核心組件,尤其是當前主流的Transformer模型甚至是純粹由注意力模型組成。在前續工作中,我們同樣對Transformer中自注意力模型及編碼器-解碼器注意力模型的具體實現方式–多頭注意力機制進行了探索,通過鼓勵其多樣性和信息融合方式,進一步增強注意力模型的表達能力。
其他入選論文
1. 弱監督的時空域自然語句視頻定位
Weakly-Supervised Spatio-Temporally Grounding Natural Sentence in Video
本文由騰訊AI Lab主導,與香港大學合作完成。在本文中,我們討論了一個新的任務,即弱監督的時空域自然語句視頻定位。具體而言,給定自然句子和視頻,我們在視頻中定位時空片段,其在語義上對應于給定的句子,而不依賴于訓練期間的任何時空的標注。首先,我們從視頻中提取一組稱爲實例的時空片段。然後,我們使用我們新提出的注意交互模塊對這些實例和句子進行編碼,這可以利用它們的細粒度關系來表征它們的匹配行爲。除了排名損失之外,還引入了一種新的多樣性損失來訓練我們注意交互模塊,以加強可靠的實例-句子對的匹配行爲,並懲罰不可靠的實例-句子對。我們還根據ImageNet視頻對象檢測數據集提供了一個名爲VID-sentence的數據集,作爲我們任務的基准數據集合。大量實驗的結果證明了我們的模型優于基線方法。
2. 多句子壓縮的無監督重寫器
Unsupervised Rewriter for Multi-Sentence Compression
本文由騰訊AI Lab主導,與東京大學合作完成。多句壓縮(MSC)旨在根據多個輸入句子生成一個語法正確的壓縮句,同時保留其關鍵信息。之前的工作大多是利用基于提取的詞圖的方法。之後的一些工作進一步利用詞彙替換産生抽象的壓縮句子。但是,當前的方法存在兩個不足。首先,簡單地連接多個句子中的片段的詞圖方法可能會産生生硬或不合語法的壓縮句。其次,在不考慮上下文信息的詞彙替換通常也會導致不恰當的壓縮句子。因此,爲了解決上述問題,我們提出了一種用于多句子壓縮的神經重寫器,並且不需要任何平行語料庫。實驗結果表明,我們的方法在自動評價指標上取得了可比較的結果,並且在人類評價上面提升了壓縮句子的語法正確性。此外,我們也構建了大約140,000個(多句子,壓縮句)對的平行語料庫,以便用于未來的研究。
3. 利用多頭注意力機制建模數學應用題內在聯系
Modeling Intra-Relation in Math Word Problems with Different Functional Multi-Head Attentions
本文由騰訊AI Lab與電子科技大學、新加坡管理大學合作完成。本文針對數學應用題的自動求解提出了一種分組注意力機制,來分別提取數學應用題中的全局特征、數字相關特征、數字對相關特征和問題相關特征。實驗結果表明,該方法的性能明顯優于現有的先進方法,在多個數據集上均取得了更好的解題准確率。
4. 低資源命名實體識別中的雙重對抗神經網絡遷移學習
Dual Adversarial Neural Transfer for Low-Resource Named Entity Recognition
本文由騰訊AI Lab/Robotics X與新加坡A*STAR,MIT合作完成。本文提出一種新的神經網路遷移學習算法,稱爲雙重對抗傳輸網絡(DATNet),用于解決低資源命名實體識別問題。具體地,本文研究了DATNet的兩種變體,即DATNet-F和DATNet-P,以探索高資源和低資源之間的有效特征融合。爲了解決有噪聲的和不平衡的訓練數據,我們提出了一種新穎的一般性的資源對抗鑒別器(GRAD)。此外,采用對抗訓練來推動模型泛化。在實驗中,我們檢查DATNet中不同組件對跨域和跨語言應用的影響,並表明可以獲得顯著的改進,特別是對于低資源數據,而不增加任何額外的手工制作的特征和預先訓練的語言模型。
5. 關于對話上文和用戶聊天曆史對用戶重回對話行爲的研究
Joint Effects of Context and User History for Predicting Online Conversation Re-entries
本文由騰訊AI Lab與香港中文大學、美國東北大學合作完成。隨著網絡世界的持續膨脹,人與人之間的交互如今在觀點的形成和變化方面扮演著愈發重要的角色。爲了幫助用戶更好地參與到線上對話當中,我們研究了一個有挑戰性的問題:用戶重回對話的行爲預測。我們假設對話的上文和用戶過去的聊天曆史都能夠影響他們對于一個對話的持續性興趣。特別地,我們提出了一個神經網絡的框架,這個網絡共有三個主要層,每一層分別建模對話上文、用戶討論興趣、以及他們之間的關系以預測一個用戶是否會重回一個對話。我們在兩個大規模的數據集上做了實驗分析,這兩個數據集分別收集自Twitter和Reddit。實驗結果分析顯示用雙向注意力機制建模對話上文和用戶聊天曆史在Twitter上能夠取得61.1的F1,超過了之前最好模型的結果。
6. 一個大規模可用于生成一致性摘要式文摘的專利數據集
BigPatent: A large-Scale Dataset for Abastractive and Coherent Summarization
本文由騰訊AI Lab與美國東北大學合作完成。當前大部分存在的文摘數據集都是來源于新聞領域。在這類摘要中,大部分摘要需要的內容都是會集中在文章的開頭。而當文摘需要理解文章的全局信息,或者文摘需要高壓縮率的時候,這類數據集的這種缺點就顯而易見了。在這個工作中,我們發布了一個新的數據集,包含了一百三十萬的美國專利文檔以及對應的摘取式摘要。和現在研究領域常用的文摘數據相比,我們新發布的數據有如下的特點:1.文摘有豐富的結構化信息和重複的命名實體。2. 文章中重要的信息分散在文章的不同位置。3. 在提供的文摘中存在大量簡短的抽取式摘要。在論文的最後,我們在新發布的數據上實驗了一些基礎模型來揭示該數據集上做文摘會遇到的新挑戰。
7. 基于預訓練Transformer模型的多關系抽取器
Extracting Multiple-Relations in One-Pass with Pre-Trained Transformers
本文由騰訊AI Lab與IBM T.J Waston Research Center合作完成 。多關系抽取任務中,目前的方法大多需要對目標的段落/句子進行多次(multiple-pass)編碼操作,成本高且對長段落和大數據集應用效果差。本文的方法可以對一個段落中的多關系抽取任務,只進行一次段落編碼(one-pass),從而緩解上述問題。此外,本文結合預訓練語言模型BERT,針對Relation Classification任務的特點提出了兩種抽取entity-aware信息的策略。
8. 基于知識的代詞指代消解
Knowledge-aware Pronoun Coreference Resolution
本文由騰訊AI Lab與香港科技大學合作完成。代詞的指代消解需要外部知識,尤其是對于某些特定的領域,比如醫藥領域。在本文中,我們探索如何構建神經網絡利用多種外部知識。爲了保證我們的模型有足夠的泛化能力,我們直接將外部知識組織成三元組的形式。在外部知識中,有些知識在特定的上下文中並沒有幫助,爲此我們提出了一個面向知識的注意力機制,根據不同的上下文選擇合適的知識進行指代消解。在兩個評測數據集上的結果表明我們的方法是有效地,並且顯著地超過基線方法。同時,由于我們的方法學會了如何利用外部知識,而不只是過擬合在某個訓練集合上,所以我們的方法在跨領域的指代消解任務裏,也顯著超過了基線方法。
9. 面向領域遷移的訓練數據選擇方法
Reinforced Training Data Selection for Domain Adaptation
本文由騰訊AI Lab與香港科技大學、蒙德利爾大學合作完成。強監督學習模型通常會遇到領域遷移的問題。爲了解決這個問題,訓練數據的選擇通常被認爲是一個解決領域遷移問題的方法。傳統的方法通常需要一個預先設置的阈值,然而這個阈值通常並不容易設置,而且在不同的任務中通常也不一樣。爲了解決這個問題,我們提出了一個強化學習框架,同時學習選擇訓練數據和利用訓練數據。我們設計了一個選擇分布生成器,在強化學習過程中不斷根據獎勵函數進行更新。在POS tag標注,依存關系分析和情緒分析的任務中的實驗結果表明我們的方法不僅在數據選擇任務中有效,也可以泛化到不同的NLP任務中。