AIR自成立以來,圍繞智慧交通、智慧醫療、智慧物聯三大研究方向開展系統深入的研究,在美國科學院院刊(PNAS)、CVPR、NeurIPS、ICLR和MobiSys等重要國際期刊和會議上發表88篇高水平論文,研究成果獲得MobiSys 2021最佳論文獎、CVPR 2021最佳學生論文獎提名、AAAI-IAAI 2022人工智能創新應用獎等獎項。
今天,小編就爲大家精選了12篇近期AIR發表的亮點論文,做一期摘要解讀,文末可獲取完整論文打包下載方式。
智慧交通
DAIR-V2X: A Large-Scale Dataset for Vehicle-Infrastructure Cooperative 3D Object Detection
作者:俞海寶,羅弈桢,舒茂,霍漪漪,楊澤邦,時一峰,郭正龍,李晗禹,胡星,袁基睿,聶再清
單位:AIR、百度、清華大學計算機系、中國科學院大學
會議:CVPR 2022
摘要:單車自動駕駛存在駕駛盲區、中遠距離感知不穩定等問題,因而在落地時面臨安全性等巨大挑戰。融合路側信息的車路協同自動駕駛將是保障自動駕駛安全運行的必由之路。然而當前車路協同領域缺少來自真實場景的公開數據,爲促進學術界和産業界共同打造數據驅動的車路協同自動駕駛,團隊公開車路協同自動駕駛數據集DAIR-V2X。DAIR-V2X數據集是首個采自真實場景的大規模(一共71254幀,並全部進行3D標注)、多視角(包含車端與路端及相同時空下的聯合視角)、多模態(包含圖像和激光點雲)數據集。另外數據集還提供了車端與路端聯合視角下的融合標注結果,用于更好地服務車路協同算法研究和評估。同時爲方便學術界基于DAIR-V2X數據集開展學術研究,團隊還從車路協同實際需求出發定義了車路協同3D檢測任務-VIC3D Object Detection,即在通信帶寬約束下車端融合路端信息進行3D檢測。該問題有三大挑戰:1)如何融合路端信息以提升3D檢測精度;2)如何減少路端數據傳輸以減少通信帶寬消耗;3)如何解決由于時延等帶來的時空誤差問題。同時團隊還提供了完備的車路協同3D檢測和單端(車端與路端)3D檢測的Benchmark,以作爲算法研究基准。目前DAIR-V2X數據集已經可以公開下載(下載鏈接:https://thudair.baai.ac.cn/index),團隊也將于近期公開Benchmark所有相關實現代碼。該工作得到北京市高級別自動駕駛示範區、北京車網科技發展有限公司、百度Apollo和北京智源人工智能研究院等單位的大力支持。
Constraints Penalized Q-Learning for Safe Offline Reinforcement Learning
作者:徐浩然、詹仙園(通訊作者)、朱翔宇
單位:京東科技、AIR、西安電子科技大學
會議:AAAI 2022
摘要:離線強化學習是近年來強化學習研究的熱點方向,其目標是直接從收集的大量曆史數據中學習策略,而不和真實環境進行交互,這是使得強化學習能夠應用于真實世界的最佳路徑。然而,將離線強化學習應用在真實世界時必須要考慮到安全因素的影響,現有的工作難以在滿足安全約束和最大化獎勵價值中取得平衡,容易導致策略出現過保守或者欠保守的現象。
爲了解決這一問題,本文提出了一種新的基于約束值懲罰的Q學習算法CPQ。首先在用數據集擬合風險Q函數時加上一個額外的損失項,該損失項會將偏離數據分布的動作的風險Q函數值升高;然後在更新價值Q函數的目標值時,在原來的貝爾曼方程上乘上一個是否滿足約束條件的指示函數,通過該指示函數,隱式地將數據分布外和不滿足安全約束的動作的價值Q函數變小;最後在學習策略時,和常見的Actor-critic算法一樣,讓策略朝著能使得價值Q函數值最大的方向更新。
文章中從理論上證明了所提方法的收斂性以及與最優安全策略價值差的上界,並在不同種類的離線數據集上驗證了CPQ的有效性。實驗證明團隊的方法在獎勵最大化和訓練穩定性上均優于其他基准算法,並且對于安全約束限制值的改變表現出魯棒性。
Cerberus Transformer: Joint Semantic, Affordance and Attribute Parsing
作者:陳小雪,劉天瑜,趙昊,周谷越,張亞勤
單位:AIR,香港科技大學,北京大學,英特爾研究院
會議:CVPR 2022
摘要:多任務室內場景理解是計算機視覺的一個重要研究方向,與單任務模型相比,利用不同任務間的相關性可能會提高各個任務的性能。在本文中,團隊提出並解決了語義、可供性和屬性聯合解析的新問題。成功地解決這個問題需要一個模型來捕捉長程依賴,從弱對齊的數據中學習,並在訓練期間適當地平衡子任務。爲此,團隊提出了一個名爲 Cerberus 的基于注意力的架構和其適配的訓練框架。團隊的方法有效地解決了上述挑戰,並在所有三個任務上取得了最先進的性能。此外,深入分析顯示團隊的模型體現了與符合人類認知的子任務相關性,這激發了團隊探索弱監督學習的可能性。令人驚訝的是,Cerberus 僅使用 0.1%-1%的標注就獲得了較強的結果,可視化進一步證實,這種成功歸功于跨任務的共同注意力機制。代碼和模型見:https://github.com/OPEN-AIR-SUN/Cerberus。
PQ-Transformer: Jointly Parsing 3D Objects and Layouts from Point Clouds
作者:陳小雪,趙昊,周谷越,張亞勤
單位:AIR,北京大學,英特爾研究院
會議:RA-L+ICRA 2022
摘要:基于點雲的三維場景理解對于各種機器人應用起著至關重要的作用。不幸的是,當前最先進的方法通常使用單獨的神經網絡來完成不同的任務,例如三維目標檢測或房間布局估計。這樣的方案有兩個限制:1)對于一般機器人平台來說,爲不同的任務存儲和運行多個網絡是昂貴的。2) 單任務網絡輸出的結果可能忽視了不同任務間的內在聯系和約束。爲此,團隊提出了第一個使用點雲輸入同時預測 3D 目標和布局的Transformer網絡。與現有的布局估計方法不同,團隊直接將房間布局參數化爲一組四邊形。因此,所提出的架構被稱爲 P(oint)Q(uad)-Transformer。除四邊形表示之外,團隊還提出了一種適配的物理約束損失函數,可以阻止對象與布局出現相交的現象。在ScanNet數據集上的定量和定性結果表明,PQ-Transformer可以成功地聯合解析物體和布局。而且,新的物理約束損失可以提高准確率,房間布局的 F1-score 從 37.9%顯著提升到 57.9%。代碼和模型見:https://github.com/OPEN-AIR-SUN/PQ-Transformer。
智慧醫療
Deep Learning Guided Optimization of Human Antibody Against SARS-CoV-2 Variants with Broad Neutralization
作者:單思思,羅世通,楊子卿,洪俊賢,蘇雨峰,丁凡,傅莉莉,李晨雨,陳鵬,馬劍竹,史宣玲,張绮,Bonnie Berger,張林琦,彭健
單位:清華大學醫學院,華深智藥生物科技(北京)有限公司,伊利諾伊大學厄巴納-香槟分校,麻省理工學院,AIR
期刊:PNAS
摘要:通過突變,病毒可以逃逸人體免疫系統的攻擊,而開發用于疫苗和治療的廣譜中和抗體仍是很大的技術挑戰。面對新冠病毒變種,包括已被批准緊急使用(EUA)的許多中和抗體,都減弱甚至失去了中和能力。在此,團隊引入了一種能有效增強抗體對病毒的親和力的幾何深度學習算法,以提高抗體對病毒變種的廣譜中和能力。通過優化人源抗體P36-5D2,一種能中和新冠病毒阿爾法,貝塔,伽馬變種但無法中和德爾塔變種的抗體,團隊展示了方法的有效性。
團隊的幾何深度神經網絡改造優化了該抗體互補決定區域(CDR)的序列,有效提高了其對多個新冠病毒變種的親和力。經過多輪優化與實驗測量,團隊能擴展該抗體的中和譜,並以10到600倍增強了其對包括德爾塔變種在內多個新冠病毒變種的親和力。新冠奧密克戎變種在抗原表位上有兩個突變位點逃逸抗體的結合,而團隊也進一步闡述了我們的方法能有效偵測抗體互補決定區的改變,以減弱病毒突變對抗體結合的影響。這些結果突出展示了團隊的深度學習算法在抗體優化上的強大能力,並有極大潛力被應用在其他蛋白質優化改造工程中。經過優化的抗體也將有極高潛力被用于作爲針對當前各類新冠病毒變種的抗體藥。
Contribution-Aware Federated Learning for Smart Healthcare
作者:Zelei Liu, Yuanyuan Chen, Yansong Zhao, Han Yu, 劉洋,包仁義,蔣錦鵬,聶再清,徐倩,楊強
單位:新加坡南洋理工大學,AIR,醫渡雲,微衆銀行
會議:AAAI-IAAI 2022
獎項:AAAI-IAAI 2022人工智能創新應用獎
摘要:在文章中,研究團隊聯合提出了一個貢獻感知聯邦學習框架,並在醫渡雲的真實業務場景中得到了驗證。框架在不暴露私人數據的情況下,提供了一種有效和准確的方法來公平地評估聯邦學習參與者對模型性能的貢獻,並改進了聯邦學習模型訓練協議,允許將表現最好的中間模型分配給聯邦學習訓練的參與者。研究發現,模型對聯邦學習貢獻度的分析評估爲原有方法提速2.84倍。同時,模型更是將准確度提升了2.62%,爲智慧醫療健康的産業應用帶來顯著提升。
Equivariant Graph Mechanics Networks with Constraints
作者:黃文炳,韓家琦,榮钰,徐挺洋,孫富春,黃俊洲
單位:AIR,清華大學計算機系,騰訊AI Lab,德克薩斯大學阿靈頓分校
會議:ICLR 2022
摘要:多體交互及其動力學建模廣泛存在于物理、化學等科學領域的諸多問題中,從分子動力學模擬到機器人動力學控制等。近年來,越來越多的研究人員考慮利用圖神經網絡對多體交互進行表示與推理。然而,與普通圖譜數據不同,多體交互所形成的幾何圖譜(Geometric Graphs)具有內在物理對稱性,並常常需要滿足某種幾何約束。爲了更好處理這些數據,本報告將介紹作者最近提出的一種全新的圖神經網絡——圖力學網絡GMN。首先,GMN是等變的,即無論對輸入做任何的平移、旋轉、翻轉等變換,輸出都相應地改變。其次,GMN是滿足剛體約束的,輸出不會改變輸入的幾何屬性(如棍子的長度、鉸鏈的連接等)。最後,理論上,GMN具有良好的模型表達能力。爲了更好地驗證GMN的能力,我們構造了一個由一定數量的球、棍子和鉸鏈組成的虛擬物理系統,GMN能比其他方法更准確地預測這些系統演變,並滿足上述所說的性質。此外,在真實的應用場景包括分子動力學模擬和人體骨架軌迹預測等,驗證了GMN的有效性。
Uncertainty Calibration for Ensemble-Based Debiasing Methods
作者:熊睿彬,陳奕夢,龐亮,程學旗,馬志明,蘭豔豔
單位:中科院計算技術研究所,百度,中科院數學與系統科學研究院,AIR
會議:NeurIPS 2021
摘要:機器學習模型對數據集偏差(dataset bias)的依賴會損害其在分布外數據集上的泛化能力。基于集成的去偏方法(EBD)能夠有效減輕分類器對數據集偏差的依賴。它們通過利用偏差模型(bias-only model)的輸出來調整分類器的學習目標。在此項工作中,團隊關注偏差模型,它在EBD方法中發揮重要的作用,但沒有得到足夠的關注。實驗上,本文發現現有的偏差模型産生的不確定性估計存在一定誤差,理論上,本文證明了偏差模型不准確的不確定性估計(uncertainty estimates)會極大的損害去偏性能。基于這些發現,本文提出對偏差模型進行校准,從而實現一個基于集成的三階段去偏框架 MoCaD。在自然語言推理和事實驗證任務上的大量實驗表明,MoCaD在已知和未知數據集偏差方面優于相應的EBD方法。此外,團隊通過詳細的實證分析驗證了文章中證明的理論結論。
智慧物聯
nn-Meter: Towards Accurate Latency Prediction of Deep-Learning Model Inference on Diverse Edge Devices
作者:張麗,韓世豪,魏劍宇,鄭甯馨,曹婷,楊玉慶,劉雲新
單位:微軟亞洲研究院,羅斯-霍曼理工學院,中國科學技術大學,AIR
會議:MobiSys 2021
獎項:最佳論文獎(Best Paper)、本屆會議唯一獲得Artifact Evaluation 全部三個最高級別徽章
摘要:隨著深度學習在移動端的興起,推理延遲(inference latency)已經成爲在各種移動和邊緣設備上運行深度神經網絡(DNN)模型的一個重要指標。爲此,預測DNN模型推理的延遲非常必要,尤其是對于無法在真實設備上測試延遲或者代價太高的任務,例如從巨大的模型設計空間中尋找具有延遲約束的有效的DNN模型。然而,由于不同邊緣設備上運行時(runtime)的不同優化導致了模型推理延遲的巨大差異,准確預測推理延遲仍然非常具有挑戰性。目前,現有方法無法實現高精度的預測。
在本文中,團隊提出並開發了 nn-Meter,可高效、准確地預測 DNN 模型在不同邊緣設備上的推理延遲。它的關鍵思想是將整個模型推理劃分爲內核(kernel),即設備上的執行單元,然後執行內核級預測。nn-Meter 建立在兩個關鍵技術之上:(i) 內核檢測:通過一組設計好的測試用例來自動檢測模型推理的執行單元;(ii) 自適應采樣:從大空間中有效地采樣最有益的配置,以構建准確的內核級延遲預測器。團隊在三個常用的邊緣硬件平台(移動 CPU、移動 GPU 和Intel VPU)上實現了nn-Meter系統、並使用包含26,000個模型的大型數據集進行評估,結果nn-Meter的表現明顯優于先前的最好方法。論文代碼開源于https://github.com/microsoft/nn-Meter。
Rethinking the Representational Continuity: Towards Unsupervised Continual Learning
作者:Divyam Madaan,Jaehong Yoon,李元春,劉雲新
單位:KAIST,AIR
會議:ICLR 2022 (oral)
摘要:持續學習的目標是學習一連串的任務,並且不會忘記之前獲得的知識。然而現有的持續學習方法受限于有監督持續學習場景,不能很好的擴展到數據分布不同且沒有標注的真實世界應用中。本文專注于無監督持續學習,學習一連串的無標注任務,同時表明了標注數據對于持續學習不是必需的。
本文融合了持續學習和表征學習方法,解決了無監督持續學習問題。提出了終生無監督混合(LUMP)方法,利用當前任務和之前任務的插值數據來緩解無監督數據表征的災難性遺忘,通過系統的分析學習到的數據表征,並表明無監督視覺表征對災難性遺忘更健壯,一致性更好,比有監督持續學習能更適應分布之外的任務。除此之外,本文通過定性分析,發現無監督持續學習得到的數據表征更有意義,損失函數更加平滑。在CIFAR-10和CIFAR-100數據集上的實驗表明,比現有無監督持續學習方法的遺忘更少,訓練更平滑。而且在少樣本學習場景中,LUMP方法達到了最好的性能。論文代碼開源于https://github.com/divyam3897/UCL。
Romou: Rapidly Generate High-Performance Tensor Kernels for Mobile GPUs
作者:作者:梁任冬,曹婷,文吉成,王曼妮,王陽,鄒建華,劉雲新
單位:微軟亞洲研究院,美國加利福尼亞大學爾灣分校,西安交通大學,AIR
會議:MobiCom 2022
摘要:移動GPU作爲一種無處不在的強大加速器,對深度神經網絡(DNN) 在端側設備上進行推理加速發揮著重要作用。移動GPU的頻繁升級和型號的多樣性需要自動內核生成以實現快速DNN的快速部署。然而,目前自動生成內核的性能較差。
本文的目標是快速生成高性能內核以適用于不同型號的移動GPU。主要的挑戰是(1)由于缺乏對硬件的了解,不清楚什麽是性能最佳的內;(2) 如何從一個巨大搜索空間中快速生成內核。對于第一個挑戰,團隊提出了一個跨平台的分析工具,首次公開和量化了移動GPU體系結構。團隊的結果揭開了硬件瓶頸的神秘面紗,同時也爲第二個挑戰的解決方案提供了指導,因爲我們找到了獨特的高性能硬件特征,識別出不適配硬件約束的低效內核,並爲內核性能確定了的邊界。進而,團隊提出了一個爲移動GPU特別設計的內核編譯器Romou。它支持在內核實現中利用獨特的硬件能力,並針對硬件特征去除低效的內核。因此,Romou可以快速地生成高性能GPU內核。與目前性能最好的自動生成內核相比較,它在卷積上實現了平均高達 14.7倍的加速,同時能減少99%的搜索空間。Romou的性能甚至比最好的手工優化的內核有1.2×的加速提升。論文代碼開源于:https://github.com/microsoft/ArchProbe
Brick Yourself within 3 Minutes
作者:周谷越,羅立一,徐豪,張鑫亮,郭昊樂,趙昊
單位:AIR,麥吉爾大學,千幟科技,北京大學,英特爾研究院
會議:ICRA 2022
摘要:本文介紹了一種智能制造系統,可以自動將拍攝的肖像轉換成由樂高積木組成的實體小工具。與合成 2D 圖像或虛擬 3D 對象相反,生成物理 3D 裝配對象需要考慮物理特性和裝配過程,這帶來了更多挑戰。爲了生成任意肖像的積木塊模型,團隊將屬性空間(從二維圖像中提取)和積木塊模型空間之間的轉換公式化爲約束整數規劃問題,這可以通過啓發式搜索方法解決。此外,由于積木在物理上是分散的,團隊提出了一種算法來爲定制的圖形特征積木生成相應的組裝指令,以方便用戶組裝。同時,團隊將所提出的算法部署在集成了相機、打印機、筆記本電腦和積木操作單元的自動機器上。最後,生成的積木模型和組裝說明由大量用戶評估。值得一提的是,整個系統就像一台智能自動售貨機,可以在3分鍾內生産出一個具有150塊積木的模型。
閱讀原文及論文下載
【內附完整論文】AIR近期亮點論文解讀