大數據文摘專欄作品
作者:Christopher Dossman
編譯:Junefish、Olivia、雲舟
嗚啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly欄目又和大家見面啦!
AI ScholarWeekly是AI領域的學術專欄,致力于爲你帶來最新潮、最全面、最深度的AI學術概覽,一網打盡每周AI學術的前沿資訊。
每周更新,做AI科研,每周從這一篇開始就夠啦!
本周關鍵詞:僞造人臉、無監督學習、模仿學習
本周最佳學術研究
X射線檢測僞造人臉圖像
北京大學和微軟亞洲研究院的研究人員最近推出了人臉X射線圖像表示法,用于檢測人臉圖像中的僞造,該方法大大超過了目前已有的最新方法。
他們的工作重點是檢測面部僞造問題,例如由當前的面部操縱算法(包括DeepFakes,Face2Face,FaceSwap和NeuralTextures)産生的僞造問題。
與現有的僞造檢測器不同,面部X射線假定存在混合步驟,並且不依賴于與特定面部操縱技術相關的任何僞造圖像知識。通過對輸入的面部圖像進行計算,可以得到該圖像面部X射線的灰度圖像。該灰度圖像不僅可以確定面部圖像是僞造的還是真實的,而且在存在混合邊界時,還可以確定該邊界的位置
我們必須承認人臉僞造檢測正日益成爲一項嚴峻的挑戰。面部X射線檢測方法在面部僞造識別方面實現了非常高的檢測精度,並且能夠可靠地預測面部X射線,因此,它是普遍面部僞造檢測器開發征程上的重要一步。
對于未預見的人臉操縱方法産生的僞造,該框架仍然有效。與之形成對比的是,大多數現有的人臉僞造檢測算法則會有相當大的性能下降。
面部X射線的通用性涵蓋了大多數現有的面部操作算法。此外,可以通過自我監督學習來訓練用于計算面部X射線的算法,該訓練過程無需任何最新的面部操作方法生成僞圖像,僅使用大量由真實圖像合成的混合圖像即可實現。
閱讀更多:
https://arxiv.org/abs/1912.13458v1
同步進行的無監督學習:條件圖像生成,前景分割和細粒度聚類
Facebook AI和Tel Aviv大學的研究人員提出了一種無監督的同步學習方法,包括:
- 條件圖像生成器
- 前景提取和細分
- 兩級層次結構分類
- 對象移除和後台完成
以上所有內容均無需使用注釋即可實現。該方法將生成的對抗網絡和變型自動編碼器結合在一起,具有多個編碼器,生成器和鑒別器,並可以即時解決所有任務。
該訓練方案的輸入是來自同一域的未標記圖像的各種集合,以及沒有前景對象的一組背景圖像。另外,圖像生成器可以將一個圖像中的背景與第二個圖像或所需聚類的索引條件下的前景相混合。
通過構建單個模型來處理多個無人監督任務,研究人員在每個任務上都展現了超越同類最佳方法的性能,並展示了協同訓練的能力。
與傳統方法相比,該方法在每個任務中均獲得了最新技術成果。
閱讀更多:
https://arxiv.org/abs/1912.13471v1
從圖像推斷用戶界面屬性
爲了幫助開發人員自動開發用戶界面,這一研究探索了一種新的學習領域來推斷用戶界面屬性。給定設計師創建的輸入圖像後,研究人員將學習推斷其實現方式,該實現方式在呈現時的外觀和輸入圖像相似。
他們采用了黑盒渲染引擎及其支持的一組屬性,包括顔色,邊界半徑,陰影或文本屬性,並使用它來生成合適的綜合訓練數據集。然後,他們訓練了專門的神經模型來預測屬性值。
爲了提高像素級別的准確性,研究人員使用了模仿學習來訓練一種神經策略,該策略通過學習計算原始圖像和渲染圖像在其屬性空間中的相似度,而不是基于像素值的差異來改進預測的屬性值。對于合成數據集和真實數據集,該方法分別成功推斷出正確的屬性值分別爲94.8%和92.5%。
與以前産生草圖或將組件放置在所需位置的綜合布局工具不同,此新工作聚焦于像素級的精確實現。
研究人員能夠將其實例化爲學習Android Button組件實現的任務,並在由Google Play Store應用程序組成的數據集上達到92.5%的准確性。他們表示,這一切僅需要對合適的合成數據集進行訓練即可實現。該方法是實現用戶界面流程自動化的重要一步。
閱讀更多:
https://arxiv.org/abs/1912.13243v1
用于查詢高效主動模仿學習的新框架
這項工作提出了一種新的模仿學習(IL)算法框架,該算法可通過有效查詢主動交互地學習用戶回報值模型。研究人員建立了一個對抗生成模型來生成狀態和一個後繼特征(SR)模型,通過學習策略收集的過渡經驗來訓練這些模型。
本文提出的方法使用這些模型來選擇狀態-動作對,要求用戶對最優性或安全性進行評論,並訓練對抗神經網絡來預測回報值。
以往論文幾乎全部基于不確定性抽樣,而本文則與此不同。本文的關鍵思想是通過區分查詢的(專家)和未查詢的(生成的)數據,並最大程度地提高價值函數學習的效率,來主動且高效地從on-policy和off-policy的經驗中選擇狀態-動作對。
該方法在學習回報模型時明顯優于基于不確定性的方法,從而實現了更好的查詢效率。其中對抗性判別器可以使機器人更有效地學習人的行爲,而後繼特征模型可以選擇對價值函數有更大影響的狀態。該方法還可以在訓練回報模型時學會了避免不安全狀態,評估實際遊戲時這一優勢得到了驗證。
原文:
https://arxiv.org/abs/1912.13037
用于對象抓取的大規模聚類和帶密集批注的數據集
對象抓取對工業,農業和服務貿易中的許多應用都至關重要。然而,在聚類場景中,研究面臨訓練數據不足和缺乏評估基准的挑戰。
在本文中,幾位研究人員貢獻了一個大規模的抓握姿勢檢測數據集,該數據集具有一個統一的評估系統,且包括大約87040張RGBD圖像和3.7億個抓握姿勢。評估系統分析計算後可以直接報告抓握是否成功,它能夠評估任何種類的抓握姿勢,從而避免了費力標記抓握姿勢真實與否。
研究人員進行了廣泛的實驗,實驗表明該數據集和評估系統都可以很好地體現現實世界的場景。
這項工作建立了一個大型數據集,可用于聚類場景對象的抓取。數據集由現實世界的傳感器拍攝的圖像組成,並有豐富且密集的批注。本文提出的統一評估系統將促進這一領域的發展。這種方法極大地減輕了批注抓握姿勢這項工作。
將來,研究人員打算將數據集擴展到多指夾持器和基于真空的末端執行器。相關數據集,源代碼和模型將很快公開提供,請留意。
原文:
https://arxiv.org/abs/1912.13470
其他爆款論文
這些最新發布的技術對于使用法醫語音比較的學生和研究人員來說很重要:
https://arxiv.org/abs/1912.13242
解決視聽嵌入式導航中的新問題,從而將其推廣到新目標和新環境,並取得顯著成效:
https://arxiv.org/abs/1912.11684
最先進的面部交換:
https://arxiv.org/abs/1912.13457v1
最近提出的這種方法在3D人形和姿勢方面超越了最先進技術:
https://arxiv.org/abs/1912.13344v1
爲什麽深度卷積網絡不能很好地推廣到小圖像變換?
https://arxiv.org/abs/1805.12177v4
數據集
用于文本檢測和識別的數據集:
https://arxiv.org/abs/1912.11658v1
通過自然語言反饋檢索圖像的新數據集:
https://arxiv.org/abs/1905.12794v2
爲更易實現的機器故事理解提供重要立足點的新數據集:
https://arxiv.org/abs/1912.13082v2
AI大事件
麻省理工學院的工程師提出了一種替代常規超聲波的方法,該方法不需要接觸身體即可看見患者體內:
https://news.mit.edu/2019/first-laser-ultrasound-images-humans-1219
當機器學習帶來經濟效益:
https://news.mit.edu/2019/machine-learning-sales-ebay-translation-1220
首爾將安裝AI攝像機進行犯罪偵查:
https://www.zdnet.com/article/seoul-to-install-ai-cameras-for-crime-detection/