神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。
編者按:圖像識別既是深度學習最早的突破,也是最成功的應用之一。但是隨著應用的深入,傳統深度學習方法逐漸黔驢技窮。甚至令一些業界大牛喊出來AI新的凜冬將至。不過,最近AI研究人員從物理學規律上尋找到了靈感,找到了讓機器可以識別高維度對象的辦法,然後物理學家又發現,AI的這一進展甚至還能爲物理研究做出更大的貢獻。這是一篇“規範等變卷積神經網絡”的介紹讀物,作者是JOHN PAVLUS,原文發表在Quanta Magazine上,標題是:Computers Are Learning to See in Higher Dimensions
Taco Cohen,高通及阿姆斯特丹大學機器學習研究員,規範等變卷積神經網絡首席架構師
爲了讓深度學習突破二維空間,研究人員的解決方案跟物理有著密切聯系。就像愛因斯坦的廣義相對論與粒子物理學的標准模型那樣,描述世界的物理理論表現出一種所謂的“規範等變”的屬性。這意味著在這個世界上的數量及其關系並不依賴于任意參照系(或“規範”);無論觀察者是移動還是靜止,也不管標尺上的數字離得有多遠,它們都是一致的。用不同量表進行的測量必須以一種保持底層事物間關系不變的方式進行轉換。
比方說,假設先以碼爲單位測一個足球場的長度,然後以米爲單位再測一次。測出來的數字會變,但那是可預測的。同樣地,兩位攝影師從兩個不同的位置拍攝物體的照片會産生不同的圖像,但是這些圖像之間可以彼此關聯。不管視角或測量單位如何,規範等變均可確保物理學家的現實模型保持一致。而規範CNN即是對數據做出了相同的假設。
紐約大學的物理學家凱爾·克蘭默(Kyle Cranmer)說:“ (來自物理學的)同樣的想法是沒有特殊的方向,他們希望將其引入神經網絡。”他將機器學習應用于粒子物理學數據。“他們想出了辦法。”
擺脫二維
2015年,倫敦帝國理工學院計算機科學家Michael Bronstein創造了“幾何深度學習”這個詞來描述爲擺脫二維並設計可學習非平面數據模式神經網絡的新努力。這個術語及相關研究工作很快就火起來了。
Bronstein及其合作者知道,要想突破歐幾裏德平面,他們需要重新構思一種基本的計算方法,這方法先得讓神經網絡識別2D圖像特別高效。這個方法叫做“卷積”,它然神經網絡的一層對輸入數據的一小塊執行數學運算,然後把結果傳遞給網絡的下一層。
Bronstein解釋說:“大體上,你可以把卷積看作是一個滑動窗口。”卷積神經網絡就像濾波器一樣將很多這樣的“窗口”滑動過數據,從而檢測數據是否存在某種模式。對于貓照片,經過訓練的CNN也許會利用濾波器來檢測原始輸入像素裏面的低級特征,比方說邊緣。而這些特征又會被傳遞到網絡的其他層,去執行其他卷積並提取更高層特征,比方說眼睛、尾巴或三角形的耳朵。接受過識別貓訓練的CNN最終會用這些分層卷積的結果爲整幅圖像分配標簽(比方說“貓”或“不是貓”)。
阿姆斯特丹大學物理學家Miranda Cheng
就利用了該原理的一個簡單的例子,“平移等變”,卷積網絡一舉成爲深度學習最成功的方法之一。檢測到圖像中某個特征(比方說垂直邊緣)的窗口濾波器會在像素平面滑動(或“平移”) ),並對所有這些垂直邊緣的位置進行編碼;然後,再建立起標記這些位置的“特征圖譜”,並將其傳遞給網絡的下一層。因爲有了平移等變,特征圖譜的創建成爲可能:神經網絡“假定”同一特征可以出現在2D平面的任何位置,並且不管垂直邊緣出現在右上角還是左下角,自己都能夠將垂直邊緣識別爲垂直邊緣。
Weiler 說:“等變神經網絡的關鍵是將這些明顯的對稱放置進網絡結構裏面,這有點類似一頓免費的午餐。”
到了2018年,Weiler、Cohen及其博士導師Max Welling已經擴大了這種“免費午餐”的範圍,將其他等變也納入進來。他們的“群等變”(group-equivariant) CNN無需用旋轉或鏡像方向樣本訓練即可檢測平面圖像上這些特征的存在;球面CNN可以根據球體表面上的數據創建特征圖譜而不需要將其扭曲爲平面投影。
這些方法仍然不夠通用,沒法處理崎岖不平、不規則結構流形(從土豆到蛋白質,再到人體,乃至于時空彎曲,幾乎涵括了所有物體的幾何形狀)的數據。對于神經網絡,這些類型的流形“全局”對稱性來讓神經網絡做出等變假設:因爲它們上面的每個位置都是不同的。