對于谷歌的研究團隊來說,2018 年是令人興奮的一年。Google Research 通過多種方式推動技術研究工作,包括基礎計算機科學研究成果和出版物,以及多項研究被應用在谷歌的新興領域(如醫療保健和機器人)、開源軟件貢獻,以及與谷歌産品團隊的密切合作,所有這些都旨在提供有用的工具和服務。
接下來,我們將重點介紹谷歌研究院在 2018 年所做的一些工作。
道德和 AI
在過去幾年中,我們看到了 AI 的重大進步,以及這些進步爲我們的産品和數十億用戶日常生活帶來的積極影響。我們深切地希望 AI 能夠造福我們的世界,並且能夠充分遵守道德原則,幫助我們解決對社會有益的問題。今年,我們發布了“谷歌 AI 原則”(https://ai.google/principles/ ),並提供了一系列實踐支持,其中概述了用于實現 AI 的技術建議。總的來說,它們爲評估我們的 AI 開發提供了一個框架,我們希望其他組織也能夠使用這些原則來幫助他們塑造自己的思維。
值得注意的是,由于這一領域的發展非常迅速,隨著我們和其他人在 ML 公平性和模型可解釋性等領域進行新的研究,原則中提到的一些最佳實踐,如“避免創建或加強不公平的偏見”或“對人類負責”,也在不斷變化和改進。這項研究反過來促進了我們的産品的進步,使其更具包容性並減少偏見,例如我們在谷歌翻譯中減少性別偏見,並允許探索和發布更具包容性的圖像數據集和模型,讓計算機視覺推動全球文化的多樣性。此外,我們借助這項工作與廣泛的研究社區分享一些最佳實踐,例如機器學習速成課程中的公平模塊。
AI 和社會公益
AI 將對社會多個領域産生巨大的潛在影響,這是顯而易見的。應用 AI 來解決現實問題的一個例子是我們在洪水預測方面所做的工作。我們與谷歌的其他多個團隊合作,旨在及時提供發生洪災的可能性和受災範圍的准確信息,讓洪災易發地區的人們能夠更好地決定如何最好地保護自己和他們的財産。
第二個例子是我們關于地震余震預測的工作。我們展示了一個機器學習模型,它可以比傳統的基于物理的模型更准確地預測余震位置。更重要的是,因爲 ML 模型的設計是可解釋的,科學家們已經能夠對余震的行爲做出新的發現,所以不僅可以得到更准確的預測,而且可以達到新的理解水平。
我們還看到了大量的外部參與者,他們與谷歌研究人員和工程師合作,使用 TensorFlow 等開源軟件來解決各種科學問題和社會問題,例如使用卷積神經網絡識別座頭鯨呼叫、檢測新的系外行星、識別患病的木薯植物,等等。
爲了促進這一領域的創新活動,我們與 google.org 合作發布了“Google AI for Social Impact Challenge”,個人和組織可以從總計 2500 萬美元的資金中獲得資助,以及來自谷歌研究科學家的指導和建議。
輔助技術
我們的大部分研究都集中在使用 ML 和計算機科學來幫助用戶更快更有效地完成任務。通常,這涉及到與各種産品團隊合作,以便將研究成果應用在各種産品中。其中的一個例子是 Google Duplex(https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html ),這個系統涉及了多項技術,包括自然語言處理和對話理解、語音識別、文本到語音轉換、用戶理解和有效的 UI 設計,這樣用戶就可以說“你能幫我預訂今天下午 4 點鍾的理發嗎?”,然後一個虛擬代理將通過電話幫你處理其余的事情。
其他例子還包括 Smart Compose(https://ai.googleblog.com/2018/05/smart-compose-using-neural-networks-to.html ),一種使用預測模型提供有關如何撰寫電子郵件的相關建議、讓編輯電子郵件變得更快更容易的工具,以及 Sound Search(https://ai.googleblog.com/2018/09/googles-next-generation-music.html ),一種基于 Now Playing(https://support.google.com/pixelphone/answer/7535326?hl=en )的技術,讓你可以更快更准確地知道正在播放的是什麽歌曲。
此外,Android 中的 Smart Linkify(https://ai.googleblog.com/2018/08/the-machine-learning-behind-android.html )通過設備上的 ML 模型來了解用戶選擇的文本類型,然後在手機屏幕上顯示對用戶來說更有用的文本類型(例如,如果用戶選擇文本是地址類型,那麽就提供這個地址的地圖鏈接)。
我們研究的一個重點是讓像谷歌智能助理這樣的産品支持更多的語言,並且可以更好地理解語義相似性,即使用戶使用了不同的方式來表達相同的概念或想法。這些新功能是基于我們在改進語音合成和文本到語音轉換方面的工作。
量子計算
量子計算是一種新興的計算範式,它承諾能夠解決經典計算機無法解決的挑戰性問題。在過去的幾年中,我們一直在積極從事這方面的研究。我們相信,我們至少在一個問題上已經進入狀態(所謂的量子霸權),這將是該領域的一個分水嶺事件。在過去的一年裏,我們取得了很多令人興奮的進展,包括開發了一種新的 72 量子位計算設備 Bristlecone。
科學家 Marissa Giustina 在 Santa Barbara 的量子 AI 實驗室安裝 Bristlecone 芯片
我們還發布了量子計算機開源編程框架 Cirq,並探討了如何將量子計算機用于神經網絡。最後,我們分享了我們在量子處理器性能波動方面的經驗和技術,以及如何將量子計算機作爲神經網絡計算基板的一些想法。我們期待 2019 年量子計算領域會取得更加令人興奮的成果!
自然語言理解
2018 年,谷歌在自然語言方面的研究也相當令人振奮,其中包括基礎性研究和以産品爲中心的合作成果。我們對 2017 年的 Transformer 工作進行了改進,得到了一個叫作 Universal Transformer 的並行版本,在包括翻譯和語言推理在內的多個自然語言任務中都顯示出巨大的進步。我們還開發了 BERT,這是第一個深度雙向的無監督語言表示,僅使用純文本語料庫進行預訓練,然後通過轉移學習對各種自然語言任務進行調優。BERT 在 11 種自然語言任務中比之前的最新成果具有更好的表現。
除了與各種研究團隊合作以實現 Smart Compose 和 Duplex 之外,我們還努力讓谷歌智能助理能夠更好地處理多語言,目標是讓助理能夠自然地與用戶進行對話。
感知研究
我們的感知研究解決了計算機在理解圖像、聲音、音樂和視頻方面的大難題,並爲圖像捕獲、壓縮、處理、創造性表達和增強現實提供了更強大工具。2018 年,我們通過技術改進了 Google Photos 組織用戶最關心的內容的能力,例如人和寵物。Google Lens 和 Google Assistant 幫助用戶了解自然世界、實時回答用戶的問題。谷歌 AI 的一個關鍵使命是讓人們能夠從我們的技術中受益。今年,我們在改進 Google API 的功能和構建塊方面取得了很大進展,包括 Cloud ML API 中的視覺和視頻能力增強和基于 ML Kit 的面部識別相關的構建塊。
Google Lens 可以幫助你了解周遭世界的更多信息。例如,Lens 可以識別出這只狗的品種。
2018 年,我們在學術研究方面的貢獻還包括用于 3D 場景理解的深度學習,例如立體放大(https://arxiv.org/abs/1805.09817 ),可以合成新型的場景視圖。我們在更好地理解圖像和視頻方面的研究讓用戶能夠在谷歌産品(例如 Photos、YouTube、Search 等)中查找、組織、增強和改進圖像和視頻。2018 年的一些值得注意的進展還包括一個用于人體關節姿勢估計和人體實例分割的模型、一個用于可視化複雜運動的系統、一個用于模擬人與物體之間的時空關系的系統,以及基于蒸餾(distillation)和 3D 卷積的視頻動作識別的改進。
在音頻方面,我們提出了一種用于語義音頻表示的無監督學習方法,以及對可表達和近似人類的語音合成做出了顯著的改進。多模態感知是一個越來越重要的研究課題。“Looking to Listen”(https://ai.googleblog.com/2018/04/looking-to-listen-audio-visual-speech.html )將輸入視頻中的視覺和聽覺因素結合起來,以便隔離和增強視頻中發聲主體的語音。這項技術可以支持一系列應用,從語音增強和視頻識別、視頻會議到助聽器改進,尤其是在有多人講話的情況下。
在資源有限的平台上實現感知變得越來越重要。MobileNetV2 是谷歌的下一代移動計算機視覺模型,我們的 MobileNets 被廣泛應用于學術界和工業界。MorphNet 提出了一種有效的方法來學習深度網絡結構,從而能夠在計算資源有限的情況下在圖像和音頻模型上實現全面的性能改進。
計算攝影
在過去幾年中,在手機相機的質量和多功能性方面的改進一直值得我們關注。其中一方面是手機使用的物理傳感器的改進,另一個主要的方面是計算攝影科學的進步。我們的研究團隊發布了他們的新研究技術,並與谷歌 Android 和消費者硬件團隊密切合作,將這項研究應用在最新的 Pixel 和 Android 手機及其他設備上。2014 年,我們引入了 HDR+ 技術,讓鏡頭捕獲圖像幀,在軟件中對齊幀,並通過計算軟件將它們合並在一起。最開始我們是爲了讓圖片具有比單次曝光更高的動態範圍。不過,先捕獲幀然後對這些幀執行計算分析是一種通用方法,可以在 2018 年的相機中實現很多高級功能。例如,Pixel 2 提供的 Motion Photos,以及 Motion Stills 中的增強現實模式。
Pixel 2 拍攝動態照片
Motion Stills 的增強現實模式
2018 年,我們在計算攝影方面的主要工作之一是開發了一種叫作 Night Sight 的新功能,讓 Pixel 手機的攝像頭能夠“看到黑暗中的東西”,贏得了媒體和用戶的贊譽。當然,Night Sight 只是我們團隊開發的能夠幫助用戶拍攝完美的照片的衆多新功能之一,其他的還包括使用 ML 提供更好的肖像拍攝模式、使用 Super Res Zoom 進行進一步的取景,以及使用 Top Shot 和 Google Clips 捕捉精彩的瞬間。
左:iPhone XS。右:Pixel 3 Night Sight。
算法與理論
算法是谷歌系統的核心,觸及我們所有的産品,從 Google Trips 背後的路由算法到谷歌雲的一致性哈希算法。在過去的一年中,我們繼續研究算法和理論,涵蓋了從理論基礎到應用算法、從圖形挖掘到隱私保護計算等領域。在優化算法方面,我們的工作涉及從研究機器學習的持續優化到分布式組合優化。在機器學習的持續優化方面,我們在訓練神經網絡隨機優化算法收斂性(獲得 ICLR 2018 年最佳論文獎)方面的研究揭示了基于梯度的優化方法(例如 ADAM 的一些變體)存在的問題,同時爲提出基于梯度的新優化方法奠定了基礎。
ADAM 和 AMSGRAD 在一維凸問題上的性能比較
在分布式優化方面,我們致力于改進組合優化問題的通用性和通信複雜性。在其他應用方面,我們開發了一些算法,例如,通過草擬覆蓋大規模數據集,對具有數萬億條邊的圖進行平衡分區和層次聚類。我們在線交付服務方面的工作獲得 WWW2018 最佳論文獎。最後,我們的開源優化平台 OR-tools 在 2018 年 Minizinc 約束編程競賽中獲得了 4 枚金牌。
在算法選擇理論方面,我們提出了新的模型,並研究了重建和學習多項分對數混合的問題。我們還研究了可通過神經網絡學習的函數類,以及如何使用機器學習來改進經典的在線算法。
在谷歌,保證學習技術的嚴格私密性對我們來說非常重要。我們開發了兩種新方法來分析如何通過叠代和重排來放大隱私差異。我們還應用差異隱私技術來設計在遊戲方面具有健壯性的激勵感知學習方法。這種學習技術在高效的在線市場設計中得到了應用。我們在市場算法領域的新研究還包括幫助廣告客戶測試廣告競價的激勵兼容性,以及針對應用內廣告的優化技術。我們還進一步推動了重複競價方面最先進的動態機制的邊界,提出了強大的動態競價。最後,在在線優化和在線學習的健壯性方面,我們開發了新的用于流量峰值時刻的隨機輸入的在線分配算法,以及對損壞的數據具有健壯性的新強盜算法。
軟件系統
我們對軟件系統的大部分研究仍然與構建機器學習模型和 TensorFlow 有關。例如,我們發布了 TensorFlow 1.0 的動態控制流程。我們的一些新研究引入了一個叫作 Mesh TensorFlow 的系統,可以很容易地指定具有模型並行性的大規模分布式計算,還支持數十億個參數。另外,我們還發布了一個可擴展的深度神經排序庫。
TF-Ranking 庫支持多項目評分架構,這是對傳統單項評分的擴展
我們還發布了 JAX,這是 NumPy 的一個變體。雖然 JAX 不是 TensorFlow 的一部分,但它利用了一些相同的底層軟件基礎設施(例如 XLA),並且它的一些想法和算法對我們的 TensorFlow 項目有所幫助。最後,我們繼續研究機器學習的安全性和隱私性,並開發 AI 系統的安全和隱私開源框架,如 CleverHans 和 TensorFlow Privacy。
對我們來說,另一個重要的研究方向是將 ML 應用于軟件系統。例如,我們繼續研究如何將帶有層次模型的計算移到設備上,並在學習內存訪問模式方面做出了一些貢獻。我們還繼續探索如何使用學習索引來取代數據庫系統和存儲系統中的傳統索引結構。
一個 NMT 模型中 Hierarchical Planner 的放置
2018 年,Spectre 和 Meltdown 是在現代計算機處理器中出現的新型安全漏洞。在我們繼續努力模擬 CPU 的行爲時,我們的編譯器研究團隊將他們用于測量機器指令延遲和端口壓力的工具集成到 LLVM 中,從而可以做出更好的編譯決策。
谷歌産品、我們的雲産品和機器學習模型推理嚴重依賴于爲計算、存儲和網絡提供大規模、可靠、高效的技術基礎設施的能力。過去一年的一些研究亮點包括谷歌軟件定義網絡 WAN 的發展——這是一個獨立的聯合查詢處理平台,可以在很多存儲系統(BigTable、Spanner、Google Spreadsheets 等)中針對基于不同文件格式的數據執行 SQL 查詢,以及我們的代碼評審報告——調查谷歌代碼評審背後的動機、當前實踐以及開發人員的滿意度和面臨的挑戰。
運行一個托管內容的大型 Web 服務需要在動態環境中實現穩定的負載均衡。我們開發了一致性哈希方案,可以保證每台服務器具有最大的負載,並將其部署到 Google Cloud Pub/Sub 中。Vimeo 的工程師找到了我們發布的早期論文,在 haproxy 中實現了這個方案,然後將其開源(https://github.com/arodland/haproxy/commit/b02bed24daf64743cb9a571e93ed29ee4bc7efe7 ),並將其用于 Vimeo 的負載均衡項目中。結果很是令人感到興奮,這些算法幫助他們將緩存帶寬減少了近 8 倍,同時消除了縮放瓶頸。
AutoML
AutoML,也稱爲元學習,即通過機器學習來自動化機器學習。多年來,我們一直在研究這個領域,我們的長期目標是開發出可以利用從之前已解決的其他問題中得出的見解和能力來找出新問題並自動解決問題的系統。我們在這個領域的早期工作主要使用強化學習,但我們對使用進化算法也很感興趣。
去年,我們展示了如何使用進化算法自動發現各種視覺任務的神經網絡架構。我們還探討了如何將強化學習應用于除神經網絡架構搜索之外的其他問題。我們的工作表明,它可以被用于自動生成圖像變換序列,用以提高各種圖像模型的准確性,以及找到新的符號優化表達式,比常用的優化更新規則更有效。我們在 AdaNet 方面的工作展示了如何擁有一個具有學習保證的快速靈活的自動算法。
AdaNet 自適應地增長了神經網絡的集合。在每次叠代中,它測量每個候選者的集合損失,並選擇最佳的一個進入下一次叠代
我們的另一個重點是自動發現計算效率高的神經網絡架構,這樣它們就可以在移動電話或自動駕駛汽車上運行,這些環境對計算資源或推理時間有嚴格的限制。我們的工作表明,在強化學習架構搜索的獎勵函數中將模型的准確性與其推理計算時間相結合,就可以找到高度准確的模型,同時滿足特定的性能約束。我們還探索了使用 ML 來學習自動壓縮 ML 模型,以便可以使用更少的參數和更少的計算資源。
TPU
張量處理單元(簡稱 TPU)是谷歌公司內部開發的一種 ML 硬件加速器,其自設計之初就專門用于執行大規模訓練與推理任務。TPU 幫助谷歌公司實現了研究層面的一系列突破,包括之前已經討論過的 BERT。此外,其還使得世界各地的研究人員能夠以開源方式享受谷歌研究帶來的成果,並以此爲基礎尋求新的突破。例如,任何人都可以免費通過 Colab 對運行在 TPU 之上的 BERT 進行微調,而 TensorFlow Research Cloud 則讓成千上萬研究人員有機會在規模更爲可觀的免費雲 TPU 計算能力當中受益。
我們還對 TPU 硬件進行了多次叠代,並將其以雲 TPU 的形式推向商用——其中包括 Cloud TPU Pod 機器學習超級計算機,旨在顯著降低大規模 ML 訓練的難度。著眼于谷歌內部,除了在機器學習研究領域實現更快進步之外,TPU 還給谷歌公司的一系列核心産品帶來重大改進,包括搜索引擎、YouTube、Gmail、谷歌智能助手以及谷歌翻譯等等。我們期待看到谷歌以及來自其它方面的機器學習團隊,能夠利用 TPU 提供的前所未有的計算規模在機器學習領域帶來更多斬獲。
圖左爲單個 TPU v3 設備,圖右則爲 TPU v3 Pod 的一部分。
開源軟件與數據集
在與研究以及軟件工程社區開展協作的過程當中,發布開源軟件與建立新的公共數據集一直是我們兩大最主要的貢獻方式。我們在這一領域中最爲顯著的成果之一正是 TensorFlow,這是我們于 2015 年 11 月發布、目前得到廣泛流行的機器學習計算系統。我們在 2018 年慶祝了 TensorFlow 項目的三周歲生日,在此期間其被下載超過 3000 萬次,並有超過 1700 名貢獻者爲其帶來 4 萬 5 千多次 commit。
回顧 2018 年,TensorFlow 先後迎來八個主要版本,同時增加了多項重要功能——例如急切執行以及分發策略等。我們在開發過程當中還啓動了社區公衆設計評審機制,並以特殊興趣小組的形式吸納更多貢獻者。隨著 TensorFlow Lite、TensorFlow.js 以及 TensorFlow Probability 等相關産品的推出,整體 TensorFlow 生態系統都在 2018 年得到大幅成長。
我們很高興地看到,TensorFlow 在全部頂級機器學習與深度學習框架當中,擁有著最強大的 Github 用戶保留率與吸引力。TensorFlow 團隊還致力于快速解決 Github 問題,並爲外部貢獻者提供順暢的參與途徑。根據 Google Scholar 統計的數據,在研究過程當中,我們不斷在已發表論文的基礎之上爲全世界大部分機器學習與深度學習研究提供支持。
TensorFlow Lite 在面世的短短一年之後,目前已經被安裝在全球超過 15 億台設備上。此外,TensorFlow.js 則成爲 JavaScript 中的頭號機器學習框架;其推出剛剛 9 個月,就在內容交付網絡(簡稱 CSN)上得到 200 多萬次點擊與 25 萬次下載,並在 Github 上獲得超過 1 萬顆星。
除了繼續開發現有開源生態系統之外,我們在 2018 年還引入了一套新的框架,用于實現靈活且可重複的強化學習能力、建立新的可視化工具、快速了解數據集中存在的種種特征(而無需編寫任何代碼)、新增一套用于表達排名學習問題的高級庫(這類問題旨在以最符合列表效能需求的方式對其中的條目進行排序,這種能力對于搜索引擎、推薦系統、機器翻譯以及對話系統乃至計算生物學等領域都有著重要意義)、發布了一套快速靈活且具有學習保證的 AutoML 解決方案框架、利用 TensorFlow.js 構建一套浏覽器內置實時 t-SNE 可視化庫,同時添加了能夠與電子醫療數據對接的 FHIR 工具與軟件(在本文的醫療保健部分做出詳盡說明)。
tSNE 嵌入在完整 MNIST 數據集內的實時演進。該數據集包含 6 萬幅手寫數字圖像。
演示鏈接:https://nicola17.github.io/tfjs-tsne-demo/
公共數據集通常能夠成爲激發靈感的重要基礎,並憑借著爲更廣泛的社區帶來大量有趣數據及問題的方式,幫助來自多個領域的研究人員取得巨大進步。此外,公共數據集還能夠激發人們在不同任務當中獲得更佳成績的熱情,從而保證相關社區擁有健康的競爭態勢。
2018 年,我們很高興地發布了 Google Dataset Search,這是一款從全部網絡當中查找公共數據集的新工具。多年以來,我們一直在策劃及發布各類具有創新性的數據集,包括大量注釋圖像或視頻、用于語音識別的孟加拉地區人群數據集,乃至機械手臂抓取數據集等等。2018 年,我們繼續向這一重要儲備添加更多數據集資源。
利用 Crowdsource 應用向 Open Images Extended 數據集添加的印度與新加坡圖片。
我們還發布了 Open Images V4,這套數據集包含 1540 萬個邊框(對應 190 萬張圖片上的 600 種對象類別)以及 3010 萬個歸屬于 19794 種類別的人工驗證圖像級標簽。此外,我們通過使用 crowdsource.google.com 從世界各地的數萬名用戶處獲得了 550 萬條注釋,希望向其中引入來自世界各地的更多人群與場景,從而擴展這套數據集的規模水平。
我們也發布了 Atomic Visual Actions(簡稱 AVA)數據集,其負責爲視頻內容提供視聽注釋,從而改善對人類行爲的理解以及對視頻語音的處理能力。我們還更新了 YouTube-8M,並舉辦第二屆 YouTube-8M 大規模視頻理解挑戰賽與研討會。我們的 HDR+ Burst Photography 數據集主要用于實現計算攝影領域的各項研究,而 Google-Landmarks 則是另一套新型數據集,用于解決地標識別方面的種種挑戰。
在具體數據集之外,我們還在 Fluid Annotation 項目中進行了一系列探索,相關技術成果能夠加快數據集的創建與可視化速度。Fluid Annotation 是一種探索性機器學習驅動接口,能夠更快地對圖像內容進行注釋。
Fluid Annotation 接口對 COCO 數據集中的圖像進行可視化處理。
我們還不時幫助研究界發現新的挑戰方向,從而確保雙方共同努力以解決棘手的研究問題。這方面工作通常是通過發布新型數據集實現的,但也存在不少例外。
今年,我們圍繞包容性圖像難題組織了新的挑戰賽,致力于開發出更強大的模型以避免各類偏見問題。iNaturalist 2018 挑戰賽旨在使計算機能夠更細致地區分視覺對象的類別(例如圖片當中特定植物的種類)。Kaggle “Quick,Draw!”塗鴉識別挑戰賽希望建立起更出色的塗鴉內容分類器。而 Conceptual Captions 作爲一套大規模圖像捕捉數據集也有了自己的挑戰賽,旨在進一步推動圖像字幕模型的研究工作。
機器人
2018 年,我們在理解機器學習技術如何教授機器人在真實環境當中行動以及教授機器人操作新物體方面迎來了新的裏程碑(CoRL’18 最佳系統論文)以及重大的應用級進展。機器人能夠在無需人爲監督的情況下憑借機器學習理解物體性狀。
此外,我們還將機器學習與基于采樣的方法相結合(ICRA’18 服務機器人最佳論文)以研究機器人行動,同時探索機器人幾何學以加快這種行動掌握速度。我們在確保機器人以自主方式觀察並感知環境結構方面取得了重大進展。我們第一次能夠在真實的機器人設備上成功實現深層強化學習模型的在線訓練,並開始尋找新的、基礎性理論方法,從而真正爲機器人帶來穩定的控制學習能力。
人工智能在其它領域的應用
2018 年,我們將機器學習技術應用于物理以及生物科學當中的諸多問題。利用機器學習技術,我們可以爲科學家提供相當于數百甚至數千名研究助理的數據挖掘能力,從而顯著提升科學家們的創造力與生産力水平。
我們在《自然——方法學》雜志上發布的神經元高精度自動重建論文中提出了一種新的模型,該模型能夠將原有深度學習技術中的連通組數據自動解釋在准確性層面提高一個數量級。
我們的算法正在對 3D 形式的鳥類大腦之內追蹤單一神經元活動。
機器學習在科學領域的其它應用案例還包括:
- 通過數據挖掘彙總星體的光線曲線,從而在太陽系之外尋找新的行星
- 識別短 DNA 序列的起源或功能
- 自動檢測失焦顯微鏡圖像
- 以數字化方式創建具有多個染色特征的同類細胞圖像
- 自動將質譜輸出結果映射爲肽鏈
經過預訓練的 TensorFlow 模型可以對 Fiji(ImageJ)細胞顯微鏡下的圖像斑塊拼接進行對焦質量評估。該模型會利用邊界位置的色調與亮度分別估算對焦質量以及預測准確性。
健康
過去幾年以來,我們一直致力于將機器學習技術應用于健康領域——這一領域直接影響到我們每一個人,我們也堅信機器學習將能夠在健康行業中顯著增強醫療專業人員的直覺與經驗,最終爲人類的生活質量帶來巨大提升。在這一領域,我們采取的常規方法是同醫療保健組織建立合作以解決各項基礎研究問題(利用臨床專家的反饋支持我們的研究結果),而後將結果發表在聲譽卓著且需要經過同行評審的科學與臨床期刊上。
一旦研究結果得到臨床與科學驗證,我們下一步將進行用戶與 HCI 研究,以了解應該如何將其實際部署在臨床環境當中。2018 年,我們在計算機輔助的廣闊空間中進一步擴展了研究範圍,希望將計算機輔助診斷打造成臨床流程中的全新組成部分。
2016 年年底,我們發表的一項研究結果表明,一套通過評估視網膜眼底圖像檢測糖尿病視網膜病變迹象的模型在具體成效方面,完全能夠等同甚至略優于美國醫療委員會認證眼科醫師。在 2018 年,我們更進一步,得以通過使用眼科專家標記的訓練圖像配合最終裁定診斷結果(由多位視網膜專家進行會診,並對每份眼底圖像進行集體評估)證明,我們的模型確實達到了可以與視網膜診療專家相媲美的分析水平。
在此之後,我們又發表了一項評估,結果顯示眼科醫師在使用這套機器學習模型之後,能夠得到高于獨立判斷的診斷准確度。我們與 Alphabet 的同事們還切實展開合作,共同爲印度的 Aravind 眼科醫院以及泰國衛生部附屬的 Rajavithi 醫院等十多個機構部署了這種糖尿病視網膜病變檢測系統。
左側爲視網膜眼底圖像,眼科工程師會診小組(真實背景)將其評定爲具有中度糖尿病視網膜病變(「Mo」)。右上方爲來自模型的預測得分(「N」爲無視網膜病變,「Mi」爲早期視網膜病變,「Mo」爲中度視網膜病變)。右下方則爲醫生在未參考模型結果(「Unassisted」,無輔助)與參考模型預測分數(「Grades Only」,僅參考分數)後的診斷結論。
除了與眼科專家碰撞出耀眼的火花之外,我們還在醫學研究過程中發布了一套新的機器學習模型。該模型能夠評估視網膜圖像與心血管疾病風險之間的關系。這亦帶來了一種新的希望,即通過非侵入性生物標記方式幫助臨床醫生更好地了解患者的健康狀況。
這一年當中,我們也在繼續關注病理學領域,包括展示如何利用機器學習改善前列腺癌的分級,通過深度學習技術檢測轉移性乳腺癌,同時開發出增強現實顯微鏡原型——可以通過數字圖像覆蓋的方式幫助病理學家與其他科學家將視覺信息從計算機視覺模型中實時導入至顯微鏡視野之內。
在過去四年當中,我們進行了大量的研究工作,思考如何利用深度學習技術處理電子健康記錄作出臨床相關預測。2018 年,我們與芝加哥大學醫學院、加州大學舊金山分校以及斯坦福醫學院合作,在《自然——數字醫學》雜志上發表了工作成果,展示如何利用機器學習模型識別電子病曆內容,從而爲各類臨床診療提供超越現有最佳實踐的有力支持。
作爲這項工作中的重要組成部分,我們還開發出一系列工具,使得研究人員能夠立足完全不同的任務以及完全不同的基礎電子健康記錄數據集輕松創建出此類模型。我們還在此項工作當中建立起快速醫療保健互操作性資源(簡稱 FHIR)標准與相關開源軟件,希望幫助從業者們以更輕松、更符合行業標准的方式處理醫療數據(請參閱 GitHub repo)。
另外,我們還提高了基于深度學習技術的變體調用器 DeepVariant 的准確度、速度表現與實用性。DeepVariant 團隊與合作夥伴通力配合,最近亦在《自然——生物技術》雜志上發表了同行評審論文。
在將機器學習技術應用于曆史數據收集時,了解以往真實存在的人群結構特征與偏見直接決定著數據的編纂質量。機器學習給我們帶來了發現並解決偏見問題的機會,我們也在積極設計谷歌的 AI 系統以努力推動這種健康與公平的趨勢。
研究外展
我們以多種方式與外部研究社區開展交互,包括教師參與與學生支持等形式。我們爲谷歌公司能夠吸納數百位本科生、碩士生以及博士生擔任實習生,並爲來自北美、歐洲以及中東地區的學生們提供多年博士獎學金感到無比自豪。除了財務層面的支持以外,每位獎學金獲得者都將擁有一名或者多名谷歌研究人員作爲導師。我們將所有研究員彙集在一起,每年組織一次谷歌博士學位獎學金峰會。在這裏,他們將接觸到谷歌正在進行的最前沿研究項目,並有機會與谷歌內部研究人員以及來自世界各地的其他博士研究員建立聯系。
另外,我們還建立起 Google Ai Residency 項目以作爲上述獎學金計劃的補充。我們希望通過這樣的方式爲希望了解深度學習研究的學生提供一年時間,期間他們將與谷歌的研究人員們一道工作並接受指導。今年已經是該項目建立的第三個年頭,參與者們在谷歌全球辦事處的各個團隊當中發揮著自己的作用,並努力探索機器學習、感知、算法與優化、語言理解以及醫療保健等各個領域。此項計劃的第四年參加申請剛剛結束,我們很高興能夠在 2019 年伊始迎來一批充滿朝氣的新成員。
每一年,我們還通過 Google Faculty Research Awards 計劃爲衆多教師以及學生提供研究項目支持。2018 年,我們不斷在各谷歌辦事處爲特定領域的教師及研究生們舉辦研討會,包括在印度班加羅爾辦事處召開 AI/ML 研究與實踐研討會,在我們的蘇黎世辦事處舉辦算法與優勢研討會,在桑尼維爾舉辦機器學習醫療保健應用研討會,以及在馬薩諸塞州堪布裏奇辦事處舉辦機器學習公平與偏見研討會等等。
我們相信,爲更廣泛的研究團隊做出公開貢獻,正是保持自身研究生態系統健康、高效且富有活力的必要前提。除了我們的開源項目與數據集發布之外,我們的大部分研究結果也都公開發表于頂級大會以及學術期刊當中。我們也積極參與到各類不同學科會議活動的組織與贊助事務中來。我們先後參與了 ICLR 2018、NAACL 2018、ICML 2018、CVPR 2018、NeurIPS 2018、ECCV 2018 以及 EMNLP 2018 等會議,這還只是谷歌 2018 年學術交流經曆中的一小部分。此外,谷歌員工還廣泛出席了 ASPLOS、HPCA、ICSE、IEEE Security & Privacy、OSDI 以及 SIGCOMM 等其它重大會議。
新的環境,新的面孔
2018 年,我們驕傲地迎來更多具有廣泛背景的新人加入到我們的研究組織當中。我們在加納阿克拉建立起非洲的第一個人工智能研究辦事處。我們擴大了位于巴黎、東京以及阿姆斯特丹的人工智能研究設施,並在普林斯頓開設新的研究實驗室。我們持續邀請才華橫溢的人們加入我們全球各地的辦事機構,您可以在這裏了解更多關于加入我們研究工作的詳細信息。
展望 2019 年
這篇博文僅僅對 2018 年谷歌公司進行的一小部分研究進行了簡要總結。回望 2018 年,我們對我們所取得成就的廣度與深度感到興奮與自豪!著眼于 2019 年,我們期待著谷歌公司在自身發展方向與産品研發,乃至于更爲廣泛的科學研究與工程技術領域産生更爲重大且深遠的影響!
原文鏈接:
https://ai.googleblog.com/2019/01/looking-back-at-googles-research.html