蕭箫發自凹非寺
量子位報道 | 公衆號 QbitAI

一場關鍵比賽，剛剛在全球頂級語音會議INTERSPEECH 2021上決出勝負。

騰訊、西工大、CMU等國內外機構是這場對決的主辦方，兩項比賽內容是語音行業的前沿研究，針對真實視頻會議場景。

△單麥克風陣列多通道語音增強任務（dMOS越高越好）

△多分布式麥克風陣列多通道語音增強任務（dMOS越高越好）

來自中國、美國、新加坡等16個國家和地區的實力隊伍參賽，其中有像浙大、北航這樣的頂尖高校，也有像中科院聲學所這樣的專業研究機構。

最終kuaishou_deep_ns團隊包攬榜首，這支團隊來自快手。

兩項任務的第二名，分別是來自浙江大學和海康威視研究院聯合團隊，以及中國科學院大學、中科院聲學所、北京航空航天大學、北京語言大學、西北工業大學聯合團隊。

快手團隊在這場比賽中所使用的技術，已經以2篇論文的形式被INTERSPEECH 2021收錄。

快手究竟在「遠場多通道語音增強技術」上做出了什麽突破？

經典分割模型U-Net，跨界語音增強領域

先來看看，這兩項任務的考查目標「遠場多通道語音增強技術」是什麽。

語音增強技術，指在含噪語音中，對噪聲信號進行抑制、降低，盡可能提取純淨的原始語音信號。

如果場景中只有一個麥克風（單通道），將難以解決在會議室、智能家居、智能座艙等場景下出現的遠場問題。

遠場，指說話人距離麥克風較遠的場景。

主要存在三個難點：信噪比低、房間混響（在封閉、室內場景下，聲波在傳播時不斷被牆壁反射、吸收和衰減）、多人說話場景

因此，通常采用多通道（多個麥克風組成的陣列）技術，來獲取更多不同方向信號的幅度和相位信息，進一步解決遠場問題，就是這場挑戰賽的目標。

△圓陣和線陣的采集方案

多通道包括單個、多個分布式麥克風陣列兩種類型，因此這場挑戰賽也由兩項任務組成，分別考查這兩種多通道類型的遠場語音增強技術。

傳統基于信號的多通道算法，往往噪聲抑制能力有限。這次的比賽中，快手團隊決定從一個新角度出發解決遠場問題：將深度學習技術和多通道算法進行融合。

經過篩選後，團隊最終敲定了U-Net模型架構，這是一個圖像分割領域的經典模型，在醫療圖像和遙感領域的應用效果非常好。

U-Net模型以其結構左右完全對稱、非常像“U”而得名，與FCN相似，同樣爲encoder-decoder架構，最初被用于圖像壓縮和圖像去噪中。

由于下采樣和上采樣均進行了4次，同時相比于FCN多了skip-connection（跳層連接）結構，因此U-Net能很好地提取高級語義信息和低級特征。

但團隊卻將U-Net用在了語音增強領域中，基于因果U-Net提出了一種多輸入多輸出算法模型。

因果U-Net的卷積結構采用了因果卷積（causal convolutions），目的是考慮實時問題（語音數據處理需要考慮實時性）。

事實上，將深度學習技術用于多通道模型，仍屬于前沿研究，相關論文非常少。這也成爲了團隊設計模型時的一大難題。

經過反複測試驗證後，團隊發現，如果將模型的輸出和經典的波束形成相結合，就能獲得1+1>2的效果。

同時，在整體設計的基礎上，串聯一個後處理濾波器，對基于深度學習模型生成的語音信號進行二次降噪，讓語音音質更加清晰。

事實證明，這一“跨界”模型的效果確實不錯，原本廣泛用于圖像分割領域的經典模型，現在在語音增強領域也能取得不錯的效果。

最終，快手團隊研發的多輸入多輸出模型支持8通道語音增強技術，同時具有可擴展性（能擴展不同的通道數量）。

不過，模型創新設計還只是比賽中的一環。

用數據還原真實場景，讓聽覺“無障礙”成爲可能

事實上，在語音增強比賽中，數據合成又成爲了另一挑戰。

舉辦方只會給出純淨的單人語音和噪聲數據，但在最終的場景考核中，所有語音信號卻都來自真實場景。

也就是說，在最終比賽時，模型會遇到各種遠場情況、不同房間尺寸、不同麥克風放置地點和各種噪聲強度等不同類型的數據，但訓練數據卻完全要靠團隊自行設計。

這就需要參賽者合理考慮各類數據的占比，盡可能使模擬出來的數據更貼近真實情況。

不僅如此，由于此前深度學習在語音增強方向的研究大多基于單通道模型，因此團隊自行設計的數據，還得進一步考慮多通道的情況。

也就是說，需要對同一場景下、不同麥克風（通道）收到的信號數據進行模擬，用于多通道模型的訓練。

盡可能還原真實場景的合成數據，加上自己研發的基于深度學習的多通道模型，讓快手團隊最終在這場語音增強比賽上獲得兩項任務的第一。

但這場語音增強比賽，背後的意義不僅在于角逐出模型的第一。

雖然「遠場多通道語音增強技術」確實尚處于前沿研究階段，但它未來的應用場景也已經得以預見。

其一，多人會議，而且是異地兩部門之間的那種多人視頻會議。

常見的線上視頻會議中，基本上每個人都需要佩戴一副耳機，才能實現多人視頻會議，這也是目前大多數視頻會議APP所能實現的功能。

但未來可能只需要一塊屏幕，加上多通道語音技術就能在兩個異地部門、或是兩群人之間實現實時視頻溝通。

即使坐在屏幕最遠端的人，也能聽見視頻對面每個人的聲音，就像在一個辦公室溝通那樣順利。

其二，讓XR技術的實現，在語音處理領域成爲可能。

5G+AI的組合，讓XR中的圖像實時傳輸技術成爲現實，但語音實時交互卻仍然存在不少困難，其中遠場是不可避開的一個技術難點。

如果遠場多通道語音增強技術進一步得到發展，或許將來XR也能真正實現語音上“聲臨其境”的交互效果。

想象一下，如果將來XR能應用到直播中（例如戶外直播），或許我們也能實時進入到直播環境中，足不出戶感受世界的美景。

作爲音視頻行業的引領者，快手已經在探索這樣的多通道語音增強技術落地場景。

將來，像多人會議、XR、直播場景互動這些設想中的“無障礙”聽覺技術，說不定哪天就會成爲産品，落入尋常百姓家。

奪冠背後，快手的技術基因

在這次的語音增強比賽上獲得第一，背後是一整個快手的音頻處理算法團隊在做技術支撐。

參賽團隊中，也有不少成員來自清北、西工大等985高校。

據團隊成員表示，實現這個模型，團隊用了將近一個月的時間，期間在模型設計和數據處理上遇到了不少難關，但最終團隊都將它們逐一攻破。

但相比于一味追求降噪效果，團隊成員的模型設計也考慮了實時通信的需求。

畢竟遠場通信的一大特點就是實時性，如果模型設計得太大，忽略了可實現性的話，也會失去落地應用的價值。

這也是快手“技術無差別”的基因之一，讓技術更貼近實際生活，盡可能造福每一圈層的人群。

事實上，除了語音增強技術以外，快手在回聲消除技術上也深耕已久。

同樣是在INTERSPEECH 2021的AEC Challenge（Acoustic Echo Cancellation Challenge）回聲消除比賽上，快手就以4.77的分數取得了雙講回聲消除的單項世界冠軍，領先于中科院、字節跳動、阿裏巴巴等諸多參賽團隊。

而在技術落地方面，同樣是在今年5月，快手還上線了基于深度學習的實時變聲直播，成爲行業中首個上線相關技術的公司。

未來，快手還將繼續在音視頻行業中，憑借技術實力，帶給我們更多的驚喜。

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們，第一時間獲知前沿科技動態

社會

全球頂級語音技術比賽中獲雙料冠軍，這家中國公司靠什麽？

△單麥克風陣列多通道語音增強任務（dMOS越高越好）

△多分布式麥克風陣列多通道語音增強任務（dMOS越高越好）

經典分割模型U-Net，跨界語音增強領域

△圓陣和線陣的采集方案

用數據還原真實場景，讓聽覺“無障礙”成爲可能

奪冠背後，快手的技術基因

相關文章:

發佈留言取消回覆

△單麥克風陣列多通道語音增強任務（dMOS越高越好）

△多分布式麥克風陣列多通道語音增強任務（dMOS越高越好）

經典分割模型U-Net，跨界語音增強領域

△圓陣和線陣的采集方案

用數據還原真實場景，讓聽覺“無障礙”成爲可能

奪冠背後，快手的技術基因

相關文章:

發佈留言 取消回覆

發佈留言取消回覆