蕭箫 發自 凹非寺
量子位 報道 | 公衆號 QbitAI
一場關鍵比賽,剛剛在全球頂級語音會議INTERSPEECH 2021上決出勝負。
騰訊、西工大、CMU等國內外機構是這場對決的主辦方,兩項比賽內容是語音行業的前沿研究,針對真實視頻會議場景。
△單麥克風陣列多通道語音增強任務(dMOS越高越好)
△多分布式麥克風陣列多通道語音增強任務(dMOS越高越好)
來自中國、美國、新加坡等16個國家和地區的實力隊伍參賽,其中有像浙大、北航這樣的頂尖高校,也有像中科院聲學所這樣的專業研究機構。
最終kuaishou_deep_ns團隊包攬榜首,這支團隊來自快手。
兩項任務的第二名,分別是來自浙江大學和海康威視研究院聯合團隊,以及中國科學院大學、中科院聲學所、北京航空航天大學、北京語言大學、西北工業大學聯合團隊。
快手團隊在這場比賽中所使用的技術,已經以2篇論文的形式被INTERSPEECH 2021收錄。
快手究竟在「遠場多通道語音增強技術」上做出了什麽突破?
經典分割模型U-Net,跨界語音增強領域
先來看看,這兩項任務的考查目標「遠場多通道語音增強技術」是什麽。
語音增強技術,指在含噪語音中,對噪聲信號進行抑制、降低,盡可能提取純淨的原始語音信號。
如果場景中只有一個麥克風(單通道),將難以解決在會議室、智能家居、智能座艙等場景下出現的遠場問題。
遠場,指說話人距離麥克風較遠的場景。
主要存在三個難點:信噪比低、房間混響(在封閉、室內場景下,聲波在傳播時不斷被牆壁反射、吸收和衰減)、多人說話場景
因此,通常采用多通道(多個麥克風組成的陣列)技術,來獲取更多不同方向信號的幅度和相位信息,進一步解決遠場問題,就是這場挑戰賽的目標。
△圓陣和線陣的采集方案
多通道包括單個、多個分布式麥克風陣列兩種類型,因此這場挑戰賽也由兩項任務組成,分別考查這兩種多通道類型的遠場語音增強技術。
傳統基于信號的多通道算法,往往噪聲抑制能力有限。這次的比賽中,快手團隊決定從一個新角度出發解決遠場問題:將深度學習技術和多通道算法進行融合。
經過篩選後,團隊最終敲定了U-Net模型架構,這是一個圖像分割領域的經典模型,在醫療圖像和遙感領域的應用效果非常好。
U-Net模型以其結構左右完全對稱、非常像“U”而得名,與FCN相似,同樣爲encoder-decoder架構,最初被用于圖像壓縮和圖像去噪中。
由于下采樣和上采樣均進行了4次,同時相比于FCN多了skip-connection(跳層連接)結構,因此U-Net能很好地提取高級語義信息和低級特征。
但團隊卻將U-Net用在了語音增強領域中,基于因果U-Net提出了一種多輸入多輸出算法模型。
因果U-Net的卷積結構采用了因果卷積(causal convolutions),目的是考慮實時問題(語音數據處理需要考慮實時性)。
事實上,將深度學習技術用于多通道模型,仍屬于前沿研究,相關論文非常少。這也成爲了團隊設計模型時的一大難題。
經過反複測試驗證後,團隊發現,如果將模型的輸出和經典的波束形成相結合,就能獲得1+1>2的效果。
同時,在整體設計的基礎上,串聯一個後處理濾波器,對基于深度學習模型生成的語音信號進行二次降噪,讓語音音質更加清晰。
事實證明,這一“跨界”模型的效果確實不錯,原本廣泛用于圖像分割領域的經典模型,現在在語音增強領域也能取得不錯的效果。
最終,快手團隊研發的多輸入多輸出模型支持8通道語音增強技術,同時具有可擴展性(能擴展不同的通道數量)。
不過,模型創新設計還只是比賽中的一環。
用數據還原真實場景,讓聽覺“無障礙”成爲可能
事實上,在語音增強比賽中,數據合成又成爲了另一挑戰。
舉辦方只會給出純淨的單人語音和噪聲數據,但在最終的場景考核中,所有語音信號卻都來自真實場景。
也就是說,在最終比賽時,模型會遇到各種遠場情況、不同房間尺寸、不同麥克風放置地點和各種噪聲強度等不同類型的數據,但訓練數據卻完全要靠團隊自行設計。
這就需要參賽者合理考慮各類數據的占比,盡可能使模擬出來的數據更貼近真實情況。
不僅如此,由于此前深度學習在語音增強方向的研究大多基于單通道模型,因此團隊自行設計的數據,還得進一步考慮多通道的情況。
也就是說,需要對同一場景下、不同麥克風(通道)收到的信號數據進行模擬,用于多通道模型的訓練。
盡可能還原真實場景的合成數據,加上自己研發的基于深度學習的多通道模型,讓快手團隊最終在這場語音增強比賽上獲得兩項任務的第一。
但這場語音增強比賽,背後的意義不僅在于角逐出模型的第一。
雖然「遠場多通道語音增強技術」確實尚處于前沿研究階段,但它未來的應用場景也已經得以預見。
其一,多人會議,而且是異地兩部門之間的那種多人視頻會議。
常見的線上視頻會議中,基本上每個人都需要佩戴一副耳機,才能實現多人視頻會議,這也是目前大多數視頻會議APP所能實現的功能。
但未來可能只需要一塊屏幕,加上多通道語音技術就能在兩個異地部門、或是兩群人之間實現實時視頻溝通。
即使坐在屏幕最遠端的人,也能聽見視頻對面每個人的聲音,就像在一個辦公室溝通那樣順利。
其二,讓XR技術的實現,在語音處理領域成爲可能。
5G+AI的組合,讓XR中的圖像實時傳輸技術成爲現實,但語音實時交互卻仍然存在不少困難,其中遠場是不可避開的一個技術難點。
如果遠場多通道語音增強技術進一步得到發展,或許將來XR也能真正實現語音上“聲臨其境”的交互效果。
想象一下,如果將來XR能應用到直播中(例如戶外直播),或許我們也能實時進入到直播環境中,足不出戶感受世界的美景。
作爲音視頻行業的引領者,快手已經在探索這樣的多通道語音增強技術落地場景。
將來,像多人會議、XR、直播場景互動這些設想中的“無障礙”聽覺技術,說不定哪天就會成爲産品,落入尋常百姓家。
奪冠背後,快手的技術基因
在這次的語音增強比賽上獲得第一,背後是一整個快手的音頻處理算法團隊在做技術支撐。
參賽團隊中,也有不少成員來自清北、西工大等985高校。
據團隊成員表示,實現這個模型,團隊用了將近一個月的時間,期間在模型設計和數據處理上遇到了不少難關,但最終團隊都將它們逐一攻破。
但相比于一味追求降噪效果,團隊成員的模型設計也考慮了實時通信的需求。
畢竟遠場通信的一大特點就是實時性,如果模型設計得太大,忽略了可實現性的話,也會失去落地應用的價值。
這也是快手“技術無差別”的基因之一,讓技術更貼近實際生活,盡可能造福每一圈層的人群。
事實上,除了語音增強技術以外,快手在回聲消除技術上也深耕已久。
同樣是在INTERSPEECH 2021的AEC Challenge(Acoustic Echo Cancellation Challenge)回聲消除比賽上,快手就以4.77的分數取得了雙講回聲消除的單項世界冠軍,領先于中科院、字節跳動、阿裏巴巴等諸多參賽團隊。
而在技術落地方面,同樣是在今年5月,快手還上線了基于深度學習的實時變聲直播,成爲行業中首個上線相關技術的公司。
未來,快手還將繼續在音視頻行業中,憑借技術實力,帶給我們更多的驚喜。
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們,第一時間獲知前沿科技動態