Menu
快讀
  • 旅遊
  • 生活
    • 美食
    • 寵物
    • 養生
    • 親子
  • 娛樂
    • 動漫
  • 時尚
  • 社會
  • 探索
  • 故事
  • 科技
  • 軍事
  • 国际
快讀

全球頂級語音技術比賽中獲雙料冠軍,這家中國公司靠什麽?

2022 年 10 月 2 日 林子

蕭箫 發自 凹非寺
量子位 報道 | 公衆號 QbitAI

一場關鍵比賽,剛剛在全球頂級語音會議INTERSPEECH 2021上決出勝負。

騰訊、西工大、CMU等國內外機構是這場對決的主辦方,兩項比賽內容是語音行業的前沿研究,針對真實視頻會議場景。

全球頂級語音技術比賽中獲雙料冠軍,這家中國公司靠什麽?

△單麥克風陣列多通道語音增強任務(dMOS越高越好)

全球頂級語音技術比賽中獲雙料冠軍,這家中國公司靠什麽?

△多分布式麥克風陣列多通道語音增強任務(dMOS越高越好)

來自中國、美國、新加坡等16個國家和地區的實力隊伍參賽,其中有像浙大、北航這樣的頂尖高校,也有像中科院聲學所這樣的專業研究機構。

最終kuaishou_deep_ns團隊包攬榜首,這支團隊來自快手。

兩項任務的第二名,分別是來自浙江大學和海康威視研究院聯合團隊,以及中國科學院大學、中科院聲學所、北京航空航天大學、北京語言大學、西北工業大學聯合團隊。

快手團隊在這場比賽中所使用的技術,已經以2篇論文的形式被INTERSPEECH 2021收錄。

快手究竟在「遠場多通道語音增強技術」上做出了什麽突破?

經典分割模型U-Net,跨界語音增強領域

先來看看,這兩項任務的考查目標「遠場多通道語音增強技術」是什麽。

語音增強技術,指在含噪語音中,對噪聲信號進行抑制、降低,盡可能提取純淨的原始語音信號。

全球頂級語音技術比賽中獲雙料冠軍,這家中國公司靠什麽?

如果場景中只有一個麥克風(單通道),將難以解決在會議室、智能家居、智能座艙等場景下出現的遠場問題。

遠場,指說話人距離麥克風較遠的場景。

主要存在三個難點:信噪比低、房間混響(在封閉、室內場景下,聲波在傳播時不斷被牆壁反射、吸收和衰減)、多人說話場景

因此,通常采用多通道(多個麥克風組成的陣列)技術,來獲取更多不同方向信號的幅度和相位信息,進一步解決遠場問題,就是這場挑戰賽的目標。

全球頂級語音技術比賽中獲雙料冠軍,這家中國公司靠什麽?

△圓陣和線陣的采集方案

多通道包括單個、多個分布式麥克風陣列兩種類型,因此這場挑戰賽也由兩項任務組成,分別考查這兩種多通道類型的遠場語音增強技術。

傳統基于信號的多通道算法,往往噪聲抑制能力有限。這次的比賽中,快手團隊決定從一個新角度出發解決遠場問題:將深度學習技術和多通道算法進行融合。

經過篩選後,團隊最終敲定了U-Net模型架構,這是一個圖像分割領域的經典模型,在醫療圖像和遙感領域的應用效果非常好。

U-Net模型以其結構左右完全對稱、非常像“U”而得名,與FCN相似,同樣爲encoder-decoder架構,最初被用于圖像壓縮和圖像去噪中。

全球頂級語音技術比賽中獲雙料冠軍,這家中國公司靠什麽?

由于下采樣和上采樣均進行了4次,同時相比于FCN多了skip-connection(跳層連接)結構,因此U-Net能很好地提取高級語義信息和低級特征。

但團隊卻將U-Net用在了語音增強領域中,基于因果U-Net提出了一種多輸入多輸出算法模型。

因果U-Net的卷積結構采用了因果卷積(causal convolutions),目的是考慮實時問題(語音數據處理需要考慮實時性)。

事實上,將深度學習技術用于多通道模型,仍屬于前沿研究,相關論文非常少。這也成爲了團隊設計模型時的一大難題。

經過反複測試驗證後,團隊發現,如果將模型的輸出和經典的波束形成相結合,就能獲得1+1>2的效果。

同時,在整體設計的基礎上,串聯一個後處理濾波器,對基于深度學習模型生成的語音信號進行二次降噪,讓語音音質更加清晰。

全球頂級語音技術比賽中獲雙料冠軍,這家中國公司靠什麽?

事實證明,這一“跨界”模型的效果確實不錯,原本廣泛用于圖像分割領域的經典模型,現在在語音增強領域也能取得不錯的效果。

最終,快手團隊研發的多輸入多輸出模型支持8通道語音增強技術,同時具有可擴展性(能擴展不同的通道數量)。

不過,模型創新設計還只是比賽中的一環。

用數據還原真實場景,讓聽覺“無障礙”成爲可能

事實上,在語音增強比賽中,數據合成又成爲了另一挑戰。

舉辦方只會給出純淨的單人語音和噪聲數據,但在最終的場景考核中,所有語音信號卻都來自真實場景。

也就是說,在最終比賽時,模型會遇到各種遠場情況、不同房間尺寸、不同麥克風放置地點和各種噪聲強度等不同類型的數據,但訓練數據卻完全要靠團隊自行設計。

這就需要參賽者合理考慮各類數據的占比,盡可能使模擬出來的數據更貼近真實情況。

全球頂級語音技術比賽中獲雙料冠軍,這家中國公司靠什麽?

不僅如此,由于此前深度學習在語音增強方向的研究大多基于單通道模型,因此團隊自行設計的數據,還得進一步考慮多通道的情況。

也就是說,需要對同一場景下、不同麥克風(通道)收到的信號數據進行模擬,用于多通道模型的訓練。

盡可能還原真實場景的合成數據,加上自己研發的基于深度學習的多通道模型,讓快手團隊最終在這場語音增強比賽上獲得兩項任務的第一。

但這場語音增強比賽,背後的意義不僅在于角逐出模型的第一。

雖然「遠場多通道語音增強技術」確實尚處于前沿研究階段,但它未來的應用場景也已經得以預見。

其一,多人會議,而且是異地兩部門之間的那種多人視頻會議。

全球頂級語音技術比賽中獲雙料冠軍,這家中國公司靠什麽?

常見的線上視頻會議中,基本上每個人都需要佩戴一副耳機,才能實現多人視頻會議,這也是目前大多數視頻會議APP所能實現的功能。

但未來可能只需要一塊屏幕,加上多通道語音技術就能在兩個異地部門、或是兩群人之間實現實時視頻溝通。

即使坐在屏幕最遠端的人,也能聽見視頻對面每個人的聲音,就像在一個辦公室溝通那樣順利。

其二,讓XR技術的實現,在語音處理領域成爲可能。

全球頂級語音技術比賽中獲雙料冠軍,這家中國公司靠什麽?

5G+AI的組合,讓XR中的圖像實時傳輸技術成爲現實,但語音實時交互卻仍然存在不少困難,其中遠場是不可避開的一個技術難點。

如果遠場多通道語音增強技術進一步得到發展,或許將來XR也能真正實現語音上“聲臨其境”的交互效果。

想象一下,如果將來XR能應用到直播中(例如戶外直播),或許我們也能實時進入到直播環境中,足不出戶感受世界的美景。

作爲音視頻行業的引領者,快手已經在探索這樣的多通道語音增強技術落地場景。

將來,像多人會議、XR、直播場景互動這些設想中的“無障礙”聽覺技術,說不定哪天就會成爲産品,落入尋常百姓家。

奪冠背後,快手的技術基因

在這次的語音增強比賽上獲得第一,背後是一整個快手的音頻處理算法團隊在做技術支撐。

全球頂級語音技術比賽中獲雙料冠軍,這家中國公司靠什麽?

參賽團隊中,也有不少成員來自清北、西工大等985高校。

據團隊成員表示,實現這個模型,團隊用了將近一個月的時間,期間在模型設計和數據處理上遇到了不少難關,但最終團隊都將它們逐一攻破。

但相比于一味追求降噪效果,團隊成員的模型設計也考慮了實時通信的需求。

畢竟遠場通信的一大特點就是實時性,如果模型設計得太大,忽略了可實現性的話,也會失去落地應用的價值。

這也是快手“技術無差別”的基因之一,讓技術更貼近實際生活,盡可能造福每一圈層的人群。

全球頂級語音技術比賽中獲雙料冠軍,這家中國公司靠什麽?

事實上,除了語音增強技術以外,快手在回聲消除技術上也深耕已久。

同樣是在INTERSPEECH 2021的AEC Challenge(Acoustic Echo Cancellation Challenge)回聲消除比賽上,快手就以4.77的分數取得了雙講回聲消除的單項世界冠軍,領先于中科院、字節跳動、阿裏巴巴等諸多參賽團隊。

而在技術落地方面,同樣是在今年5月,快手還上線了基于深度學習的實時變聲直播,成爲行業中首個上線相關技術的公司。

未來,快手還將繼續在音視頻行業中,憑借技術實力,帶給我們更多的驚喜。

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態

相關文章:

  • 庫克治下,蘋果營收和股價雙雙創曆史新高!iPhone貢獻70%
  • 余承東:國內用華爲P40 Pro+就能拍照測體溫,還很精准
  • 余承東:P40系列生産去年年底已開啓,在中國可拍照測體溫
  • 楊元慶發布新財年內部信,將首次以網絡直播舉行全球誓師大會
  • 這家僞AI創業公司被扒:曾創歐洲單輪融資紀錄,然而有人工沒智能
  • 孫正義也喝了一口商湯
社會

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

©2025 快讀 | 服務協議 | DMCA | 聯繫我們