測試證明,相比帶寬濾波網(wǎng)絡,這種輕量的模型能得到更好的實時單通道語音增強效果,可提升20%的語音質(zhì)量,并減少約70%的網(wǎng)絡模型大小,大幅降低推理的復雜度,可應用于在噪雜的辦公室、大會議室等復雜場景中提升語音質(zhì)量。
值得一提的是,該研究也驗證了僅用一個神經(jīng)網(wǎng)絡模型進行多項語音增強任務的可行性。過去,在音頻鏈路中部署過多不同神經(jīng)網(wǎng)絡模型,會導致消耗過多的運算資源,而采用一個模型,將有效緩解神經(jīng)網(wǎng)絡在落地過程中遇到的難點。
據(jù)介紹,釘釘蜂鳴鳥音頻實驗室提出的關于「兼容指向型麥克風的波達方向與距離的聯(lián)合估計框架」的論文一并入選INTERSPEECH,該框架是用于提升聲源定位的精度和效果。
實驗室研究人員表示:“波達方向與距離估計對于聲源定位技術是相當關鍵的信息。我們提出的算法首先對聲音信號傳播進行建模,融合不同傳感器/麥克風類型(全向和指向型),再利用稀疏貝葉斯學習框架準確地聯(lián)合判斷出波達方向與距離信息,可應用于多聲源定位。”
實驗證明,在雙聲源場景下,當信噪比(signal-to-noise ratio SNR)達到8dB,波達方向估計誤差即能控制在1度以內(nèi),距離估計誤差能控制在0.1米之內(nèi)。
釘釘蜂鳴鳥音頻實驗室旨在用傳統(tǒng)信號處理結合深度學習算法,來解決實時語音通信碰到的復雜問題,提升釘釘會議、直播以及合作會議硬件的產(chǎn)品體驗,并探索下一代音視頻形態(tài)。其重點研究方向包括音頻3A算法、單通道/多通道語音增強、聲源定位等。