在线播放国产精品三级,真人与拘做受免费视频一,9色国产深夜内射

致力文本口語化讓“擬真人表達”躍然紙上

文本作為語音合成技術的輸入，其風格是否貼近真人的表達方式，是合成效果提升的第一步；但受限于根深蒂固的書寫用語習慣，大多數(shù)合成前的文本并不夠自然，或者需要投入大量精力不斷調整，費時費力。為了解決此類問題，火山語音團隊采用了兩階段方案并取得了不錯的效果：

· 階段一：采用自監(jiān)督方法，使用偽數(shù)據(jù)對口語化模型進行預訓練，降低了數(shù)據(jù)量的需求；同時在模型中引入了指針網(wǎng)絡結構，增強了文本可控性。

· 階段二：利用少量優(yōu)質的人工標注數(shù)據(jù)，對預訓練好的口語化模型進行微調，最終實現(xiàn)可控的、自然的口語化文本效果。

為了更好地還原真人，區(qū)別于傳統(tǒng)的語音合成技術，火山語音在副語言建模和韻律多樣性上也分別進行了深入研究。在副語言建模方面，團隊推出的合成技術實現(xiàn)了聲學模型對自然表達中出現(xiàn)的吸氣、笑聲、猶豫、修正等多種副語言現(xiàn)象建模，并且結合文本的語義信息自動插入副語言現(xiàn)象。在插入過程中同時考慮合理性與隨機性，表現(xiàn)更加自然真實。

副語言建模+韻律多樣性可圈可點語音真實感全面升級

“在韻律多樣化的探究中，我們結合無監(jiān)督表征學習技術，自主研發(fā)了高表現(xiàn)力的聲學模型框架，通過發(fā)音、韻律、音色解耦等方式，不但降低了數(shù)據(jù)量的需求，實現(xiàn)對出現(xiàn)頻率極低發(fā)音現(xiàn)象的高效建模；同時使用無監(jiān)督表征特征并結合音素級別的基頻、能量信息等，實現(xiàn)了韻律的自然多變，促成高質量對話語音生成?！被鹕秸Z音團隊總結道。

火山語音，字節(jié)跳動AI Lab Speech&Audio智能語音與音頻團隊，長期以來面向抖音、剪映、番茄小說、飛書等業(yè)務提供領先的AI語音技術能力及全棧語音產(chǎn)品解決方案，并通過火山引擎向外部企業(yè)開放技術服務。

分享到

xiesc

相關推薦

近期文章

熱門標簽