一句焦灼的“快點(diǎn)!導(dǎo)航去最近的醫(yī)院!”,傳統(tǒng)AI在數(shù)秒后以機(jī)械語調(diào)回應(yīng),而搭載超擬人交互技術(shù)的AI卻能以沉穩(wěn)語氣實(shí)時(shí)回應(yīng):“好的,已為您規(guī)劃最快路線…”

它可精準(zhǔn)感知用戶語音里的情感波動(dòng),并即時(shí)以適配的語氣給予回應(yīng),還能靈活實(shí)現(xiàn)語速、音色和角色設(shè)定的動(dòng)態(tài)切換。這一技術(shù)的問世,意味著語音交互技術(shù)不再局限于功能性層面,而是正式邁向情感深度交互的新階段。

文字編輯|宋雨涵

1

技術(shù)破壁:

三大飛躍重構(gòu)交互范式

科大訊飛超擬人交互技術(shù)的核心突破源于三大技術(shù)創(chuàng)新,徹底改變了語音交互的基礎(chǔ)架構(gòu):

端到端語音建模革命:

拋棄傳統(tǒng)模塊化串聯(lián)流程,采用統(tǒng)一神經(jīng)網(wǎng)絡(luò)框架,實(shí)現(xiàn)語音到語音的直接轉(zhuǎn)化。語音信號(hào)通過音頻編碼器提取特征,與文本語義表征對(duì)齊后,由多模態(tài)大模型預(yù)測(cè)輸出表征,最終經(jīng)音頻解碼器生成自然流暢的合成語音。這項(xiàng)創(chuàng)新將交互延遲從3秒壓縮至0.5秒內(nèi),使實(shí)時(shí)對(duì)話成為可能。

情感解耦訓(xùn)練體系:

通過多維度語音屬性解耦技術(shù),系統(tǒng)將內(nèi)容、情感、語種、音色、韻律等要素分離訓(xùn)練。對(duì)比學(xué)習(xí)和掩碼預(yù)測(cè)技術(shù)的應(yīng)用,使AI能精準(zhǔn)識(shí)別喜悅、憤怒、焦慮等十余種情緒狀態(tài)。當(dāng)用戶焦急詢問路線時(shí),AI會(huì)以沉穩(wěn)語氣快速響應(yīng);當(dāng)用戶分享趣事時(shí),AI則自動(dòng)切換輕松語調(diào)延伸話題。

動(dòng)態(tài)角色扮演能力:

開發(fā)者可通過API自由設(shè)定AI角色的價(jià)值觀、語言風(fēng)格,甚至模擬特定名人音色進(jìn)行互動(dòng)。這種深度定制能力突破了傳統(tǒng)語音助手的同質(zhì)化局限,使每個(gè)AI角色具備獨(dú)特“人格”。

2

場(chǎng)景落地

從游戲NPC到數(shù)字導(dǎo)游的蛻變

超擬人交互技術(shù)正在多個(gè)行業(yè)引發(fā)應(yīng)用場(chǎng)景的重構(gòu):

某景區(qū)試點(diǎn)項(xiàng)目中,搭載該技術(shù)的“數(shù)字導(dǎo)游”通過角色扮演與游客深度互動(dòng),使游客平均停留時(shí)間延長(zhǎng)40%,二次消費(fèi)率提升25%。歷史人物“復(fù)活”講解、情境化故事演繹等創(chuàng)新形式,徹底改變了傳統(tǒng)導(dǎo)覽的單調(diào)模式。

AI口語陪練能精準(zhǔn)捕捉學(xué)習(xí)者發(fā)音誤差,并模擬真實(shí)外教的反應(yīng)模式。系統(tǒng)根據(jù)學(xué)習(xí)者情緒狀態(tài)動(dòng)態(tài)調(diào)整教學(xué)策略,焦慮時(shí)給予鼓勵(lì),分心時(shí)增強(qiáng)互動(dòng)趣味性。

游戲NPC不再依賴預(yù)設(shè)腳本,而是基于玩家實(shí)時(shí)情緒變化調(diào)整對(duì)話策略。憤怒的玩家會(huì)觸發(fā)安撫性回應(yīng),興奮的玩家則獲得更具挑戰(zhàn)性的任務(wù)引導(dǎo),情感智能讓虛擬角色真正“活”了起來。

三、生態(tài)延展:訊飛的交互技術(shù)革命

據(jù)IDC分析,2024年上半年中國(guó)人工智能語音語義市場(chǎng)規(guī)模達(dá)72.3億元,科大訊飛以顯著優(yōu)勢(shì)位居行業(yè)第一。預(yù)計(jì)到2030年,全球智能語音服務(wù)市場(chǎng)規(guī)模將達(dá)731.6億美元,復(fù)合增長(zhǎng)率27%。超擬人交互API的上線,將進(jìn)一步鞏固科大訊飛在語音交互領(lǐng)域的領(lǐng)先地位。

訊飛的交互技術(shù)革命是其大模型生態(tài)的關(guān)鍵一環(huán)。在6月深圳“交互領(lǐng)航 智啟新章”發(fā)布會(huì)上,訊飛星火同步推出四大平臺(tái):新一代AIUI、機(jī)器人超腦、虛擬數(shù)字人與星辰Agent。

具體來看,AIUI歷經(jīng)十年技術(shù)革新,截至今年六月份,日均交互量已突破3億次,生態(tài)合作伙伴超20萬家,覆蓋終端設(shè)備達(dá)22.5億臺(tái),成為全球智能交互領(lǐng)域大規(guī)模落地的關(guān)鍵支撐。新一代AIUI交互平臺(tái)以大模型為驅(qū)動(dòng),賦予機(jī)器情緒感知、創(chuàng)意生成、深度語義理解等類人多模態(tài)能力,推動(dòng)人機(jī)關(guān)系從“工具型交互”升級(jí)為“類人協(xié)作伙伴”,為企業(yè)和用戶帶來更高效、更有溫度的智能體驗(yàn)。

機(jī)器人超腦平臺(tái)則是科大訊飛專為機(jī)器人打造的“智能中樞”,以軟硬一體化的形式,為機(jī)器人廠商、個(gè)人開發(fā)者等提供標(biāo)準(zhǔn)化AI能力集成方案,目前已被500家機(jī)器人客戶選用。新一代機(jī)器人超腦平臺(tái)聚焦三大核心能力提升:多人多模態(tài)交互、全離線交互套件、敏捷部署方案。以多人多模態(tài)交互為例,傳統(tǒng)機(jī)器人在面對(duì)環(huán)境噪音或多人同時(shí)指令時(shí)易出現(xiàn)混亂,而超腦平臺(tái)通過融合語音、情緒、行為等多維信息,將環(huán)境感知準(zhǔn)確率提升至92%。

科大訊飛虛擬人平臺(tái)已廣泛應(yīng)用于媒體、教育、文旅、金融、政務(wù)等千行百業(yè),并獲得信通院L5等級(jí)認(rèn)證。該平臺(tái)支持“分鐘級(jí)”數(shù)字分身創(chuàng)建,擁有超100萬聲音復(fù)刻用戶和超10萬數(shù)字分身資產(chǎn),真正實(shí)現(xiàn)了“每人皆可擁有數(shù)字分身”的目標(biāo)。為突破傳統(tǒng)數(shù)字人局限于屏幕的局限,此次發(fā)布會(huì)上,科大訊飛正式推出移動(dòng)數(shù)字人解決方案,實(shí)現(xiàn)“能說、會(huì)動(dòng)、可感知”的真實(shí)互動(dòng)體驗(yàn)。

星辰Agent是一個(gè)低門檻、一站式的大模型精調(diào)與智能體構(gòu)建平臺(tái),不僅支持訊飛星火全系列大模型,還廣泛兼容DeepSeek、Qwen3等業(yè)界主流開源大模型,旨在幫助企業(yè)高效構(gòu)建專屬大模型和智能應(yīng)用。

結(jié)語:

科大訊飛超擬人交互API的上線,不僅是技術(shù)的一次突破,更是人機(jī)交互范式的變革。隨著5G、物聯(lián)網(wǎng)的發(fā)展,語音將成為萬物互聯(lián)的主要入口,而具備情感共鳴能力的AI助手將重新定義人與機(jī)器的關(guān)系??拼笥嶏w通過降低開發(fā)門檻、拓展應(yīng)用場(chǎng)景,這一技術(shù)將為千行百業(yè)帶來顛覆性變革。未來,隨著技術(shù)的不斷迭代,AI語音助手或?qū)⒄嬲蔀槿祟惿钪械摹扒楦邪閭H”,推動(dòng)萬物互聯(lián)時(shí)代加速到來。

分享到

lixiangjing

算力豹主編

相關(guān)推薦