來自中國的視頻生成模型,再一次震驚了全球大模型圈。生數(shù)科技推出的Vidu 1.5,成為世界首個支持多主體一致性的多模態(tài)模型!
國產(chǎn)地表最強視頻模型震驚歪果仁
早在9號,Vidu就在官方賬號上預(yù)熱了此次發(fā)布,同步放出一段案例,案例中上傳一張 黑人男子照片、鎧甲圖、城市街景,Vidu1.5便將這三者元素完美的融合到一個視頻中,實現(xiàn)“男子穿著鎧甲走在街道”上的畫面。從效果看,Vidu 1.5賦予了視頻模型前所未有的控制能力,通過圖片輸入來實現(xiàn)精準控制和編輯!
上線后,有海外用戶評價,這直接把Runway、LumaAI等一眾視頻模型都一鍋端了,其他視頻模型都實現(xiàn)不了的能力,Vidu竟然給攻破了,甚至在語義理解甚至比圖像模型王者Midjorney還強。
更有海外用戶更是直呼“改變了游戲規(guī)則”,未來“只要上傳一張角色圖+一張環(huán)境圖”就可以創(chuàng)作連續(xù)的視頻故事。
地表最強!「多主體一致性」難題被攻克
技術(shù)迎來重大突破
當(dāng)前在視頻生成領(lǐng)域,一個亟待解決的挑戰(zhàn)就是「一致性控制」問題。即在不同生成的視頻之間,模型往往難以確保主體(如人物角色或物體)的外觀、特征和風(fēng)格保持一致。
特別是在處理包含多個角色或物體的場景時,現(xiàn)有模型還無法做到對多個主體同時進行控制,例如,主體間的特征容易產(chǎn)生混淆,主體間的互動也難以保持自然連貫。
不過,這一“世紀難題”如今被國產(chǎn)視頻模型攻克了!
國產(chǎn)視頻模型Vidu上新1.5版本,全新上線「多圖參考」功能,通過上傳一至三張參考圖,實現(xiàn)對單主體100%的精確控制,同時實現(xiàn)多主體交互控制、主體與場景融合控制,能夠無縫集成人物、道具和場景。
Vidu自最初上線以來,就一直致力于解決視頻模型中「一致性」的核心難題:早在7月底全球上線的時候,Vidu 就推出「角色一致性」功能,用戶可上傳自定義的角色圖,然后指定該角色在任意場景中做出任意動作;
在9月初,Vidu全球首發(fā)了「主體參照」功能,允許用戶上傳任意主體的一張圖片,通過描述詞任意切換場景。這次 Vidu 1.5 則是進一步深化了在「一致性」方面的領(lǐng)先布局和深厚優(yōu)勢。
對于單主體而言,通過上傳特定主體的不同角度或不同景別下的圖片,Vidu 1.5 能實現(xiàn)100%精準控制。
比如下面的復(fù)古美女,造型極具復(fù)雜度,但無論在何種景別、視角下,甚至是特寫鏡頭中,角色的形象都能始終保持高度一致。通常視頻模型在生成側(cè)面、背面等刁鉆視角的畫面時,往往靠模型“自行腦補”,這過程中就容易出現(xiàn)各種不滿足用戶預(yù)期的畫面,Vidu 1.5完全避免了這一問題,能夠保證不同視角下主體信息的準確。
多主體一致性,三張圖穩(wěn)定輸出
接下來,才是Vidu真正放大招的時候了?,F(xiàn)在,任何人可以在「多圖參考」功能中選擇上傳多個主體。它既可以是人物角色,也可以是人物+道具物體、環(huán)境背景等等,即便是「多主體」Vidu 1.5也能做到一致性控制。
主體+場景:任意地點想做什么就做什么
上傳主體和場景圖,就可以實現(xiàn)主體和場景的無縫融合。
例如,我們讓馬斯克穿上東北大花襖騎著電動車在游樂園逛。
無微調(diào)大一統(tǒng)架構(gòu)
以前的視頻模型如果想實現(xiàn)一致性生成能力,都不得不對每個場景設(shè)計相應(yīng)的模型進行微調(diào)。它們并不能像語言模型一樣,通過上下文學(xué)習(xí),基于少量的示例或提示,快速適應(yīng)新任務(wù)。
生數(shù)科技卻探索出了一條完全與眾不同的路。
秉承通用性的理念,Vidu有和LLM一致的設(shè)計哲學(xué):
設(shè)計哲學(xué)一致外,在架構(gòu)復(fù)雜性、數(shù)據(jù)多樣性、生成效率等方面,多模態(tài)大模型門檻更高,在此挑戰(zhàn)下,Vidu在世界范圍內(nèi)率先推動多模態(tài)大模型產(chǎn)生智能涌現(xiàn),如OpenAI引領(lǐng)LLM的進步和創(chuàng)新。
省去“煉丹”環(huán)節(jié),一款“LoRA終結(jié)器”
上述突破性的工作源自于Vidu 1.5背后基礎(chǔ)模型能力的全面提升,而非業(yè)界主流的LoRA微調(diào)方案,無需專門的數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注、微調(diào)訓(xùn)練環(huán)節(jié),一鍵直出高一致性視頻。
此前LoRA微調(diào)一直是業(yè)界解決一致性問題的主流方案。LoRA(Low-Rank Adaptation)方案,即在預(yù)訓(xùn)練模型的基礎(chǔ)上,用特定主體的多段視頻進行微調(diào),讓模型理解該主體的特征,從而能生成該主體在不同角度、光線和場景下的形象,保證其在若干次不同生成時的一致性。
比如創(chuàng)作一只卡通狗的形象,想生成連續(xù)一致的視頻畫面,但模型在預(yù)訓(xùn)練過程中并沒有學(xué)習(xí)過該形象,所以需要拿卡通狗的多段視頻,讓模型進一步訓(xùn)練,直到認識這只卡通狗長什么樣。
但通常LoRA需要20~100段的視頻,數(shù)據(jù)構(gòu)造繁瑣,且需要一定的訓(xùn)練時間,通常需要數(shù)個小時甚至更久的時間,成本是單次視頻生成的成百上千倍。
此外,LoRA微調(diào)模型容易產(chǎn)生過擬合,即在理解主體特征的同時,也會遺忘大量原先的知識。這導(dǎo)致對于動態(tài)的表情或肢體動作的變化,很難做到有效控制,容易產(chǎn)生僵硬或不自然的效果。在復(fù)雜動作或大幅度變換時,微調(diào)模型也無法很好地捕捉細節(jié),導(dǎo)致主體特征不夠精準。
因此,LoRA主要適用于大多數(shù)簡單情形下的主體一致性需求,但對于高復(fù)雜的主體或問題場景,需要更多的微調(diào)數(shù)據(jù)和更復(fù)雜的模型微調(diào)策略。
而Vidu 1.5基于通用模型能力的提升,僅靠三張圖就實現(xiàn)高可控的穩(wěn)定輸出,直接省去“煉丹”環(huán)節(jié),堪稱是“ LoRA終結(jié)器”。
結(jié)語
總的來說,Vidu1.5視覺模型是一個功能強大的視頻生成工具,它不僅提高了視頻生成的效率和質(zhì)量,還推動了視覺智能的發(fā)展。隨著技術(shù)的不斷進步和應(yīng)用的拓展,Vidu1.5有望在未來發(fā)揮更大的作用。(文/宋雨涵)