国产成人精品18p,最新国产一区在线观看

來自中國的視頻生成模型，再一次震驚了全球大模型圈。生數(shù)科技推出的Vidu 1.5，成為世界首個支持多主體一致性的多模態(tài)模型！

國產(chǎn)地表最強視頻模型震驚歪果仁

早在9號，Vidu就在官方賬號上預(yù)熱了此次發(fā)布，同步放出一段案例，案例中上傳一張黑人男子照片、鎧甲圖、城市街景，Vidu1.5便將這三者元素完美的融合到一個視頻中，實現(xiàn)“男子穿著鎧甲走在街道”上的畫面。從效果看，Vidu 1.5賦予了視頻模型前所未有的控制能力，通過圖片輸入來實現(xiàn)精準控制和編輯！

上線后，有海外用戶評價，這直接把Runway、LumaAI等一眾視頻模型都一鍋端了，其他視頻模型都實現(xiàn)不了的能力，Vidu竟然給攻破了，甚至在語義理解甚至比圖像模型王者Midjorney還強。

更有海外用戶更是直呼“改變了游戲規(guī)則”，未來“只要上傳一張角色圖+一張環(huán)境圖”就可以創(chuàng)作連續(xù)的視頻故事。

地表最強！「多主體一致性」難題被攻克

技術(shù)迎來重大突破

當(dāng)前在視頻生成領(lǐng)域，一個亟待解決的挑戰(zhàn)就是「一致性控制」問題。即在不同生成的視頻之間，模型往往難以確保主體（如人物角色或物體）的外觀、特征和風(fēng)格保持一致。

特別是在處理包含多個角色或物體的場景時，現(xiàn)有模型還無法做到對多個主體同時進行控制，例如，主體間的特征容易產(chǎn)生混淆，主體間的互動也難以保持自然連貫。

不過，這一“世紀難題”如今被國產(chǎn)視頻模型攻克了！

國產(chǎn)視頻模型Vidu上新1.5版本，全新上線「多圖參考」功能，通過上傳一至三張參考圖，實現(xiàn)對單主體100%的精確控制，同時實現(xiàn)多主體交互控制、主體與場景融合控制，能夠無縫集成人物、道具和場景。

Vidu自最初上線以來，就一直致力于解決視頻模型中「一致性」的核心難題：早在7月底全球上線的時候，Vidu 就推出「角色一致性」功能，用戶可上傳自定義的角色圖，然后指定該角色在任意場景中做出任意動作；

在9月初，Vidu全球首發(fā)了「主體參照」功能，允許用戶上傳任意主體的一張圖片，通過描述詞任意切換場景。這次 Vidu 1.5 則是進一步深化了在「一致性」方面的領(lǐng)先布局和深厚優(yōu)勢。

對于單主體而言，通過上傳特定主體的不同角度或不同景別下的圖片，Vidu 1.5 能實現(xiàn)100%精準控制。

比如下面的復(fù)古美女，造型極具復(fù)雜度，但無論在何種景別、視角下，甚至是特寫鏡頭中，角色的形象都能始終保持高度一致。通常視頻模型在生成側(cè)面、背面等刁鉆視角的畫面時，往往靠模型“自行腦補”，這過程中就容易出現(xiàn)各種不滿足用戶預(yù)期的畫面，Vidu 1.5完全避免了這一問題，能夠保證不同視角下主體信息的準確。

多主體一致性，三張圖穩(wěn)定輸出

接下來，才是Vidu真正放大招的時候了?，F(xiàn)在，任何人可以在「多圖參考」功能中選擇上傳多個主體。它既可以是人物角色，也可以是人物+道具物體、環(huán)境背景等等，即便是「多主體」Vidu 1.5也能做到一致性控制。

主體+場景：任意地點想做什么就做什么

上傳主體和場景圖，就可以實現(xiàn)主體和場景的無縫融合。

例如，我們讓馬斯克穿上東北大花襖騎著電動車在游樂園逛。

無微調(diào)大一統(tǒng)架構(gòu)

以前的視頻模型如果想實現(xiàn)一致性生成能力，都不得不對每個場景設(shè)計相應(yīng)的模型進行微調(diào)。它們并不能像語言模型一樣，通過上下文學(xué)習(xí)，基于少量的示例或提示，快速適應(yīng)新任務(wù)。

生數(shù)科技卻探索出了一條完全與眾不同的路。

秉承通用性的理念，Vidu有和LLM一致的設(shè)計哲學(xué)：

統(tǒng)一問題形式：LLM將所有問題統(tǒng)一為（文本輸入，文本輸出），Vidu則將所有問題統(tǒng)一為（視覺輸入，視覺輸出）；
統(tǒng)一架構(gòu)：LLM和Vidu均用單個網(wǎng)絡(luò)統(tǒng)一建模變長的輸入和輸出；

壓縮即智能：LLM從文本數(shù)據(jù)的壓縮中獲取智能，Vidu從視頻數(shù)據(jù)的壓縮中獲取智能。

設(shè)計哲學(xué)一致外，在架構(gòu)復(fù)雜性、數(shù)據(jù)多樣性、生成效率等方面，多模態(tài)大模型門檻更高，在此挑戰(zhàn)下，Vidu在世界范圍內(nèi)率先推動多模態(tài)大模型產(chǎn)生智能涌現(xiàn)，如OpenAI引領(lǐng)LLM的進步和創(chuàng)新。

省去“煉丹”環(huán)節(jié)，一款“LoRA終結(jié)器”

上述突破性的工作源自于Vidu 1.5背后基礎(chǔ)模型能力的全面提升，而非業(yè)界主流的LoRA微調(diào)方案，無需專門的數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注、微調(diào)訓(xùn)練環(huán)節(jié)，一鍵直出高一致性視頻。

此前LoRA微調(diào)一直是業(yè)界解決一致性問題的主流方案。LoRA（Low-Rank Adaptation）方案，即在預(yù)訓(xùn)練模型的基礎(chǔ)上，用特定主體的多段視頻進行微調(diào)，讓模型理解該主體的特征，從而能生成該主體在不同角度、光線和場景下的形象，保證其在若干次不同生成時的一致性。

比如創(chuàng)作一只卡通狗的形象，想生成連續(xù)一致的視頻畫面，但模型在預(yù)訓(xùn)練過程中并沒有學(xué)習(xí)過該形象，所以需要拿卡通狗的多段視頻，讓模型進一步訓(xùn)練，直到認識這只卡通狗長什么樣。

但通常LoRA需要20～100段的視頻，數(shù)據(jù)構(gòu)造繁瑣，且需要一定的訓(xùn)練時間，通常需要數(shù)個小時甚至更久的時間，成本是單次視頻生成的成百上千倍。

此外，LoRA微調(diào)模型容易產(chǎn)生過擬合，即在理解主體特征的同時，也會遺忘大量原先的知識。這導(dǎo)致對于動態(tài)的表情或肢體動作的變化，很難做到有效控制，容易產(chǎn)生僵硬或不自然的效果。在復(fù)雜動作或大幅度變換時，微調(diào)模型也無法很好地捕捉細節(jié)，導(dǎo)致主體特征不夠精準。

因此，LoRA主要適用于大多數(shù)簡單情形下的主體一致性需求，但對于高復(fù)雜的主體或問題場景，需要更多的微調(diào)數(shù)據(jù)和更復(fù)雜的模型微調(diào)策略。

而Vidu 1.5基于通用模型能力的提升，僅靠三張圖就實現(xiàn)高可控的穩(wěn)定輸出，直接省去“煉丹”環(huán)節(jié)，堪稱是“ LoRA終結(jié)器”。

結(jié)語

總的來說，Vidu1.5視覺模型是一個功能強大的視頻生成工具，它不僅提高了視頻生成的效率和質(zhì)量，還推動了視覺智能的發(fā)展。隨著技術(shù)的不斷進步和應(yīng)用的拓展，Vidu1.5有望在未來發(fā)揮更大的作用。（文/宋雨涵）

分享到

大模型