3月21日,中國科技巨頭騰訊與全球芯片霸主英偉達幾乎同步發(fā)布基于Mamba-Transformer混合架構(gòu)的新一代大模型,分別推出混元T1與Nemotron-H系列。兩大科技巨頭的動作不僅標志著混合架構(gòu)技術從實驗室走向工業(yè)級應用,更揭示了AI大模型在長文本處理、超低延遲推理、硬件適配性等領域的核心競爭焦點。
文字編輯|宋雨涵
1
騰訊混元T1
首字秒出,吐字速度達80 token/s的“深度思考者”
該模型的前身是,今年2月中旬混元團隊在騰訊元寶APP上線的基于混元中等規(guī)模底座的混元T1-Preview(Hunyuan-Thinker-1-Preview)推理模型。
相比于T1-Preview,T1正式版基于騰訊混元3月初發(fā)布的業(yè)界首個超大規(guī)模Hybrid-Transformer-Mamba MoE大模型TurboS快思考基座,通過大規(guī)模后訓練擴展了推理能力,并進一步對齊人類偏好,這也是工業(yè)界首次將混合Mamba架構(gòu)無損應用于超大型推理模型。
T1在多個公開數(shù)據(jù)集的評測結(jié)果顯示,在MMLU-pro、CEval、AIME、Zebra Loigc等中英文知識和競賽級數(shù)學、邏輯推理指標上基本持平或略超R1。
目前,T1已在騰訊云官網(wǎng)上線,輸入價格為每百萬tokens 1元,輸出價格為每百萬tokens 4元,輸出價格為DeepSeek標準時段的1/4,與DeepSeek優(yōu)惠時段一致。
其核心突破體現(xiàn)在三大維度
超低延遲推理:通過動態(tài)KV-Cache壓縮算法,將傳統(tǒng)Transformer的內(nèi)存占用降低40%,實現(xiàn)首字秒出(First Token Prompt)和80 token/s的吐字速度,在實時交互場景中優(yōu)勢顯著。
長文本處理:針對學術論文、法律文書等超長文本場景,混合架構(gòu)通過Mamba的線性復雜度特性優(yōu)化長序列計算,使解碼速度提升2倍,同時保持99.2%的上下文完整性。
強化學習驅(qū)動的推理能力:在數(shù)學、邏輯推理等硬核領域,混元T1通過大規(guī)模強化學習微調(diào),在MMLU-PRO基準測試中以87.2分超越GPT-4.5(86.1分),逼近OpenAI o1(89.3分)。
2
英偉達也推出混合架構(gòu)模型
英偉達Nemotron-H
在NVIDIA GTC 2025大會上,NVIDIA宣布推出具有推理功能的開放Llama Nemotron模型系列。這一新系列旨在為開發(fā)人員和企業(yè)提供強大的基礎,以創(chuàng)建能夠獨立工作或協(xié)作解決復雜任務的高級AI Agents。
Llama Nemotron推理系列基于Llama模型構(gòu)建,并經(jīng)過了多個強化學習(RL)階段的后期訓練,使用了REINFORCE (RLOO) 和RPO算法來優(yōu)化聊天和指令遵循能力。該模型適用于推理、人類聊天偏好以及RAG(檢索增強生成)和工具調(diào)用等多種任務,并支持長達128K個標記的上下文長度。
此外,NVIDIA AI Enterprise還推出了最新的Agentic AI構(gòu)建模塊,包括NVIDIA AI-Q藍圖、AI數(shù)據(jù)平臺、NIM微服務和NeMo微服務。這些工具和軟件旨在簡化高級推理模型的部署和優(yōu)化,從而加速協(xié)作AI系統(tǒng)的開發(fā)和應用。
NVIDIA AI-Q藍圖使企業(yè)能夠?qū)⒅R連接到能夠自主感知、推理和行動的AI Agents。該藍圖采用NVIDIA NIM微服務構(gòu)建,并集成了NVIDIA NeMo Retriever?以實現(xiàn)多模式信息檢索。同時,NVIDIA AgentIQ工具包也被用于實現(xiàn)Agents和數(shù)據(jù)連接、優(yōu)化和透明度,并且已經(jīng)開源。
此次推出的Llama Nemotron推理模型系列和Agentic AI構(gòu)建模塊,將為開發(fā)人員和企業(yè)提供更多選擇和工具,以推動AI技術的創(chuàng)新和應用。
其技術亮點包括
極致推理效率
在MMLU-Pro基準測試中,Nemotron-H-56B以FP4精度實現(xiàn)3倍于純Transformer模型的吞吐量,單卡RTX 5090即可支持百萬token長上下文推理。
硬件深度適配
通過掃描算法(Scan)優(yōu)化與混合精度流水線,在昇騰910B集群上訓練時,顯存占用降低18%,推理延遲減少23%。
開源生態(tài)布局
作為物理AI框架Cosmos-Reason 1的骨干網(wǎng)絡,Nemotron-H-47B(蒸餾版)以630億token訓練數(shù)據(jù)實現(xiàn)與千億模型相當?shù)木龋苿涌蒲袡C構(gòu)低成本復現(xiàn)前沿成果。
Mamba-Transformer混合架構(gòu)
當前主流的混合架構(gòu)主要采用層級混合與序列級混合兩種策略:
層級混合(騰訊混元T1):
Mamba模塊:處理長序列數(shù)據(jù)(如法律文書、代碼生成),通過SSD理論打通與Transformer的數(shù)學關聯(lián),減少KV-Cache內(nèi)存占用40%。
Transformer模塊:保留全局注意力機制,確保復雜上下文捕捉能力,避免長文本推理中的信息丟失。
動態(tài)路由機制:根據(jù)輸入序列長度自動分配計算資源,短序列優(yōu)先使用Transformer,長序列調(diào)用Mamba模塊優(yōu)化效率。
序列級混合(英偉達Nemotron-H):
在每個序列位置動態(tài)選擇Mamba或Transformer計算路徑,實現(xiàn)首字響應時間<500ms,吐字速度達80 token/s。
通過掃描算法(Scan)替代傳統(tǒng)卷積,使單卡RTX 5090即可支持百萬token長上下文推理。
寫在最后
從混元T1的“秒級響應”到Nemotron-H的“物理級精度”,混合架構(gòu)技術正在解構(gòu)AI發(fā)展的底層邏輯。正如英偉達創(chuàng)始人黃仁勛在GTC 2025所言:“軟件優(yōu)化才是釋放硬件潛能的終極密碼?!蔽磥恚@場由架構(gòu)創(chuàng)新引發(fā)的變革,或?qū)⒅厮軓臄?shù)據(jù)中心到邊緣計算的整個AI生態(tài)。