自拍偷区亚洲综合激情,中国videosex高潮喷水,欧美激情在线播放16页

3月21日，中國科技巨頭騰訊與全球芯片霸主英偉達幾乎同步發(fā)布基于Mamba-Transformer混合架構(gòu)的新一代大模型，分別推出混元T1與Nemotron-H系列。兩大科技巨頭的動作不僅標志著混合架構(gòu)技術從實驗室走向工業(yè)級應用，更揭示了AI大模型在長文本處理、超低延遲推理、硬件適配性等領域的核心競爭焦點。

文字編輯｜宋雨涵

騰訊混元T1

首字秒出，吐字速度達80 token/s的“深度思考者”

該模型的前身是，今年2月中旬混元團隊在騰訊元寶APP上線的基于混元中等規(guī)模底座的混元T1-Preview（Hunyuan-Thinker-1-Preview）推理模型。

相比于T1-Preview，T1正式版基于騰訊混元3月初發(fā)布的業(yè)界首個超大規(guī)模Hybrid-Transformer-Mamba MoE大模型TurboS快思考基座，通過大規(guī)模后訓練擴展了推理能力，并進一步對齊人類偏好，這也是工業(yè)界首次將混合Mamba架構(gòu)無損應用于超大型推理模型。

T1在多個公開數(shù)據(jù)集的評測結(jié)果顯示，在MMLU-pro、CEval、AIME、Zebra Loigc等中英文知識和競賽級數(shù)學、邏輯推理指標上基本持平或略超R1。

目前，T1已在騰訊云官網(wǎng)上線，輸入價格為每百萬tokens 1元，輸出價格為每百萬tokens 4元，輸出價格為DeepSeek標準時段的1/4，與DeepSeek優(yōu)惠時段一致。

其核心突破體現(xiàn)在三大維度

超低延遲推理：通過動態(tài)KV-Cache壓縮算法，將傳統(tǒng)Transformer的內(nèi)存占用降低40%，實現(xiàn)首字秒出（First Token Prompt）和80 token/s的吐字速度，在實時交互場景中優(yōu)勢顯著。

長文本處理：針對學術論文、法律文書等超長文本場景，混合架構(gòu)通過Mamba的線性復雜度特性優(yōu)化長序列計算，使解碼速度提升2倍，同時保持99.2%的上下文完整性。

強化學習驅(qū)動的推理能力：在數(shù)學、邏輯推理等硬核領域，混元T1通過大規(guī)模強化學習微調(diào)，在MMLU-PRO基準測試中以87.2分超越GPT-4.5（86.1分），逼近OpenAI o1（89.3分）。

英偉達也推出混合架構(gòu)模型

英偉達Nemotron-H

在NVIDIA GTC 2025大會上，NVIDIA宣布推出具有推理功能的開放Llama Nemotron模型系列。這一新系列旨在為開發(fā)人員和企業(yè)提供強大的基礎，以創(chuàng)建能夠獨立工作或協(xié)作解決復雜任務的高級AI Agents。

Llama Nemotron推理系列基于Llama模型構(gòu)建，并經(jīng)過了多個強化學習（RL）階段的后期訓練，使用了REINFORCE (RLOO) 和RPO算法來優(yōu)化聊天和指令遵循能力。該模型適用于推理、人類聊天偏好以及RAG（檢索增強生成）和工具調(diào)用等多種任務，并支持長達128K個標記的上下文長度。

此外，NVIDIA AI Enterprise還推出了最新的Agentic AI構(gòu)建模塊，包括NVIDIA AI-Q藍圖、AI數(shù)據(jù)平臺、NIM微服務和NeMo微服務。這些工具和軟件旨在簡化高級推理模型的部署和優(yōu)化，從而加速協(xié)作AI系統(tǒng)的開發(fā)和應用。

NVIDIA AI-Q藍圖使企業(yè)能夠?qū)⒅R連接到能夠自主感知、推理和行動的AI Agents。該藍圖采用NVIDIA NIM微服務構(gòu)建，并集成了NVIDIA NeMo Retriever?以實現(xiàn)多模式信息檢索。同時，NVIDIA AgentIQ工具包也被用于實現(xiàn)Agents和數(shù)據(jù)連接、優(yōu)化和透明度，并且已經(jīng)開源。

此次推出的Llama Nemotron推理模型系列和Agentic AI構(gòu)建模塊，將為開發(fā)人員和企業(yè)提供更多選擇和工具，以推動AI技術的創(chuàng)新和應用。

其技術亮點包括

極致推理效率

在MMLU-Pro基準測試中，Nemotron-H-56B以FP4精度實現(xiàn)3倍于純Transformer模型的吞吐量，單卡RTX 5090即可支持百萬token長上下文推理。

硬件深度適配

通過掃描算法（Scan）優(yōu)化與混合精度流水線，在昇騰910B集群上訓練時，顯存占用降低18%，推理延遲減少23%。

開源生態(tài)布局

作為物理AI框架Cosmos-Reason 1的骨干網(wǎng)絡，Nemotron-H-47B（蒸餾版）以630億token訓練數(shù)據(jù)實現(xiàn)與千億模型相當?shù)木龋苿涌蒲袡C構(gòu)低成本復現(xiàn)前沿成果。

Mamba-Transformer混合架構(gòu)

當前主流的混合架構(gòu)主要采用層級混合與序列級混合兩種策略：

層級混合（騰訊混元T1）：

Mamba模塊：處理長序列數(shù)據(jù)（如法律文書、代碼生成），通過SSD理論打通與Transformer的數(shù)學關聯(lián)，減少KV-Cache內(nèi)存占用40%。

Transformer模塊：保留全局注意力機制，確保復雜上下文捕捉能力，避免長文本推理中的信息丟失。

動態(tài)路由機制：根據(jù)輸入序列長度自動分配計算資源，短序列優(yōu)先使用Transformer，長序列調(diào)用Mamba模塊優(yōu)化效率。

序列級混合（英偉達Nemotron-H）：

在每個序列位置動態(tài)選擇Mamba或Transformer計算路徑，實現(xiàn)首字響應時間<500ms，吐字速度達80 token/s。

通過掃描算法（Scan）替代傳統(tǒng)卷積，使單卡RTX 5090即可支持百萬token長上下文推理。

寫在最后

從混元T1的“秒級響應”到Nemotron-H的“物理級精度”，混合架構(gòu)技術正在解構(gòu)AI發(fā)展的底層邏輯。正如英偉達創(chuàng)始人黃仁勛在GTC 2025所言：“軟件優(yōu)化才是釋放硬件潛能的終極密碼?！蔽磥恚@場由架構(gòu)創(chuàng)新引發(fā)的變革，或?qū)⒅厮軓臄?shù)據(jù)中心到邊緣計算的整個AI生態(tài)。

分享到

lixiangjing

算力豹主編

lixiangjing

相關推薦

近期文章

熱門標簽