但萬眾矚目下GPT-5的升級遠遠沒達到大眾的預(yù)期,盡管奧特曼宣稱GPT-5是“邁向AGI的關(guān)鍵一步”,實際卻沒有什么顛覆性的改變。其改進幅度無法媲美GPT-3到GPT-4的飛躍。而這恰恰折射出數(shù)據(jù)狂飆背后,本質(zhì)問題漸漸浮現(xiàn)。

文字編輯|宋雨涵

1

GPT-5如期而至

帶您速覽更新內(nèi)容

奧特曼以三個身份形象地類比了OpenAI推出的三代模型:GPT-3就如同高中生,偶爾能展現(xiàn)出令人眼前一亮的靈光,但更多時候還是伴隨著處理問題時的挫敗感;GPT-4則好似大學(xué)生,已然具備了真正的智慧和實際可用的價值;而GPT-5,就如同能按需召喚來的各領(lǐng)域博士級專家,隨時都能助力人們達成目標。

奧特曼還提到,GPT-5是OpenAI邁向通用人工智能(AGI)征程中的一個重要里程碑。

從發(fā)布會上展示的情況來看,GPT-5在編程、數(shù)理邏輯、文本創(chuàng)作、健康咨詢以及視覺感知等多個維度上,整體智能水平相較于前代產(chǎn)品都有了顯著的提升。

其中最讓人眼前一亮的莫屬架構(gòu)設(shè)計上的更新:

與以往不同,GPT-5是一個統(tǒng)一系統(tǒng),不再分為常規(guī)模型和單獨的推理模型,而是由三個核心部分構(gòu)成:一個智能高效的基礎(chǔ)模型,能夠回答大多數(shù)問題;一個用于解決更復(fù)雜問題的深度推理模型(GPT?5 Thinking);以及一個實時路由器(智能分流系統(tǒng)),可根據(jù)對話類型、復(fù)雜度、工具需求以及用戶的明確指示(例如提示中寫道“請深入思考這個問題”)快速判斷應(yīng)使用哪個模型。

還新推出了四種全新的「人格」模式:

OpenAI還宣布一項新功能,面向付費用戶推出更加定制化的ChatGPT,支持自定義聊天功能,可調(diào)整模型的性格,四項初始選項包括:憤世嫉俗者、機器人、傾聽者和書呆子,還能改變聊天界面的顏色。

不過這次更新后的版本略微復(fù)雜:

它包含了GPT-5、GPT-5-mini、GPT-5-nano以及GPT-5-pro這四個版本。對于免費用戶而言,GPT-5的使用量是有限制的,一旦超出限額,系統(tǒng)將自動切換至GPT-5-mini。而GPT-5-pro則專為Pro訂閱用戶打造,憑借其擴展推理能力,能夠為用戶提供更為全面、精準的答案。

再來看看定價策略:

GPT-5、GPT-5-mini和GPT-5-nano這三款模型也均提供API服務(wù)。具體價格方面,GPT-5的輸入、輸出價格分別為每百萬token 1.25美元和10美元;GPT-5-mini的定價則是GPT-5的五分之一;而GPT-5-nano的定價更低,僅為GPT-5的二十五分之一。與主要競爭對手Anthropic和谷歌的同類產(chǎn)品相比,OpenAI的GPT-5模型在開發(fā)人員使用成本上相當(dāng)甚至更具優(yōu)勢。值得一提的是,免費版ChatGPT也可以使用GPT-5,不過會有額度限制,達到限制后可使用GPT-5-mini版本。

2

能力重磅升級

多項性能實現(xiàn)提升

1

告別AI幻視,AI更可靠了

AI幻覺問題長期飽受大眾詬病,堪稱被吐槽的“重災(zāi)地帶”。不過,現(xiàn)在有個好消息:GPT-5在解決這一問題上投入了大量精力,官方明確表示其產(chǎn)生幻覺的可能性“大幅降低”。具體表現(xiàn)為:在進行聯(lián)網(wǎng)搜索時,GPT-5回答出現(xiàn)事實性錯誤的概率,相較于GPT-4o降低了45%。

在獨立思考時,其回答出錯的概率更是比OpenAI o3低了 80%

2

地表最強編程能力

研發(fā)人員表示,GPT-5堪稱目前最出色的編程模型。有這樣一個實例:研發(fā)人員指令GPT-5搭建一個用于學(xué)習(xí)法語的網(wǎng)絡(luò)應(yīng)用,并要求在其中嵌入一款教育游戲。僅僅約兩分鐘過后,GPT-5就生成了一個功能完備的應(yīng)用,涵蓋了標簽、抽認卡、測試等功能,還成功嵌入了一款貪吃蛇游戲。

為更充分地展示GPT-5在生產(chǎn)場景中的編程實力,OpenAI特意邀請了知名AI編程創(chuàng)業(yè)公司Cursor的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Michael Truell進行現(xiàn)場演示。Truell打開OpenAI API GitHub頁面上的一個待修復(fù)問題(PR),該問題歷經(jīng)3周仍未得到解決,可見其修復(fù)難度不小。

此外,OpenAI在官網(wǎng)分享了更多GPT-5的編程案例。其開發(fā)出的小游戲不僅畫面精致,游戲機制也十分合理。而且,GPT-5還能按照用戶指令,打造出Lofi視覺化效果器。從官方展示的Demo來看,GPT-5的前端能力相較于OpenAI此前的模型有了顯著提升。

3

測試成績十分優(yōu)異

多項基準測試中,GPT-5超過了OpenAI o3、GPT-4o等OpenAI最強大的模型,在數(shù)學(xué)、編碼、視覺感知和健康方面表現(xiàn)尤其出色。憑借GPT-5-pro的擴展推理,該模型還在科學(xué)知識基準測試GPQA上獲得了新的SOTA,無需工具即可得分88.4%。

三、數(shù)據(jù)狂飆下的冷思考

GPT-5的發(fā)布,歸根結(jié)底來說沒有顛覆性的“新能力”,甚至沒有AGI的承諾,連奧特曼這樣的營銷大師也變得務(wù)實起來了——這場曾被營銷造勢到“改變游戲規(guī)則”的發(fā)布會,最終交出了一份“產(chǎn)品化升級”的答卷。這背后,是AI行業(yè)從“狂飆時代”向“平凡時代”轉(zhuǎn)場的信號,也迫使我們重新審視:當(dāng)數(shù)據(jù)性能的“狂飆”逐漸放緩,我們究竟該為何種“進步”買單?

技術(shù):從“顛覆”到“迭代”,增長的天花板若隱若現(xiàn)

GPT-5的“小步快跑”,本質(zhì)上是技術(shù)瓶頸的顯化。材料中提到的參數(shù)Scaling Law(規(guī)模定律)放緩、評估基準接近飽和(“高中生做初中題”),揭示了一個殘酷現(xiàn)實:過去靠算力堆疊、數(shù)據(jù)投喂就能快速提升的“紅利期”已近尾聲。即使投入10倍算力強化學(xué)習(xí)的Grok-4,也未帶來顛覆性體驗;而GPT-5的“更穩(wěn)”,更像是對現(xiàn)有能力的查漏補缺——解決卡頓、優(yōu)化成本,而非突破認知邊界。

這種放緩并非偶然。當(dāng)模型在通用任務(wù)中普遍達到90%以上的準確率,評估體系的“天花板”便開始顯現(xiàn):現(xiàn)有的測試集已無法有效衡量模型的“真實智能”,技術(shù)的“邊際效益”逐漸遞減。正如行業(yè)人士所言:“我們不再需要‘能寫詩的AI’,而是需要‘能精準診斷癌癥、設(shè)計無缺陷芯片’的AI。”但后者所需的,是跨學(xué)科知識融合、邏輯推理的深度突破,而非單純的參數(shù)擴張。

未來:從“狂飆”到“深耕”,AGI需要的是“耐心”而非“神話”

GPT-5的發(fā)布,也讓“AGI(通用人工智能)何時到來”的討論回歸理性。過去幾年,公眾被“AI將取代人類”“兩年內(nèi)實現(xiàn)AGI”的預(yù)言包圍,但現(xiàn)實是,即使參數(shù)規(guī)模突破萬億,模型仍在“知其然不知其所以然”的階段——無法真正理解因果、缺乏常識推理、難以遷移復(fù)雜場景。這些“硬傷”的解決,需要的不是單純的算力疊加,而是架構(gòu)創(chuàng)新(如類腦計算)、訓(xùn)練方法革命(如具身學(xué)習(xí))、甚至認知科學(xué)的突破。

AI行業(yè)的下一輪突破,可能需要跳出“數(shù)據(jù)-模型-應(yīng)用”的線性思維,轉(zhuǎn)向多學(xué)科交叉的“深水區(qū)”。這既需要技術(shù)工作者的耐心,也需要公眾的理解:AGI不是“必然到來的終點”,而是一條充滿未知的長路;數(shù)據(jù)性能的“狂飆”終會過去,但對“有用、可靠、安全”AI的追求,才是行業(yè)永恒的主題。

分享到

lixiangjing

算力豹主編

相關(guān)推薦