從總成績(jī)來(lái)看,元寶在文科考試中拿下首先,獲得667. 5 分的高分,以 2024 年遼寧省高考錄取分?jǐn)?shù)線為參考,已經(jīng)可以沖刺“清北”。緊隨其后的豆包、訊飛星火拿下來(lái) 655 分和 652 分的高分,也可以輕松就讀 985 先進(jìn)院校。
而在理科考試中,和往年一樣,理科成績(jī)會(huì)整體會(huì)弱于文科。拿到首先的豆包獲得了 635 分,緊隨其后元寶和kimi拿到了632. 5 分和 629 分,都可以沖刺985。但對(duì)比文科,無(wú)緣先進(jìn)大學(xué)。
具體來(lái)看,語(yǔ)數(shù)英三門主科中,豆包拿下了語(yǔ)文首先,緊隨其后元寶、kimi拿下了并列第二。各家在語(yǔ)文主觀題上都表現(xiàn)比較平均,而豆包、元寶、kimi在作文上都拿到了50+的高分,使整體成績(jī)更佳。數(shù)學(xué)測(cè)試則是由元寶拿下了首先,獲得了 149 分的高分。只在最后一道解答題中,因答題過(guò)程稍不完整,遺憾丟失 1 分。在英語(yǔ)測(cè)試中,各家大模型在主觀題都表現(xiàn)的比較平均,都能拿到滿分,差異主要出現(xiàn)在英語(yǔ)作文。
大模型在文綜方面也都表現(xiàn)不錯(cuò)。對(duì)于文綜的客觀題,表現(xiàn)好一些的大模型,如元寶、豆包能拿到接近滿分,這也體現(xiàn)了大模型在知識(shí)理解和覆蓋上較為出色。但在主觀題中,文綜對(duì)于解答題的“得分點(diǎn)”有比較高的要求,而大模型似乎對(duì)此不那么熟悉。比如地理解答題對(duì)知識(shí)點(diǎn)和推導(dǎo)過(guò)程要求嚴(yán)格,大模型可以給出最終答案,但會(huì)缺少1- 2 個(gè)知識(shí)點(diǎn)的推導(dǎo)。而在政治題上,則更加要求知識(shí)點(diǎn)的完整性,在閱讀題的部分,大模型經(jīng)常會(huì)遺漏部分知識(shí)點(diǎn)導(dǎo)致失分。閱卷老師也特別提到,元寶正是對(duì)這些“得分點(diǎn)”把握的比較準(zhǔn)確,拿到了更好的成績(jī)。
而在理綜方面,大模型在數(shù)學(xué)邏輯推理上還存在一定短板,另外理科試題存在比較多圖像、符號(hào),大模型對(duì)這部分內(nèi)容理解不足,也會(huì)導(dǎo)致整體偏弱。閱卷老師提到,比如物理答卷中,針對(duì)解答題,大模型大多能匹配到正確的公式,但在計(jì)算過(guò)程中也會(huì)出現(xiàn)不同程度的問題,導(dǎo)致答案偏離。而在化學(xué)考試的填空題中,往往一道大題會(huì)包含5- 6 個(gè)小題,各家大模型都沒法在這類題型中拿到滿分。生物題也同樣出現(xiàn)這樣的狀況。
但總體來(lái)看,對(duì)比去年大模型比較嚴(yán)重的“偏科”情況,成績(jī)只能達(dá)到“文科能上一本,理科只能上二本”的水平。今年大模型整體的能力有很大的提升,不僅在文科上能沖刺清北,理科上 985 也不是問題。這也源于過(guò)去一年人工智能領(lǐng)域、以及國(guó)產(chǎn)大模型的飛速發(fā)展。
相信在未來(lái),發(fā)展速度會(huì)越來(lái)越快,也期待看到模型不僅不再“偏科”、在分?jǐn)?shù)上有跨躍性的進(jìn)步,還能實(shí)際運(yùn)用到各個(gè)學(xué)科發(fā)展上,攻克更多挑戰(zhàn)。