亚洲国产福利成人一区二区 ,伊人亚洲综合影院首页

司南 OpenCompass 是由上海人工智能實驗室研發(fā)的大模型評測體系平臺，OpenAI、阿里巴巴、智譜AI、Meta、零一萬物等百余個最主流的大模型均已加入評測，是最具國際影響力的中國權威第三方評測榜單。司南 OpenCompass 自建評測榜單每月一更，從語言、推理、知識、代碼、數學、指令跟隨、智能體等七大能力維度、十余項細分任務，對近期主流模型進行全面評測分析。

在2024年9月的司南 OpenCompass 榜單中，開源的Qwen2.5-72B以70.3分奪冠，首次超越Claude 3.5和GPT-4o等頂尖閉源模型。Qwen2.5-72B-Instruct在此次榜單的多項能力測評中均名列前茅。在代碼能力方面，Qwen2.5-72B-Instruct以74.2分奪冠，不僅能準確完成代碼編寫，還能詳細解釋代碼的功能和邏輯；在數學能力方面，Claude 3.5得分72.1，GPT-4o得分70.6，遠不及Qwen2.5-72B-Instruct獲得的77分成績。

司南 OpenCompass 評價稱，Qwen2.5的登頂，標志著開源社區(qū)在模型領域取得快速進展，以 Qwen 2.5等為代表的國產主流廠商模型，在經歷最新一輪技術迭代后，其性能有了顯著提升，與國際頂尖模型之間的差距正在快速縮小，展現了國產模型的強大競爭力。

早在9月底，Qwen2.5-72B-Instruct就沖進Chatbot Arena大模型盲測榜單前十，是前十中唯一的中國大模型。Qwen系列開原模型涵蓋多尺寸的大語言模型、多模態(tài)模型、數學模型和代碼模型，幾乎所有尺寸的模型都實現了同等規(guī)模的最佳性能。截至9月底，全球開發(fā)者基于Qwen系列二次開發(fā)的衍生模型數量也已突破7.43萬，超越Llama的7.28萬，成為全球最大的開源模型群。

（完）

分享到

xiesc

相關推薦

近期文章

熱門標簽