圖1 本次開源行業(yè)數據量與其他開源數據量的部分對比(GB)
IndustryCorpus 1.0覆蓋了18類行業(yè)的預訓練數據集,其中科技類334GB,法律類275GB,醫(yī)學類189GB,金融類198GB,新聞類564GB。除此之外,還包含教育、旅游、體育、汽車等,未來將進一步擴展至30類行業(yè)。同步發(fā)布的還有醫(yī)療和教育兩個領域的指令微調數據集。IndustryCorpus 1.0的發(fā)布,有望大幅提升模型在專業(yè)領域的知識性,助力大模型的行業(yè)落地應用。
圖2 本次開源行業(yè)數據集按行業(yè)分布情況
為驗證行業(yè)數據集應用效果,智源選取醫(yī)療行業(yè)數據集進行示范模型訓練。智源基于Aquila通用模型完成繼續(xù)預訓練、SFT訓練和RLHF訓練,取得了優(yōu)異的模型行業(yè)能力提升。對比繼續(xù)預訓練前的模型,在客觀指標方面,采用醫(yī)療行業(yè)數據集經過繼續(xù)預訓練、SFT和DPO之后的示范醫(yī)療模型總體醫(yī)療能力提升20.1%(見圖3)。在主觀評測方面,在經過醫(yī)療行業(yè)SFT數據和DPO數據的訓練后,示范醫(yī)療對話模型能力勝率達到82.2%,5分制多輪對話能力CMTMedQA評分達到4.45(見圖4)。綜上,行業(yè)數據集在一定程度上解決了用戶行業(yè)數據獲取難、訓練效果不佳的難題。
圖3 客觀指標方面,采用醫(yī)療行業(yè)預訓練數據集繼續(xù)預訓練、SFT和DPO之后的示范醫(yī)療模型總體醫(yī)療能力提升20.1%
圖4 主觀評測方面,經過醫(yī)療行業(yè)SFT數據和DPO數據訓練后,示范醫(yī)療對話模型能力勝率達到82.2%
2、啟動千萬級指令微調數據集 InfinityInstruct 的開源項目
高質量的指令數據是大模型性能的“養(yǎng)料”。本次論壇上,智源研究院發(fā)布的千萬級高質量指令微調數據集開源項目,包括基于開源數據集進行高質量篩選的數據,和通過數據合成方法構造的高質量指令數據。智源對現有開源數據進行領域分析確保合理類型分布,對大規(guī)模數據進行質量篩選保留高價值數據,針對開源數據缺乏的領域和任務,進行數據增廣,并結合人工標注對數據質量進行控制,避免合成數據分布偏差。本次大會開源首批300萬條經過模型驗證的高質量中英文指令數據InfInstruct-3M,并將在未來一個月內完成 InfinityInstruct 千萬條指令數據的全部驗證和開源。為了驗證InfInstruct-3M的質量,我們在Mistral-7B上面進行微調訓練得到對話模型InfInstruct-3M-Mistral-7B。在ApacheEval的評測中,該模型明顯優(yōu)于其它同量級的對話模型(見圖5)。這意味著,用戶可以使用InfInstruct數據集,再加以自有應用數據,對基礎模型進行微調,輕松獲得專有的高質量中英雙語對話模型。
圖5 使用ApacheEval評測對比多個對話模型的能力
3、構建通用數據集和行業(yè)數據集兩大專區(qū),滿足用戶不同需求
今年以來,智源匯聚了海量可直接用于算法訓練的通用數據集和行業(yè)數據集。本次論壇上,智源發(fā)布通用數據集和行業(yè)數據集兩大專區(qū)。
通用數據集為用于通用基礎模型訓練的多種模態(tài)數據。當前已經匯聚在數據運營平臺的通用數據集有116個,總數據量700.27TB,其中文本數據9.76TB,多模態(tài)圖文數據量75.31TB,視頻數據量615TB,音頻數據0.2TB。
行業(yè)數據集包含了行業(yè)領域特有的知識和信息,用于訓練各種行業(yè)模型,推動人工智能從通用向專業(yè)化、精細化持續(xù)發(fā)展。目前行業(yè)專區(qū)數據集28個,數據量4.33TB,其中文本數據集22個,數據量4.3TB,多模態(tài)圖文行業(yè)數據集6個,數據量0.03TB。
4、全面升級數據處理工具FlagData3.0,助力數據高質量發(fā)展
數據質量直接決定了大模型的輸出能力,使用數據處理工具不斷提升數據質量變得日益重要。智源研究院長期投入數據建設工作,開發(fā)了一批數據處理的高效工具。FlagData數據工具·開源項目包含清洗、標注、壓縮、統(tǒng)計分析等功能在內的多個數據處理工具與算法,為提升數據質量帶來直接的便利。
本次論壇上,FlagaData2.0全面升級為FlagData 3.0,一方面提供了傻瓜式語言數據處理工具,支持一鍵式搭建數據處理工作流。另一方面,為專業(yè)的進階用戶提供數十種數據加工算子,支持自定義數據處理流程。
三、“行業(yè)數據集—場景應用創(chuàng)新計劃”啟動,加速千行百業(yè)大模型落地
為推動人工智能在各行業(yè)深入應用、為大模型行業(yè)落地提供數據支撐,本次論壇上,智源研究院和中國互聯網協(xié)會、中國互聯網協(xié)會人工智能工作委員會聯合發(fā)布“行業(yè)數據集—場景應用創(chuàng)新計劃”。向全國企業(yè)征集場景應用模型需求,定向提供高質量行業(yè)數據集,助力一批場景應用模型的創(chuàng)新。最后,將依據模型應用成果組織評選優(yōu)秀案例。
同時,該計劃還將開展“行業(yè)數據愿望清單”征集項目,旨在調研和收集更多的人工智能行業(yè)數據集需求,以推動打造更多高需求的數據集,通過北京人工智能數據運營平臺向社會提供。