成人性做爰aaa片免费,最近最新中文字幕完整版免费高清

圖1 本次開源行業(yè)數據量與其他開源數據量的部分對比（GB）

IndustryCorpus 1.0覆蓋了18類行業(yè)的預訓練數據集，其中科技類334GB，法律類275GB，醫(yī)學類189GB，金融類198GB，新聞類564GB。除此之外，還包含教育、旅游、體育、汽車等，未來將進一步擴展至30類行業(yè)。同步發(fā)布的還有醫(yī)療和教育兩個領域的指令微調數據集。IndustryCorpus 1.0的發(fā)布，有望大幅提升模型在專業(yè)領域的知識性，助力大模型的行業(yè)落地應用。

圖2 本次開源行業(yè)數據集按行業(yè)分布情況

為驗證行業(yè)數據集應用效果，智源選取醫(yī)療行業(yè)數據集進行示范模型訓練。智源基于Aquila通用模型完成繼續(xù)預訓練、SFT訓練和RLHF訓練，取得了優(yōu)異的模型行業(yè)能力提升。對比繼續(xù)預訓練前的模型，在客觀指標方面，采用醫(yī)療行業(yè)數據集經過繼續(xù)預訓練、SFT和DPO之后的示范醫(yī)療模型總體醫(yī)療能力提升20.1%（見圖3）。在主觀評測方面，在經過醫(yī)療行業(yè)SFT數據和DPO數據的訓練后，示范醫(yī)療對話模型能力勝率達到82.2%，5分制多輪對話能力CMTMedQA評分達到4.45（見圖4）。綜上，行業(yè)數據集在一定程度上解決了用戶行業(yè)數據獲取難、訓練效果不佳的難題。

圖3 客觀指標方面，采用醫(yī)療行業(yè)預訓練數據集繼續(xù)預訓練、SFT和DPO之后的示范醫(yī)療模型總體醫(yī)療能力提升20.1%

圖4 主觀評測方面，經過醫(yī)療行業(yè)SFT數據和DPO數據訓練后，示范醫(yī)療對話模型能力勝率達到82.2%

2、啟動千萬級指令微調數據集 InfinityInstruct 的開源項目

高質量的指令數據是大模型性能的“養(yǎng)料”。本次論壇上，智源研究院發(fā)布的千萬級高質量指令微調數據集開源項目，包括基于開源數據集進行高質量篩選的數據，和通過數據合成方法構造的高質量指令數據。智源對現有開源數據進行領域分析確保合理類型分布，對大規(guī)模數據進行質量篩選保留高價值數據，針對開源數據缺乏的領域和任務，進行數據增廣，并結合人工標注對數據質量進行控制，避免合成數據分布偏差。本次大會開源首批300萬條經過模型驗證的高質量中英文指令數據InfInstruct-3M，并將在未來一個月內完成 InfinityInstruct 千萬條指令數據的全部驗證和開源。為了驗證InfInstruct-3M的質量，我們在Mistral-7B上面進行微調訓練得到對話模型InfInstruct-3M-Mistral-7B。在ApacheEval的評測中，該模型明顯優(yōu)于其它同量級的對話模型（見圖5）。這意味著，用戶可以使用InfInstruct數據集，再加以自有應用數據，對基礎模型進行微調，輕松獲得專有的高質量中英雙語對話模型。

圖5 使用ApacheEval評測對比多個對話模型的能力

3、構建通用數據集和行業(yè)數據集兩大專區(qū)，滿足用戶不同需求

今年以來，智源匯聚了海量可直接用于算法訓練的通用數據集和行業(yè)數據集。本次論壇上，智源發(fā)布通用數據集和行業(yè)數據集兩大專區(qū)。

通用數據集為用于通用基礎模型訓練的多種模態(tài)數據。當前已經匯聚在數據運營平臺的通用數據集有116個，總數據量700.27TB，其中文本數據9.76TB，多模態(tài)圖文數據量75.31TB，視頻數據量615TB，音頻數據0.2TB。

行業(yè)數據集包含了行業(yè)領域特有的知識和信息，用于訓練各種行業(yè)模型，推動人工智能從通用向專業(yè)化、精細化持續(xù)發(fā)展。目前行業(yè)專區(qū)數據集28個，數據量4.33TB，其中文本數據集22個，數據量4.3TB，多模態(tài)圖文行業(yè)數據集6個，數據量0.03TB。

4、全面升級數據處理工具FlagData3.0，助力數據高質量發(fā)展

數據質量直接決定了大模型的輸出能力，使用數據處理工具不斷提升數據質量變得日益重要。智源研究院長期投入數據建設工作，開發(fā)了一批數據處理的高效工具。FlagData數據工具·開源項目包含清洗、標注、壓縮、統(tǒng)計分析等功能在內的多個數據處理工具與算法，為提升數據質量帶來直接的便利。

本次論壇上，FlagaData2.0全面升級為FlagData 3.0，一方面提供了傻瓜式語言數據處理工具，支持一鍵式搭建數據處理工作流。另一方面，為專業(yè)的進階用戶提供數十種數據加工算子，支持自定義數據處理流程。

三、“行業(yè)數據集—場景應用創(chuàng)新計劃”啟動，加速千行百業(yè)大模型落地

為推動人工智能在各行業(yè)深入應用、為大模型行業(yè)落地提供數據支撐，本次論壇上，智源研究院和中國互聯網協(xié)會、中國互聯網協(xié)會人工智能工作委員會聯合發(fā)布“行業(yè)數據集—場景應用創(chuàng)新計劃”。向全國企業(yè)征集場景應用模型需求，定向提供高質量行業(yè)數據集，助力一批場景應用模型的創(chuàng)新。最后，將依據模型應用成果組織評選優(yōu)秀案例。

同時，該計劃還將開展“行業(yè)數據愿望清單”征集項目，旨在調研和收集更多的人工智能行業(yè)數據集需求，以推動打造更多高需求的數據集，通過北京人工智能數據運營平臺向社會提供。

分享到

人工智能

nina

相關推薦

近期文章

熱門標簽