近日,浪潮信息發(fā)布 “源”Yuan-EB(Yuan-embedding-1.0,嵌入模型),在C-MTEB榜單中斬獲檢索任務第一名,以78.41的平均精度刷新大模型RAG檢索最高成績,將基于元腦企智EPAI為構(gòu)建企業(yè)知識庫提供更高效、精準的知識向量化能力支撐,助力用戶使用領先的RAG技術加速企業(yè)知識資產(chǎn)的價值釋放。
Yuan-EB(版本號Yuan-embedding-1.0)是專為增強中文文本檢索能力而設計的嵌入模型(也稱Embedding模型),在 “源2.0”大模型的工作基礎上,創(chuàng)新性地采用了“源2.0-M32”大模型進行數(shù)據(jù)重寫與合成,并通過索引技術、樣本排序等系列方法完成高質(zhì)量微調(diào)數(shù)據(jù)集構(gòu)建,能夠有效提升RAG系統(tǒng)的檢索精度。
C-MTEB是目前業(yè)內(nèi)最權(quán)威的嵌入模型測試榜單。其中,檢索任務(Retrieval)是檢索增強生成(RAG)場景下最為重要、應用最廣泛的任務能力,考察的是Embedding模型從大量的數(shù)據(jù)集中找到并返回與給定查詢最相關或最匹配的信息的過程?!霸础盰uan-EB基于該任務提供的醫(yī)療、新聞、電商、娛樂等8個中文文本數(shù)據(jù)集,實現(xiàn)了業(yè)界領先的海量文本檢索精度。
“源”Yuan-EB 助力RAG檢索精度新高
嵌入模型在RAG流程中扮演著關鍵角色,它能夠?qū)碗s的高維數(shù)據(jù)(例如文本、圖像或音頻)轉(zhuǎn)換為機器可理解的向量形式,直接決定了RAG檢索的精準性和效率。
“源”Yuan-EB通過數(shù)據(jù)準備與模型微調(diào)兩個方面的技術創(chuàng)新,實現(xiàn)了模型精度的大幅提升:
在數(shù)據(jù)方面,基于“源2.0”微調(diào)階段的問答數(shù)據(jù)進行清洗與篩選,構(gòu)建問題(query)與文本(corpus)數(shù)據(jù)集;使用“源2.0-M32”對C-MTEB訓練數(shù)據(jù)進行重寫與合成,通過索引技術與排序模型進行高效的難負樣本提取,完成大規(guī)模難負例樣本挖掘,形成高質(zhì)量微調(diào)數(shù)據(jù)集。
在微調(diào)方面,通過兩個階段的領先微調(diào)方法實現(xiàn)模型能力提升。第一階段,使用各個領域(醫(yī)療、新聞、長文本、娛樂等方向)的大規(guī)模數(shù)據(jù)進行對比學習訓練;第二階段,采用“源2.0-M32”生成的合成數(shù)據(jù)進一步微調(diào),并使用MRL方法完成“源”Yuan-EB訓練。
“源”Yuan-EB為用戶提供了大模型企業(yè)知識庫應用開發(fā)的最優(yōu)模型選擇,能夠在RAG流程的多個方面起到顯著的精度提升,包括信息檢索的準確性、處理大規(guī)模數(shù)據(jù)的效率、消除語義歧義、降低計算成本、增強對長文檔的處理能力以及模型魯棒性等,最大化提升RAG流程的整體性能和應用效果。
RAG檢索技術解析
RAG檢索即檢索增強生成(Retrieval-Augmented Generation),它將信息檢索與文本生成相結(jié)合。其核心思想是在生成文本時,不僅依靠模型自身的參數(shù)化知識,還通過檢索外部知識源來獲取更準確、更豐富的信息,從而生成更符合用戶需求和更具質(zhì)量的文本內(nèi)容。
技術流程
檢索階段:當接收到用戶輸入的查詢請求時,系統(tǒng)首先會在預構(gòu)建的知識庫中進行檢索。這個知識庫可以是大規(guī)模的文本數(shù)據(jù)庫、文檔集合等。檢索過程通常使用各種信息檢索技術,如向量空間模型、倒排索引等,以找到與查詢請求相關的候選文檔或信息片段。
生成階段:在獲取到相關的檢索結(jié)果后,將這些結(jié)果作為額外的輸入信息提供給大模型。大模型會綜合自身的語言理解和生成能力以及檢索到的外部知識,生成最終的文本響應。
關鍵技術
嵌入表示學習:為了能夠有效地在知識庫中進行檢索,需要將文本轉(zhuǎn)換為向量空間中的嵌入表示。常用的方法包括詞向量模型、Transformer架構(gòu)中的編碼器等,通過將文本映射為低維向量,使得語義相近的文本在向量空間中距離相近,從而便于檢索。
檢索算法優(yōu)化:高效的檢索算法是RAG檢索的關鍵。除了傳統(tǒng)的檢索算法外,近年來還出現(xiàn)了基于深度學習的檢索方法,如神經(jīng)排序模型等,能夠更好地捕捉文本之間的語義相關性,提高檢索的準確性和效率。
融合機制設計:如何將檢索到的知識與大模型的生成過程進行有效的融合也是一個重要的研究方向。常見的融合機制包括注意力機制、門控機制等,通過這些機制可以動態(tài)地控制檢索知識在生成過程中的參與程度,使生成的文本更加自然流暢且符合邏輯。
RAG檢索應用領域廣泛
智能客服:在客戶服務領域,RAG檢索技術被廣泛應用于智能客服系統(tǒng)中。通過檢索知識庫中的常見問題解答、產(chǎn)品信息等,智能客服能夠更準確地回答用戶的咨詢,提高客戶滿意度。例如,許多電商企業(yè)的智能客服利用RAG檢索為用戶提供關于商品詳情、訂單狀態(tài)等方面的快速查詢和解答。
內(nèi)容生成:在新聞報道、文案創(chuàng)作等內(nèi)容生成領域,RAG檢索能夠幫助作者快速獲取相關的背景知識和資料,從而提高創(chuàng)作效率和質(zhì)量。一些新媒體平臺利用RAG檢索為創(chuàng)作者提供素材和靈感,輔助生成更具吸引力和深度的內(nèi)容。
智能問答系統(tǒng):類似于智能客服,但更側(cè)重于一般性知識的問答。如百度知道、知乎等問答平臺,借助RAG檢索技術可以更好地理解用戶問題,并從海量的知識中檢索出最相關的答案,為用戶提供更有價值的信息。
RAG檢索技術的挑戰(zhàn)與機遇
盡管RAG檢索技術取得了顯著進展,但仍面臨一些挑戰(zhàn)。
其中包括知識庫的構(gòu)建和維護成本較高,需要大量的人力和物力來收集、整理和更新知識;檢索結(jié)果的準確性和相關性還有待進一步提高,尤其是在處理復雜、模糊的查詢請求時;以及如何保護知識庫中的數(shù)據(jù)隱私和安全等問題。
隨著人工智能技術的不斷創(chuàng)新和應用場景的不斷拓展,RAG檢索技術也迎來了諸多機遇。例如,預訓練語言模型的不斷發(fā)展為RAG檢索提供了更強大的語言理解和生成能力基礎;多模態(tài)技術的融合將使RAG檢索能夠處理更豐富的信息類型,進一步拓展其應用范圍;此外,邊緣計算和分布式技術的發(fā)展也將為RAG檢索在資源受限的設備和場景中的應用提供支持。
結(jié)語
大模型RAG檢索技術作為人工智能領域的重要組成部分,在提升大模型性能和拓展應用場景方面具有重要意義。
從市場現(xiàn)狀來看,RAG檢索技術在多個領域得到了廣泛應用,市場需求持續(xù)增長,競爭格局日趨激烈。盡管面臨一些挑戰(zhàn),但隨著技術的不斷進步和創(chuàng)新,RAG檢索技術有望在未來實現(xiàn)更大的突破和發(fā)展,為人工智能的廣泛應用提供更有力的支持,推動各行業(yè)的智能化升級。
相關鏈接:
Hugging Face C-MTEB榜單
https://huggingface.co/spaces/mteb/leaderboard
Yuan-embedding-1.0模型開源地址
HuggingFace鏈接:https://huggingface.co/IEITYuan/Yuan-embedding-1.0
ModelScop鏈接:https://modelscope.cn/models/IEITYuan/Yuan-embedding-1.0
始智AI鏈接:https://modelscope.cn/models/IEITYuan/Yuan-embedding-1.0