大模型必備 - 中文最佳向量模型 acge_text_embedding

近期,上海合合信息科技股份有限公司發佈的文本向量化模型 acge_text_embedding 在中文文本向量化領域取得了重大突破,榮獲 Massive Text Embedding Benchmark (MTEB) 中文榜單(C-MTEB)第一名的成績。這一成就標誌着該模型將在大模型領域的應用中發揮更加迅速和廣泛的影響。

file

MTEB概述

假設你需要了解如何在家中自制咖啡,可能會在搜索引擎中輸入‘家庭咖啡製作方法’。如果沒有Embedding模型,傳統的引擎會簡單地匹配包含關鍵詞的文章,提供一些表面相關的內容而非實用的指南。”團隊成員提到,藉助Embedding模型,引擎便能更準確地理解用戶意圖,從而提供包括但不限於選擇咖啡豆、磨豆技巧、不同的沖泡方法等更專業的內容。

file

Text Embeddings 文本嵌入是一種將文本轉化爲包含語義信息的向量表示,因爲機器處理信息需要數值輸入,因此文本嵌入在許多自然語言處理(NLP)應用中起着至關重要的作用。例如,谷歌就利用文本嵌入來提升其搜索引擎的效能。此外,文本嵌入也可以用於通過聚類發現大量文本中的模式,或作爲文本分類模型的輸入。然而,文本嵌入的質量高度依賴於所使用的嵌入模型。

爲此,Massive Text Embedding Benchmark(MTEB)旨在幫助用戶在多種任務中找到最佳的嵌入模型。

file

MTEB具備以下特點:

  • 🐋 廣泛性:MTEB包含8個任務領域的56個數據集,並在排行榜上總結了超過2000個結果。
  • 🌎 多語言支持:MTEB涵蓋高達112種不同語言,並對多種多語言模型進行了比特挖掘、分類和語義文本相似度(STS)任務的基準測試。
  • 🦚 可擴展性:無論是新增任務、數據集、評價指標還是排行榜更新,MTEB都非常歡迎任何貢獻。

MTEB榜單

在MTEB的初步基準測試中,關注了以下特點。

  • 🏎 最高速度:如Glove這類模型提供高速處理能力,但由於缺乏上下文意識,通常在MTEB上的平均得分較低。
  • ⚖️ 速度與性能平衡:雖然速度略慢,但性能明顯更強,如 all-mpnet-base-v2 或 all-MiniLM-L6-v2,它們在速度和性能之間提供了良好的平衡。
  • 💪 最高性能:多億參數模型如 ST5-XXL、GTR-XXL 或 SGPT-5.8B-msmarco 在MTEB上表現卓越。這些模型往往也會產生較大的嵌入向量,例如SGPT-5.8B-msmarco 生成的4096維嵌入向量需要更多的存儲空間!

file

file

C-MTEB榜單

file
當前最全面的中文語義向量評測基準C-MTEB 開源,涵蓋6大類評測任務(檢索、排序、句子相似度、推理、分類、聚類),涉及31個相關數據集。
file
C-MTEB 是當前最大規模、最爲全面的中文語義向量評測基準,爲可靠、全面的測試中文語義向量的綜合表徵能力提供了實驗基礎。
file

合合信息acge_text_embedding排名C-MTEB榜單第一

acge模型來自於合合信息技術團隊,對外技術試用平臺TextIn.com。合合信息是行業領先的人工智能及大數據科技企業,致力於通過智能文字識別及商業大數據領域的核心技術、C端和B端產品以及行業解決方案爲全球企業和個人用戶提供創新的數字化、智能化服務。

file

acge是一個通用的文本編碼模型,是一個可變長度的向量化模型,使用了Matryoshka Representation Learning,如圖所示:
file

測試的時候因爲數據的隨機性、顯卡、推理的數據類型導致每次推理的結果不一致,總共測試了4次,不同的顯卡(A10 A100),不同的數據類型,測試結果放在了result文件夾中,選取了一個精度最低的測試作爲最終的精度測試。 根據infgrad的建議,選取不用的輸入的長度作爲測試,Sequence Length爲512時測試最佳。

file

相比於傳統的預訓練或微調垂直領域模型,acge模型支持在不同場景下構建通用分類模型、提升長文檔信息抽取精度,且應用成本相對較低,可幫助大模型在多個行業中快速創造價值,推動科技創新和產業升級,爲構建新質生產力提供強有力的技術支持。

具體實踐上,爲做好不同任務的針對性學習,團隊使用策略學習訓練方式,顯著提升了檢索、聚類、排序等任務上的性能;引入持續學習訓練方式,克服了神經網絡存在災難性遺忘的問題,使模型訓練迭代能夠達到相對優秀的收斂空間;運用MRL技術,實現一次訓練,獲取不同維度的表徵。

與目前C-MTEB榜單上排名前五的開源模型相比,合合信息本次發佈的acge模型較小,佔用資源少;模型輸入文本長度爲1024,滿足絕大部分場景的需求。此外,acge模型還支持可變輸出維度,讓企業能夠根據具體場景去合理分配資源。

合合信息acge_text_embedding集成實戰

在sentence-transformer庫中的使用方法:

from sentence_transformers import SentenceTransformer

sentences = ["數據1", "數據2"]
model = SentenceTransformer('acge_text_embedding')
print(model.max_seq_length)
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

合合信息TextIn.com

如果對該模型或智能文檔處理等技術感興趣,請訪問textin.com。

OCR服務大降價,單次調用僅需0.025元!合合TextIn平臺全線推出OCR雲服務優惠活動,享單次最低0.025元!包括文字識別、表格識別、證照識別、票據識別及驗真、PDF轉WORD及圖像處理等服務全線下調價格。詳情請電腦端進入textin.com市場中查看。

file

如有幫助,請多關注
TeahLead KrisChang,10+年的互聯網和人工智能從業經驗,10年+技術和業務團隊管理經驗,同濟軟件工程本科,復旦工程管理碩士,阿里雲認證雲服務資深架構師,上億營收AI產品業務負責人。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章