RAG應用開發實戰02-相似性檢索的關鍵 - Embedding

1 文本Embedding

將整個文本轉化爲實數向量的技術。

Embedding優點是可將離散的詞語或句子轉化爲連續的向量,就可用數學方法來處理詞語或句子,捕捉到文本的語義信息,文本和文本的關係信息。

◉ 優質的Embedding通常會讓語義相似的文本在空間中彼此接近

◉ 優質的Embedding相似的語義關係可以通過向量的算術運算來表示:

2 文本Embedding模型的演進與選型

目前的向量模型從單純的基於 NLI 數據集(對稱數據集)發展到基於混合數據(對稱+非對稱)進行訓練,即可以做 QQ召回任務也能夠做 QD 召回任務,通過添加 Instruction 來區分這兩類任務,只有在進行 QD 召回的時候,需要對用戶 query 添加上 Instruction 前綴。

3 VDB通用Embedding模型

模型選擇:

GPU資源:

4 VDB垂類Embedding模型

用戶提供垂類文檔數據,VDB對模型進行微調,助力垂類應用效果更進一步。

優化1:對比學習拉近同義文本的距離,推遠不同文本的距離

優化2:短文本匹配和長文本匹配使用不同prompt,提升非對稱類文本效果

優化3:預訓練階段提升基座模型面向檢索的能力,對比學習階段提高負樣本數

5 存儲、檢索向量數據

5.1 爲啥需要一個專用的向量數據庫

  1. 查詢方式與傳統數據庫存在區別
  2. 簡單易用,無需關心細節
  3. 爲相似性檢索設計,天生性能優勢

5.2 騰訊雲向量數據庫的優勢

“首家”:

  • 通過信通院的標準化性能和規模測試
  • 支持千億級向量規模和最高500W QPS

自研:

  • 內核源自集團自研OLAMA引擎
  • 內部已有**40+**業務接入

性價比:

  • 性能領先業內平均水平1.5
  • 同時客戶成本降低20%

6 VDB優勢

流程簡化

模型簡化:

共享GPU集羣:

7 騰訊雲向量數據庫:消除大模型幻覺,加速大模型在企業落地

7.1 端到端AI套件,AGI時代的知識庫解決方案

提供一站式知識檢索方案,實現業界內最高召回率、大幅降低開發門檻,幫助企業快速搭建RAG應用,解決大模型幻覺問題。

7.2 源自集團多年積累,產品能力行業領先

源自騰訊自研向量檢索引擎OLAMA,集團內部40+業務線上使用,日均處理1600億次檢索請求。

  • 『首家』通過中國信通院向量數據庫標準測試
  • 單索引支持最高千億級超大數據規模
  • 單實例最高可達500萬 QPS

本文由博客一文多發平臺 OpenWrite 發佈!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章