RAG應用開發實戰02-相似性檢索的關鍵 - Embedding

原創

2024-04-15 01:07

1 文本Embedding

將整個文本轉化爲實數向量的技術。

Embedding優點是可將離散的詞語或句子轉化爲連續的向量，就可用數學方法來處理詞語或句子，捕捉到文本的語義信息，文本和文本的關係信息。

◉ 優質的Embedding通常會讓語義相似的文本在空間中彼此接近

◉ 優質的Embedding相似的語義關係可以通過向量的算術運算來表示：

2 文本Embedding模型的演進與選型

目前的向量模型從單純的基於 NLI 數據集（對稱數據集）發展到基於混合數據（對稱+非對稱）進行訓練，即可以做 QQ召回任務也能夠做 QD 召回任務，通過添加 Instruction 來區分這兩類任務，只有在進行 QD 召回的時候，需要對用戶 query 添加上 Instruction 前綴。

3 VDB通用Embedding模型

模型選擇：

GPU資源：

4 VDB垂類Embedding模型

用戶提供垂類文檔數據，VDB對模型進行微調，助力垂類應用效果更進一步。

優化1：對比學習拉近同義文本的距離，推遠不同文本的距離

優化2：短文本匹配和長文本匹配使用不同prompt，提升非對稱類文本效果

優化3：預訓練階段提升基座模型面向檢索的能力，對比學習階段提高負樣本數

5 存儲、檢索向量數據

5.1 爲啥需要一個專用的向量數據庫

查詢方式與傳統數據庫存在區別
簡單易用，無需關心細節
爲相似性檢索設計，天生性能優勢

5.2 騰訊雲向量數據庫的優勢

“首家”：

通過信通院的標準化性能和規模測試
支持千億級向量規模和最高500W QPS

自研：

內核源自集團自研OLAMA引擎
內部已有**40+**業務接入

性價比：

性能領先業內平均水平1.5倍
同時客戶成本降低20%

6 VDB優勢

流程簡化

模型簡化：

共享GPU集羣：

7 騰訊雲向量數據庫：消除大模型幻覺，加速大模型在企業落地

7.1 端到端AI套件，AGI時代的知識庫解決方案

提供一站式知識檢索方案，實現業界內最高召回率、大幅降低開發門檻，幫助企業快速搭建RAG應用，解決大模型幻覺問題。

7.2 源自集團多年積累，產品能力行業領先

源自騰訊自研向量檢索引擎OLAMA，集團內部40+業務線上使用，日均處理1600億次檢索請求。

『首家』通過中國信通院向量數據庫標準測試
單索引支持最高千億級超大數據規模
單實例最高可達500萬 QPS

本文由博客一文多發平臺 OpenWrite 發佈！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

RAG應用開發實戰02-相似性檢索的關鍵 - Embedding

1 文本Embedding

2 文本Embedding模型的演進與選型

3 VDB通用Embedding模型

GPU資源：

4 VDB垂類Embedding模型

5 存儲、檢索向量數據

5.1 爲啥需要一個專用的向量數據庫

5.2 騰訊雲向量數據庫的優勢

6 VDB優勢

流程簡化

7 騰訊雲向量數據庫：消除大模型幻覺，加速大模型在企業落地

7.1 端到端AI套件，AGI時代的知識庫解決方案

7.2 源自集團多年積累，產品能力行業領先

今天，昨天，近七天，近30天，近90天，js封裝

validate 驗證

Python爬蟲技術與數據可視化：Numpy、pandas、Matplotlib的黃金組合

ArkTS開發原生鴻蒙HarmonyOS短視頻應用

安全策略增量加速之對象

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結