1 文本Embedding
將整個文本轉化爲實數向量的技術。
Embedding優點是可將離散的詞語或句子轉化爲連續的向量,就可用數學方法來處理詞語或句子,捕捉到文本的語義信息,文本和文本的關係信息。
◉ 優質的Embedding通常會讓語義相似的文本在空間中彼此接近
◉ 優質的Embedding相似的語義關係可以通過向量的算術運算來表示:
2 文本Embedding模型的演進與選型
目前的向量模型從單純的基於 NLI 數據集(對稱數據集)發展到基於混合數據(對稱+非對稱)進行訓練,即可以做 QQ召回任務也能夠做 QD 召回任務,通過添加 Instruction 來區分這兩類任務,只有在進行 QD 召回的時候,需要對用戶 query 添加上 Instruction 前綴。
3 VDB通用Embedding模型
模型選擇:
GPU資源:
4 VDB垂類Embedding模型
用戶提供垂類文檔數據,VDB對模型進行微調,助力垂類應用效果更進一步。
優化1:對比學習拉近同義文本的距離,推遠不同文本的距離
優化2:短文本匹配和長文本匹配使用不同prompt,提升非對稱類文本效果
優化3:預訓練階段提升基座模型面向檢索的能力,對比學習階段提高負樣本數
5 存儲、檢索向量數據
5.1 爲啥需要一個專用的向量數據庫
- 查詢方式與傳統數據庫存在區別
- 簡單易用,無需關心細節
- 爲相似性檢索設計,天生性能優勢
5.2 騰訊雲向量數據庫的優勢
“首家”:
- 通過信通院的標準化性能和規模測試
- 支持千億級向量規模和最高500W QPS
自研:
- 內核源自集團自研OLAMA引擎
- 內部已有**40+**業務接入
性價比:
- 性能領先業內平均水平1.5倍
- 同時客戶成本降低20%
6 VDB優勢
流程簡化
模型簡化:
共享GPU集羣:
7 騰訊雲向量數據庫:消除大模型幻覺,加速大模型在企業落地
7.1 端到端AI套件,AGI時代的知識庫解決方案
提供一站式知識檢索方案,實現業界內最高召回率、大幅降低開發門檻,幫助企業快速搭建RAG應用,解決大模型幻覺問題。
7.2 源自集團多年積累,產品能力行業領先
源自騰訊自研向量檢索引擎OLAMA,集團內部40+業務線上使用,日均處理1600億次檢索請求。
- 『首家』通過中國信通院向量數據庫標準測試
- 單索引支持最高千億級超大數據規模
- 單實例最高可達500萬 QPS
本文由博客一文多發平臺 OpenWrite 發佈!