目錄
前言
騰訊雲向量數據庫(Tencent Cloud VectorDB)是一款專爲存儲、檢索和分析多維向量數據而設計的全託管式企業級分佈式數據庫服務。其獨特之處在於支持多種索引類型和相似度計算方法,擁有卓越的性能優勢,包括高QPS(每秒查詢率)、毫秒級查詢延遲,以及單索引支持數億級向量數據規模。通過簡單易用的可視化界面,用戶可以快速創建數據庫實例,進行數據操作,執行查詢操作,並配置嵌入式數據轉換,提供更廣泛的數據處理能力。該數據庫適用於多種場景,如構建大型知識庫、推薦系統、智能問答系統以及文本/圖像檢索任務,爲企業提供了強大的工具,助力各種應用場景下的高效數據管理和智能應用實現。
1 騰訊雲向量數據庫介紹
騰訊雲向量數據庫專用於存儲、檢索、分析多維向量數據。該數據庫支持多種索引類型和相似度計算方法,單索引支持幹億級向量規模,可支持五百萬OPS及毫秒級查詢延遲。騰訊雲向量數據庫,助您實現智能數據的快速、高效管理與應用。
騰訊雲向量數據庫具備以下幾大亮點:
高性能:持百萬級 QPS 及毫秒級查詢延遲
大規模:單索引支持 10 億級向量數據規模
高可用:提供多副本高可用特性,提高容災能力
低成本:全流程平臺託管,無需進行任何安裝、部署、運維操作
簡單易用:用戶通過 API 即可快速操作數據庫,開發效率高
穩定可靠:源自騰訊集團自研的向量檢索引擎 OLAMA,近 40 個業務線上穩定運行。
2 向量數據庫信息及設置
2.1 向量數據庫實例信息
顯示有關數據庫實例的關鍵詳細信息,例如實例 ID、地域、容量、配置等。
2.2 實例監控
實時或歷史性能指標和監控功能,允許用戶跟蹤數據庫使用情況、性能以及資源利用情況。
2.3 密鑰管理
管理訪問密鑰、身份驗證令牌或加密密鑰,以保護數據庫實例並控制訪問權限。
2.4 安全組
定義和管理安全規則和配置,包括網絡訪問控制列表(ACL)或防火牆設置,以保護數據庫實例。
2.5 Embedding
與嵌入式數據相關的配置,可能包括將非結構化數據轉換爲向量格式的設置,並在數據庫中管理這些嵌入式數據。
2.6 可視化界面
以圖形方式呈現數據庫實例的整體狀態、統計信息或其他數據,以用戶友好的方式展示信息,便於快速理解和決策。
3 可視化界面
Embedding提供了將非結構化數據轉換爲向量數據的功能,自動將原始文本轉換爲向量數據並插入數據庫,或者執行相似性計算,使向量數據庫的使用更加簡單便捷。
數據庫管理方面基於向量數據庫可進行在線的數據庫增加、刪除和管理。
集合管理涵蓋了集合的創建、刪除操作,以及查看集合信息和內容。
索引管理方面可進行集合索引在線查看及重建等操作。
全實例查詢能夠快速進行實例級的數據庫和集合全實例查找和展開操作。
在數據操作方面,支持精確查詢、模糊查找、更新插入、在線刪除,並且支持多集合的並行操作。
這些功能集合爲用戶提供了更靈活、高效地管理和操作向量數據庫的能力。
4 Embedding
提供將非結構化數據轉換爲向量數據的能力,自動將原始文本轉換爲向量數據後插入數據庫或進行相似性計算,更簡單地使用向量數據庫
4.1 embedding_coll精確查詢
在進行embedding_coll的精確查詢時,使用JSON數據進行查詢,可能包括按照特定的條件或字段,對數據庫中存儲的向量數據進行準確的檢索。這種查詢方式可以幫助用戶快速找到所需的向量數據或相關信息,提供了高效、精確的搜索功能。
4.2 unenabled_embedding_coll精確查詢
在unenabled_embedding_coll精確查詢中,同樣使用JSON數據對數據進行查詢。這個查詢操作可能是在某些特定條件下執行的,與enabled_embedding_coll相比,可能有些功能或特性處於未啓用狀態。這種查詢可能針對某些特定集合或數據,提供了對數據庫中信息的更多探索或篩選功能,使用戶能夠更全面地利用數據庫資源。
5 數據庫
(如圖中所示)。此外,(如圖中的數據插入界面展示了這一點)。
5.1 創建數據庫
基於向量數據庫的在線增加、刪除和管理數據庫是騰訊雲向量數據庫的關鍵功能之一。通過可視化界面,用戶可以輕鬆地創建新的數據庫實例。
5.2 插入數據
向量數據庫允許用戶通過JSON數據將信息插入數據庫,這提供了一種靈活且可擴展的方法,使用戶能夠將各種數據以向量形式存儲在數據庫中
5.3 精確檢索
在進行數據檢索時,向量數據庫提供了多種方式。用戶可以通過表單形式輸入搜索條件,也可以通過JSON數據進行檢索
這種多樣性的檢索方式可以讓用戶根據不同的需求和偏好選擇最適合的查詢方法,無論是簡單的數據查詢還是更復雜的搜索需求。這種靈活性有助於用戶更有效地管理數據庫,以及更方便地訪問和利用所存儲的向量數據。
6 應用場景
6.1 大模型知識庫
騰訊雲向量數據庫與大語言模型LLM協同使用。將企業私域數據經過文本分割和向量化後存儲在向量數據庫中,形成企業專屬的外部知識庫。這爲大模型提供了提示信息,在後續檢索任務中輔助生成更準確的答案。
6.2 推薦系統
推薦系統根據用戶歷史行爲和偏好向用戶推薦可能感興趣的物品。在這種情況下,用戶行爲特徵向量化存儲在向量數據庫中。系統根據用戶特徵進行相似度計算,並返回可能感興趣的物品作爲推薦結果。
6.3 問答系統
智能問答系統能夠回答用戶提出的問題,通常使用NLP服務和深度學習等技術實現。問題和答案通常被轉換爲向量表示,並存儲在向量數據庫中。問答系統可通過計算向量之間的相似度,檢索最相關的問題信息並返回答案。向量數據庫存儲和檢索相關的向量數據,提高問答系統的檢索效率和準確性。
6.4 文本/圖像檢索
文本/圖像檢索任務在大規模文本/圖像數據庫中搜索與指定圖像最相似的結果。存儲在向量數據庫中的文本/圖像特徵通過高性能索引實現高效的相似度計算,返回匹配的文本/圖像結果。
7 總結
騰訊雲向量數據庫是一全託管的企業級分佈式數據庫服務,專注於多維向量數據的存儲、檢索和分析。該數據庫支持多種索引類型和相似度計算方法,擁有高性能、大規模、高可用、低成本、簡單易用等特點。通過其可視化界面,用戶可以輕鬆管理實例信息、監控性能、進行密鑰管理、設置安全組,以及使用Embedding功能將非結構化數據轉換爲向量數據並插入數據庫。
應用場景廣泛,包括構建大型知識庫、推薦系統、智能問答系統以及文本/圖像檢索等。例如,與大語言模型配合使用可構建企業專屬的知識庫,推薦系統可基於用戶特徵向量化進行相似度計算,問答系統通過向量存儲和檢索提高響應速度和準確性,文本/圖像檢索任務可以高效搜索相似內容。騰訊雲向量數據庫爲企業提供了強大的工具,助力各種應用場景下的高效數據管理和智能應用實現。