理論基礎與研究
向量數據庫用於非結構化文本、圖片、音頻、視頻搜索、推薦,將他們轉換爲數字向量表示來進行相似性(ANN)搜索。存儲和搜索高維向量是其特徵之一,通常採用高級索引技術和算法如HNSW, Annoy, 或Faiss來實現。不同於SQL數據庫,向量數據庫更像nosql,用戶接受使用sdk/API來執行搜索(雖然這個聲明式不如SQL強大)。
向量數據庫使用的底層搜索、索引技術和推薦系統中的向量召回是高度重合的。
星環科技向量數據庫從 0 到 1 技術實踐:提升數據處理的精確度是重中之重
「向量召回」相似檢索算法——HNSW(pg_embedding使用的就是HNSW算法)
深入淺出推薦系統(四):召回:向量化的潮流(重點講embedding)
搜索召回 | Facebook: 億級向量相似度檢索庫Faiss原理+應用
AI行業專題報告:向量數據庫,AI時代的Killer App
langchain(3)—向量數據庫調研及簡單性能測試(包括測試數據集,建模方法)
向量數據庫排名
https://byby.dev/vector-databases
https://github.com/topics/vector-database
https://press.ai/best-vector-databases/#
綜合github/國外排名/國內分析來看,開源中基於es,faiss,milvus的方案比較有較大競爭力。
基於ElasticSearch的方案參考
向量數據庫:使用Elasticsearch實現向量數據存儲與搜索