最近鄰搜索神器——一文讀懂局部敏感哈希LSH原理

原創

2020-07-08 05:33

什麼是LSH?

LSH主要用來解決高維空間中點的近似最近鄰搜索問題,即Approximate Nearest Neighbor(ANN)。
在實際的應用中我們所面對的數據是海量的,並且有着很高的維度。在對數據的各種操作中,查詢操作是最常見的一種,這裏的查詢是指輸入一個數據,查找與其相似的數據,那麼怎樣快速從海量高維數據中找到與某個數據最相似的數據,成爲了一個難點。

傳統的哈希算法通過哈希函數建立哈希表,由哈希表我們能夠得到O(1)的查找時間性能,傳統哈希算法的關鍵在於,找到合適的哈希函數,將原始數據映射到相對應的桶內,如果不同的數據,映射到了同一個位置就是發生了衝突,這是傳統哈希算法所避免的。

局部敏感哈希(LSH)的想法恰恰和傳統的哈希算法相反,我們渴望衝突,但是我們希望的是原先相鄰的兩個數據能夠以較高的概率被映射爲同一個哈希值,而相似對很低的數據以極低的概率映射成同一個哈希值.這樣的函數我們叫LSH。

LSH最根本的作用就是能夠高效的處理海量高維數據的最近鄰問題,其最大的特點就是保持數據的相似性。

一個不滿足LSH的簡單例子。

假設一個哈希函數 $\% 9$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

華爲雲Stack8.3面向香港正式發佈，六大亮點激發雲上躍遷

本文分享自華爲雲社區《華爲雲Stack8.3面向香港正式發佈，六大亮點激發雲上躍遷》，作者：華爲雲頭條。 2024年4月23日，在華爲雲香港峯會2024上，華爲混合雲副總裁胡玉海面向香港市場發佈華爲雲Stack8.3，提供110+本地

2024-04-26 10:33:21

技術實踐｜大模型內容安全藍軍的道與術

1、引子大語言模型（LLM）在2023年大放異彩，在許多領域展現出強大的能力，包括角色扮演，文本創作，邏輯推理等。然而，隨着其應用範圍的擴大，生成內容的安全問題也日益凸顯。這包括但不限於生成虛假信息、有害內容、偏見或歧視性言論等。這些問題

2024-04-26 09:33:23

HCDG天津站精彩回顧 | AI高效開發， ModelArts技術動手工作坊

4月20日， HCDG城市行·天津站——“極快至簡靈活部署”我想象中的AI高效開發ModelArts技術工作坊圓滿舉辦。活動特邀來自華爲雲DTSE、華爲云云享專家、以及天津軟件技術協會的夥伴企業專家們爲與會開發者帶來一場別開生面的技術交流

2024-04-25 22:33:41

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

大模型區域落地再加速！百度“文心中國行”西部首站落地成都錦江

4 月 24 日，“文心中國行”西部地區首站落地成都錦江。成都市錦江區白鷺灣新經濟總部功能區、錦江區投資促進局與百度飛槳攜手合作，打造成都人工智能的新產業、新模式、新業態。來自成都政產學研各界的領導、專家、企業嘉賓，共同探討如何降低 AI

2024-04-25 11:41:53

大模型Chatbots評估新視角：結合定性與程序方法的實踐探索

隨着人工智能技術的不斷進步，大型語言模型Chatbots已經成爲了人們生活中不可或缺的一部分。無論是在客戶服務、智能助手，還是在線教育、心理諮詢等領域，Chatbots都展現出了巨大的應用潛力。然而，如何有效地評估Chatbots的性能並不

2024-04-25 11:30:02

西安站開營！AI 編碼助手通義靈碼幫大學生“整活兒”

如何更好地與 AI 爲伴，做時代的先進開發者？4 月 17 日，阿里雲推出的 AI 編程助手通義靈碼與雲工開物“高校訓練營”走進西安多所高校開啓實操培訓，結合 AI 輔助編程的發展背景、通義靈碼的具體能力和應用實操，幫助在校大學生了解人工智

2024-04-24 21:12:06

沙特2030年願景和對中國IT企業的市場機會分析

沙特2030年願景和對中國IT企業的市場機會分析前言：最近“開源老DJ，帶你去沙特”欄目第一期已經播出，收到了不錯的反響。見COPU官網的回顧。（https://mp.weixin.qq.com/s/3B0jNVhybxTF1xPiy

2024-04-23 22:24:54

2024 開源數據工程生態系統全景圖

點擊藍字關注我們作者 | ALIREZA SADEGHI翻譯 | Debra Chen 01 簡介

2024-04-23 21:30:36

文心中國行走進成都！4 月 24 日一起把握大模型時代的產業新機遇

4 月 24 日，文心中國行將走進成都。屆時，政府、企業與高校的相關專家和業界同仁將現場分享生成式人工智能與大模型最新進展，從人工智能政策解讀、大模型技術，到產業創新應用的實踐案例，讓參會者全方位瞭解大模型時期的發展與創新機遇。大會還特別

2024-04-23 11:41:07

世界讀書日 | 開發者必讀書單重磅來襲，華爲雲DTSE專家天團力薦

本文分享自華爲雲社區《世界讀書日 | 開發者必讀書單重磅來襲，華爲雲DTSE專家天團力薦》，作者：華爲雲社區精選。春色恰如許，讀書正當時。讀書，就像解鎖一把神祕鑰匙，爲開發者洞開新世界的大門，賦予他們破譯複雜難題的能力、挑戰未知領域的

2024-04-23 10:32:58

Create 2024 分論壇：百度大模型安全解決方案護航開發者一起創造未來

4月16日，百度Create AI開發者大會在深圳國際會展中心（寶安）舉行，大會以“創造未來”爲主題，匯聚了當前科技和產業革命中的開發者先鋒力量。自去年3月16日發佈知識增強大語言模型文心一言以來，百度不斷推動文心大模型的升級迭代，每一次版

2024-04-19 21:33:25

Pinecone: 大模型時代的智能索引與搜索解決方案

隨着人工智能技術的飛速發展，大模型（Large Models）已成爲衆多領域的重要工具。無論是自然語言處理、圖像識別還是其他複雜任務，大模型都展現出了強大的性能。然而，隨着模型規模的不斷擴大，數據量的激增，如何有效地管理、索引和搜索這些模型

2024-04-19 11:29:43

AI大模型應用架構（ALLMA）白皮書解讀

隨着人工智能技術的不斷髮展，AI大模型成爲推動生產、生活方式變革，助推產業智能化轉型升級，驅動數字經濟高質量發展等社會經濟發展方面的新引擎。爲了全面展示AI大模型的發展全貌，爲各界提供新思路，本文將對AI大模型應用架構（ALLMA）白皮書進

2024-04-19 11:29:39

首屆 AIGC 創新賽報名火熱進行中，67萬現金獎池等你來！

AIGC創新賽生成式人工智能AIGC是人工智能1.0時代進入2.0時代的重要標誌。在當今時代，AIGC適用於諸多方面，通過單個大規模數據的學習訓練，令AI具備了多個不

vivo互聯網技術

2024-04-19 11:26:01

24小時熱門文章

最新文章

最新評論文章