最近鄰逼近搜索

原創

2020-07-07 04:09

說明

由於業務中需要用到向量之間的相似索引，其實向量相思索引在很多的業務場景中都有非常高的應用價值。我們已經有把詞、句子、圖片、等信息處理成響亮的方法。這樣在一些相關性檢索方面就有了應用價值。

本文中搭建了annoy和nmslib兩種方式。
下面提供了兩種方式的的索引構建方式：

annoy索引構建：

f = 200
tc_index = AnnoyIndex(f,metric='angular')
with open(r"D:\sent_vec", "r", encoding="utf-8") as reader:

    for line in reader:

        line = line.strip()
        linespl = line.split()
        id = int(linespl[0])
        vec = [float(v) for v in linespl[1:]]

        tc_index.add_item(id, vec)

tc_index.build(5)

tc_index.save(r'D:\index.ann')

nmslib索引構建：

tc_index = nms.init(method='hnsw', space='cosinesimil')

with open(r"D:\sent_vec", "r", encoding="utf-8") as reader:

    for line in reader:

        line = line.strip()
        linespl = line.split()
        id = int(linespl[0])
        if id % 10000 == 0:
            print("processing {}".format(id))
        vec = [float(v) for v in linespl[1:]]
        if first_data == None:
            first_data = vec

        tc_index.addDataPoint(id, vec)

簡評：
總體使用過程中，nmslib要稍微快一點，根據向量去檢索索引，對未登錄也比較友好。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Bert編碼訓練NER實體偏移的問題

在這裏記錄一下踩過的坑在訓練樣本中幾乎沒有前面一大串英文或者數字，然後後面跟實體的情況，所以訓練起來還挺平穩的。但是在預測的時候遇到了這種情況，造成實體可以識別出來，但是實體的預測結果下標錯了（表現爲下標提前了）造成這一問題

2020-07-07 04:09:15

hnswlib庫在windows系統中的安裝

安裝過程：先說明本人在安裝該模塊時遇到的問題。直接pip安裝報錯。在git上下載代碼依然報錯。缺少 h文件。原因是編譯環境找不到h文件所在的路徑。查看本機編譯調用的命令爲：所以就把缺少的h文件目錄添加到了該編譯環境依

2020-07-07 04:09:15

大量字符串快速匹配-字典樹匹配

說明：在本人的工作中遇到了這樣的一個問題。需要用到字符串匹配的功能。一邊是300字左右的句子，另一邊是幾個到幾十個詞的短語，然後過濾出包含短語的句子。數量都在千萬級別，最直接的想法肯定是兩層for循環兩兩匹配，但是有點low

2020-07-07 04:09:15

Bert編碼訓練NER實體偏移的問題

在這裏記錄一下踩過的坑在訓練樣本中幾乎沒有前面一大串英文或者數字，然後後面跟實體的情況，所以訓練起來還挺平穩的。但是在預測的時候遇到了這種情況，造成實體可以識別出來，但是實體的預測結果下標錯了（表現爲下標提前了）造成這一問題

2020-07-07 04:09:15

hnswlib庫在windows系統中的安裝

安裝過程：先說明本人在安裝該模塊時遇到的問題。直接pip安裝報錯。在git上下載代碼依然報錯。缺少 h文件。原因是編譯環境找不到h文件所在的路徑。查看本機編譯調用的命令爲：所以就把缺少的h文件目錄添加到了該編譯環境依

2020-07-07 04:09:15

大量字符串快速匹配-字典樹匹配

說明：在本人的工作中遇到了這樣的一個問題。需要用到字符串匹配的功能。一邊是300字左右的句子，另一邊是幾個到幾十個詞的短語，然後過濾出包含短語的句子。數量都在千萬級別，最直接的想法肯定是兩層for循環兩兩匹配，但是有點low

2020-07-07 04:09:15

Layer concatenate_1 was called with an input that isn't a symbolic tensor

2019-06-16 18:44:49

mdb文件內容導出

2019-03-04 01:36:18

tensorflow-gpu DLL問題解決

2019-03-04 01:36:18

自定義層多輸出時需要list包裝

2019-03-01 01:01:41

maven 非法轉移字符非GBK編碼解決方法

2018-09-03 18:02:50

24小時熱門文章

最新文章

最新評論文章