先说明本人在安装该模块时遇到的问题。 直接pip安装报错。在git上下载代码依然报错。 缺少 h文件。 原因是编译环境找不到h文件所在的路径。 查看本机编译调用的命令为: 所以就把缺少的h文件目录添加到了该编译环境依赖的include中 接下来在去下载的git安装包中去执行,python setup.py install 便可以成功安装了。
线上结果: 可以看到,安装完成可以正常引入:
說明 由於業務中需要用到向量之間的相似索引,其實向量相思索引在很多的業務場景中都有非常高的應用價值。我們已經有把詞、句子、圖片、等信息處理成響亮的方法。這樣在一些相關性檢索方面就有了應用價值。 本文中搭建了annoy和nmslib
在這裏記錄一下踩過的坑 在訓練樣本中幾乎沒有前面一大串英文或者數字,然後後面跟實體的情況,所以訓練起來還挺平穩的。 但是在預測的時候遇到了這種情況,造成實體可以識別出來,但是實體的預測結果下標錯了(表現爲下標提前了) 造成這一問題
說明: 在本人的工作中遇到了這樣的一個問題。需要用到字符串匹配的功能。 一邊是300字左右的句子,另一邊是幾個到幾十個詞的短語,然後過濾出包含短語的句子。 數量都在千萬級別,最直接的想法肯定是兩層for循環兩兩匹配,但是有點low