Simhash亿万级别查重算法在实际使用中的问题及改进

原創

2020-06-20 13:05

1. Simhash不同于正常的hash值生成，它不仅能区别样本，也能通过海明距离得到两个样本的相似度，通常的simhash通过以下几个步骤生成。

文本分词
词向量加权
所有词向量加权之后求和
降维生成hash值

我们可以使用官方的simhash包来生成

from simhash import Simhash

content_list = [content_word_list]#分词列表
hex_str = Simhash(content_list)

这里的hex_str是十六进制，以字符串形式输出。

2. 缺陷及改进方法

在实际使用中，因为Simhash是局部敏感去重算法，没办法针对一个网页是另外一个网页的简短说明去重。例如针对某个特殊场景，招投标数据的去重，很多招投标html网站内容实际上是一个公告，但是由于前一个网页比较详细，后一个网页缺少详细说明，实际的业务要求依旧希望我们能将其认为重复，那么我们可以巧妙利用Simhash的词向量加权，在相对固定的业务场景对我们的关键信息进行加权，这样就可以很明显的提高Simhash的实际应用效果。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

昔日辉煌不再，PHP老矣，尚能饭否？

導語 | 近期 TIOBE 最新指數顯示，PHP 的流行度降至了歷史最低，排在第 17 名，同時，在年度 Stack Overflow 開發者調查報告中，PHP 在開發者中的受歡迎程度已經從之前的約 30% 萎縮至現在的 18%。“P

2024-05-23 23:48:42

2023全球DDoS攻击态势分析，与众多行业专家共议DDoS破局之道

近日，百度安全聯合華爲、天翼安全科技有限公司、聯通數科安全、Nexusguard、中國移動雲能力中心、中國移動卓望公司、清華大學共同發佈《2023年全球DDoS攻擊現狀與趨勢分析》（以下簡稱《報告》）。報告從DDoS攻擊態勢、殭屍網絡態勢、

2024-05-23 21:42:25

站在岸上学不会游泳 | 算法校招生的高效成长总结

在這個由數據編織、由算法驅動的時代，AI大模型正成爲推動社會進步的重要力量。我們不僅是變革的見證者，更是推動者和塑造者。感謝零售UP技術人欄目的邀請，本文藉此機會回顧一下自己的算法之路上的一些故事和思考，希望能帶給讀者一些幫助。介紹自

2024-05-22 11:56:42

「Kimi」加入微信，最方便的私人财经助手

喜大普奔，「Kimi」大模型現在可以接入微信了！如果說其他大模型應用還略顯繁瑣，需要下載一個新的APP 甚至翻牆，那「Kimi」加入微信後，把大模型應用的體驗成本降低到 0。這意味着我們有了一個免費且好用且穩定且無

2024-05-21 11:48:27

5月21日相聚上海张江！与文心大模型一起共建大模型产业应用生态圈

5月21日，文心中國行將走進上海，在張江科學會堂舉行。屆時，政府、企業與高校的相關專家和業界同仁將現場分享生成式人工智能與大模型最新進展，主要圍繞大模型技術如何賦能產業級應用創新展開探討，還有百度風投從投資視角帶來的觀點，讓參會者全方位瞭解

2024-05-17 00:28:21

白鲸开源CEO郭炜在2024 DataOps发展大会上获聘专家

2024年5月15日，白鯨開源CEO郭煒在2024 DataOps發展大會上被正式聘任爲DataOps專家，並獲得了榮譽證書。本次大會由中國通信標準化協會主辦，中關村科學城管委會提供支持，大數據技術標準推進委員會（CCSATC601）承辦，

2024-05-16 11:28:50

共创数字经济新生态，华为云生态领航者·AI先遣队圆满落幕

5月9-11日，華爲雲生態“領航者·AI先遣隊”課程班在杭州成功舉辦，本次課程聚焦於AI前沿探索與實踐的高端研修，匯聚了來自華爲雲生態夥伴企業的高層決策者，共同開啓了一場關於智慧升級與生態共建的深度對話。華爲雲生態領航者·AI先

2024-05-16 10:58:48

一文教你基于LangChain和ChatGLM3搭建本地知识库问答

本文分享自華爲雲社區《【雲駐共創】LangChain＋ChatGLM3實現本地知識庫，轉華爲雲ModelArts，實現大模型AI應用開發》，作者：葉一一。一、前言本期華爲雲的講師是華爲雲EI開發生態的工程師傑森，分享主題是：基於La

2024-05-23 10:58:28

Python实现大麦网抢票的四大关键技术点解析

前言隨着互聯網的普及和發展，線上購票已經成爲人們生活中不可或缺的一部分。然而，在搶購熱門演出門票時，往往會遇到搶票難、搶票快的問題，有時候一秒鐘的延遲就意味着與心儀的演出擦肩而過。爲了解決這個問題，技術愛好者們開始探索利用Python

2024-05-23 00:18:04

用python开发一个类似的交互查询系统.用什么库方便？

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【fashjon】問了一個Python庫的問題，問題如下：用python開發一個類似的交互查詢系統.用什麼庫方便？二、實現過程這裏【啥也不懂】給了一個指導：PY

2024-05-22 10:02:33

Selenium与PhantomJS：自动化测试与网页爬虫的完美结合

在當今互聯網時代，自動化測試和網頁爬蟲技術成爲了不可或缺的工具，它們不僅提高了開發效率，也爲數據採集和分析提供了便利。而Selenium與PhantomJS的結合，則爲這兩個領域的應用帶來了全新的可能性。本文將介紹Selenium與Pha

2024-05-22 00:09:17

用好AppBuilder-SDK，每天都能偷偷早下班

本文主要是對這次AppBuilder-SDK直播課程的文字總結，主題是如何在Python中使用AppBuilder-SDK（使用的IDE 爲 PyCharm社區版）感興趣的朋友也可以去看直播課回放。直播課： AppBuil

2024-05-21 12:12:15

Shell/Python中的用户名获取

一、幾個基本概念登錄用戶（login user）：通過登錄方式進入系統的用戶，強調登錄身份。當前用戶（current user）：執行一個進程或者命令時所使用的用戶身份，強調執行身份。舉

2024-05-19 00:44:35

网络爬虫的秘密：如何高效地抓取JD.com视频链接

在這個數據驅動的時代，信息就是力量。而在這片信息的海洋中，爬蟲技術就像是一艘靈活的潛水艇，讓我們能夠深入海底，探尋那些隱藏的寶藏。今天，我將帶領大家一起踏上一場奇妙的探險之旅，我們將使用Python這把瑞士軍刀，搭配RoboBrowser

2024-05-18 00:07:59

记一次有点抽象的渗透经历

0x01 獲取webshell 在各種信息蒐集中，發現某個ip的端口掛着一個比較老的服務。首先看到了員工工號和手機號的雙重驗證，也不知道賬號是什麼結構組成的，基本上放棄字典爆破這一條路。於是乎打開之前用燈塔的掃描結果，看看文件泄露是否

2024-05-17 23:16:30

24小時熱門文章

最新文章

最新評論文章