了解 sdhash

SDHASH

1.       sdhash : similarity digests hash (相似性摘要散列)

automate content triage . 用于自动内容分类

此处的摘要(digest)指的是:Metadata--元数据:元数据指的是计算机用来标识文件的一些附加信息,例如文件名,文件类型,文件时间戳,文件在物理存储介质的数据分布等。

官网关于sdhash的介绍(Google翻译):

sdhash是一个工具,它允许两个任意的数据块基于常见的字符串进行相似性比较二进制数据。它被设计为在分类和初始调查阶段提供快速结果。它已经在从2010年开始积极开发,明确目标是变得快速,可扩展和可靠。

实际用处:

有两个一般类问题,其中sdhash可以提供显着的好处 - 片段识别和版本相关。

在片段识别中,我们在较大的数据内搜索较小的数据片段(“needle-in-a-haystack”)。

例如:

•块与文件相关:给定一块数据(磁盘块/网络包/ RAM页面/等),我们可以搜索一个引用文件集合来识别块是否来自其中的任何一个。

•文件与RAM /磁盘映像:给定文件和目标映像,我们可以有效地确定是否有任何文件可以在磁盘映像上找到(包括释放存储)。

在版本关联中,我们感兴趣的是关联大小可比较的数据对象(文件),因此类似的对象可以被视为版本。这是两个基本方案,其中这是有用的 - 识别相关文档和识别代码版本。

 

Digest generation(摘要生成):

The output encodes the following pieces of information, separatedby colons: magic number, version,length of file name, file name, hash functionused to hash features (sha1), size of constituent Bloom filters in bytes,number of subhashes per feature,bit mask used to derive the subhashes, numberof features per filter, number of filters in the digest,number of features inthe last filter, and base64-encoded sequence of filters.

翻译:输出将编码以冒号分隔的以下信息:幻数,版本,文件名长度,文件名,用于散列特征的散列函数组成的布隆过滤器的大小,每个特征的子散列数,用于导出子散列的位掩码,每个过滤器的特征数目,摘要中的过滤器数目 最后一个过滤器中的特征数,以及过滤器的base64编码序列。

The size of a similarity digest is proportional to the size of thedata targets. The in-memory sdhash representation is, on average, 2.6% of thesize of the target (approximately 256 bytes of digest per 9.5 KB of data).After the base64 encoding, it expands to about 3.6% on disk.

相似性摘要的大小与数据目标的大小成比例。 内存中sdhash表示平均为目标大小的2.6%(每9.5 KB数据大约256字节的摘要)。 在base64编码之后,它在磁盘上扩展到大约3.6%。


传送门:http://roussev.net/sdhash/sdhash.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章