MD5原理概述及实现

MD5原理概述及实现

1. 什么是MD5算法

MD5讯息摘要演算法(英语:MD5 Message-Digest Algorithm),一种被广泛使用的密码杂凑函数,可以产生出一个128位元(16位元组)的散列值(hash value),用于确保信息传输完整一致。

2. MD5功能

输入任意长度的信息,经过处理,输出为128位的信息(数字指纹);
不同的输入得到的不同的结果(唯一性);

3. MD5 算法底层原理

简单概括起来,MD5 算法的过程分为四步:处理原文,设置初始值,循环加工,拼接结果。

  • 第一步:处理原文

首先,我们计算出原文长度(bit)对 512 求余的结果,如果不等于 448,就需要填充原文使得原文对 512 求余的结果等于 448。填充的方法是第一位填充 1,其余位填充 0。填充完后,信息的长度就是 512N+448。
之后,用剩余的位置(512-448=64 位)记录原文的真正长度,把长度的二进制值补在最后。这样处理后的信息长度就是 512
(N+1)。

  • 第二步:设置初始值

MD5 的哈希结果长度为 128 位,按每 32 位分成一组共 4 组。这 4 组结果是由 4 个初始值 A、B、C、D 经过不断演变得到。MD5 的官方实现中,A、B、C、D 的(固定的)初始值如下(16 进制):
A=0x01234567
B=0x89ABCDEF
C=0xFEDCBA98
D=0x76543210

  • 第三步:循环加工

这一步是最复杂的一步,我们看看下面这张图,此图代表了单次 A,B,C,D 值演变的流程。

图中,A,B,C,D 就是哈希值的四个分组。每一次循环都会让旧的 ABCD 产生新的 ABCD。一共进行多少次循环呢?由处理后的原文长度决定。
假设处理后的原文长度是 M
主循环次数 = M / 512
每个主循环中包含 512 / 32 * 4 = 64 次 子循环。

上面这张图所表达的就是单次子循环的流程。

下面对图中其他元素一一解释:

1.绿色 F
图中的绿色 F,代表非线性函数。官方 MD5 所用到的函数有四种:
F(X, Y, Z) =(X&Y) | ((~X) & Z)
G(X, Y, Z) =(X&Z) | (Y & (~Z))
H(X, Y, Z) =XYZ
I(X, Y, Z)=Y^(X|(~Z))
在主循环下面 64 次子循环中,F、G、H、I 交替使用,第一个 16 次使用 F,第二个 16 次使用 G,第三个 16 次使用 H,第四个 16 次使用 I。
2.红色“田”字
很简单,红色的田字代表相加的意思。

3.Mi
Mi 是第一步处理后的原文。在第一步中,处理后原文的长度是 512 的整数倍。把原文的每 512 位再分成 16 等份,命名为 M0~M15,每一等份长度 32。在 64 次子循环中,每 16 次循环,都会交替用到 M1~M16 之一。

4.Ki
一个常量,在 64 次子循环中,每一次用到的常量都是不同的。

5.黄色的<<<S
左移 S 位,S 的值也是常量。
“流水线”的最后,让计算的结果和 B 相加,取代原先的 B。新 ABCD 的产生可以归纳为:

新 A = 原 d
新 B = b+((a+F(b,c,d)+Mj+Ki)<<<s)
新 C = 原 b
新 D = 原 c
总结一下主循环中的 64 次子循环,可以归纳为下面的四部分:
第一轮:
FF(a,b,c,d,M0,7,0xd76aa478) s[0]=7, K[0] = 0xd76aa478
  FF(a,b,c,d,M1,12,0xe8c7b756) s[1]=12, K[1] = 0xe8c7b756
  FF(a,b,c,d,M2,17,0x242070db)
  FF(a,b,c,d,M3,22,0xc1bdceee)
  FF(a,b,c,d,M4,7,0xf57c0faf)
  FF(a,b,c,d,M5,12,0x4787c62a)
  FF(a,b,c,d,M6,17,0xa8304613)
  FF(a,b,c,d,M7,22,0xfd469501)
  FF(a,b,c,d,M8,7,0x698098d8)
  FF(a,b,c,d,M9,12,0x8b44f7af)
  FF(a,b,c,d,M10,17,0xffff5bb1)
  FF(a,b,c,d,M11,22,0x895cd7be)
  FF(a,b,c,d,M12,7,0x6b901122)
  FF(a,b,c,d,M13,12,0xfd987193)
  FF(a,b,c,d,M14,17, 0xa679438e)
  FF(a,b,c,d,M15,22,0x49b40821)
  第二轮:
  GG(a,b,c,d,M1,5,0xf61e2562)
  GG(a,b,c,d,M6,9,0xc040b340)
  GG(a,b,c,d,M11,14,0x265e5a51)
  GG(a,b,c,d,M0,20,0xe9b6c7aa)
  GG(a,b,c,d,M5,5,0xd62f105d)
  GG(a,b,c,d,M10,9,0×02441453)
  GG(a,b,c,d,M15,14,0xd8a1e681)
  GG(a,b,c,d,M4,20,0xe7d3fbc8)
  GG(a,b,c,d,M9,5,0x21e1cde6)
  GG(a,b,c,d,M14,9,0xc33707d6)
  GG(a,b,c,d,M3,14,0xf4d50d87)
  GG(a,b,c,d,M8,20,0x455a14ed)
  GG(a,b,c,d,M13,5,0xa9e3e905)
  GG(a,b,c,d,M2,9,0xfcefa3f8)
  GG(a,b,c,d,M7,14,0x676f02d9)
  GG(a,b,c,d,M12,20,0x8d2a4c8a)
  第三轮:
  HH(a,b,c,d,M5,4,0xfffa3942)
  HH(a,b,c,d,M8,11,0x8771f681)
  HH(a,b,c,d,M11,16,0x6d9d6122)
  HH(a,b,c,d,M14,23,0xfde5380c)
  HH(a,b,c,d,M1,4,0xa4beea44)
  HH(a,b,c,d,M4,11,0x4bdecfa9)
  HH(a,b,c,d,M7,16,0xf6bb4b60)
  HH(a,b,c,d,M10,23,0xbebfbc70)
  HH(a,b,c,d,M13,4,0x289b7ec6)
  HH(a,b,c,d,M0,11,0xeaa127fa)
  HH(a,b,c,d,M3,16,0xd4ef3085)
  HH(a,b,c,d,M6,23,0x04881d05)
  HH(a,b,c,d,M9,4,0xd9d4d039)
  HH(a,b,c,d,M12,11,0xe6db99e5)
  HH(a,b,c,d,M15,16,0x1fa27cf8)
  HH(a,b,c,d,M2,23,0xc4ac5665)
  第四轮:
  Ⅱ(a,b,c,d,M0,6,0xf4292244)
  Ⅱ(a,b,c,d,M7,10,0x432aff97)
  Ⅱ(a,b,c,d,M14,15,0xab9423a7)
  Ⅱ(a,b,c,d,M5,21,0xfc93a039)
  Ⅱ(a,b,c,d,M12,6,0x655b59c3)
  Ⅱ(a,b,c,d,M3,10,0x8f0ccc92)
  Ⅱ(a,b,c,d,M10,15,0xffeff47d)
  Ⅱ(a,b,c,d,M1,21,0x85845dd1)
  Ⅱ(a,b,c,d,M8,6,0x6fa87e4f)
  Ⅱ(a,b,c,d,M15,10,0xfe2ce6e0)
  Ⅱ(a,b,c,d,M6,15,0xa3014314)
  Ⅱ(a,b,c,d,M13,21,0x4e0811a1)
  Ⅱ(a,b,c,d,M4,6,0xf7537e82)
  Ⅱ(a,b,c,d,M11,10,0xbd3af235)
  Ⅱ(a,b,c,d,M2,15,0x2ad7d2bb)
  Ⅱ(a,b,c,d,M9,21,0xeb86d391)

  • 第四步:拼接结果

这一步就很简单了,把循环加工最终产生的 A,B,C,D 四个值拼接在一起,转换成字符串即可。
MD5的生成过程很复杂,这样保证了MD5哈希值的均匀分布,以及加密的安全性,不过这个也只属于强碰撞性,弱碰撞性已被破解

4. MD5生成摘要代码

#include <iostream>
#include <openssl/md5.h>
using namespace std;
int main(int argc, char* argv[])
{
    cout << "Test  Hash!" << endl;
    unsigned char data[] = "测试md5数据";
    unsigned char out[1024] = { 0 };
    int len = sizeof(data);
    MD5_CTX c;
    MD5_Init(&c);
    MD5_Update(&c, data, len);
    MD5_Final(out, &c);
    for (int i = 0; i < 16; i++)
        cout << hex << (int)out[i];
    cout << endl;
    data[1] = 9;
    MD5(data, len, out);
    for (int i = 0; i < 16; i++)
        cout << hex << (int)out[i];
    cout << endl;
    getchar();
    return 0;
}

5. 文件列表hashlist实现

#include <iostream>
#include <openssl/md5.h>
#include <fstream>
#include <thread>
using namespace std;

string GetFileListHash(string filepath)
{
    string hash;
    //以二进制方式打开文件
    ifstream ifs(filepath, ios::binary);
    if (!ifs)
        return hash;
    //一次读取多少字节的文件
    int block_size = 128;
    
    //文件读取buf
    unsigned char buf[1024] = { 0 };

    //hash输出
    unsigned char out[1024] = { 0 };

    while (!ifs.eof())
    {
        ifs.read((char*)buf, block_size);
        int read_size = ifs.gcount();
        if (read_size <= 0)break;
        MD5(buf, read_size, out);
        hash.insert(hash.end(), out, out + 16);
    }
    ifs.close();
    MD5((unsigned char*)hash.data(), hash.size(), out);
    return string(out,out+16);
}

void PrintHex(string data)
{
    for (auto c : data)
        cout << hex << (int)(unsigned char)c;
    cout << endl;
}

int main(int argc, char* argv[])
{
    cout << "Test  Hash!" << endl;
    unsigned char data[] = "测试md5数据";
    unsigned char out[1024] = { 0 };
    int len = sizeof(data);
    MD5_CTX c;
    MD5_Init(&c);
    MD5_Update(&c, data, len);
    MD5_Final(out, &c);
    for (int i = 0; i < 16; i++)
        cout << hex << (int)out[i];
    cout << endl;
    data[1] = 9;
    MD5(data, len, out);
    for (int i = 0; i < 16; i++)
        cout << hex << (int)out[i];
    cout << endl;
    string filepath = "../../src/test_hash/test_hash.cpp";
    auto hash1 = GetFileListHash(filepath);
    PrintHex(hash1);
    //验证文件完整性
    for (;;)
    {
        auto hash = GetFileListHash(filepath);
        if (hash != hash1)
        { 
            cout << "文件被修改" ;
            PrintHex(hash);
        }   
        this_thread::sleep_for(1s);
    }



    getchar();
    return 0;
}
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章