【算法大雜燴】常見算法的歸類和總結——消息摘要算法

       在上一篇文章  【算法大雜燴】常見算法的歸類和總結——非對稱加密算法  中我們簡要介紹了常見的非對稱加密算法的相關知識。這次我們乘勝追擊,介紹【信息摘要算法】, 通過本文的閱讀,你可以瞭解到以下知識:

  • 什麼是信息摘要算法?
  • 常見的信息摘要算法有哪些以及它們的特性和區別是什麼?
  • 信息摘要算法的應用場景有哪些?

什麼是信息摘要算法?


       信息摘要算法是一種對“信息”進行【摘要化】處理的算法。通俗地來說,就好比本文,假設它很長,那麼讀者在第一時間看到它的時候並不會完全閱讀全文,而是往往會先去讀一下文章的【摘要】,通過文章的摘要部分,簡要了解下文章的主要內容。類似地,在信息密碼學領域,同樣有這種的操作,這就是信息摘要算法的產生背景。

       假設有一段數據(專業術語叫“消息”),經過【信息摘要算法】處理後,它將變成一段固定長度的【信息摘要】,用公式表示如下,其中M表示消息原文,D表示輸出的消息摘要,P表示信息摘要算法。

  • P(M with any length) = D(with fixed length)

       通過公式,我們可以很直觀地看出,信息摘要算法的輸入數據長度是可以爲任意長度,但是在實際使用的過程中,倘若輸入數據的長度過於長,我們會採用將輸入數據塊採用數據分組的方式一步步輸入,最後得到信息摘要結果的輸出。而輸出的信息摘要,通常都是固定長度的,至於信息摘要結果的固定長度是多少,是與具體的摘要算法相關的,下文會詳細介紹各種信息摘要算法的摘要輸出情況。

       還有一點,公式中並沒有體現“加密和解密的相互過程”,也就是說【信息摘要算法是單向的,不可逆的】。嚴格來說,它並不是一種【加密】算法,僅僅是【摘要】算法。由於它計算的不可逆性,所以經信息摘要算法計算出來的信息摘要D,一定程度上就代表了信息原文M。倘若有原文M1和原文M2,經過相同的信息摘要算法P,得到相同的信息摘要D,這種情況在密碼學上,我們稱之爲【碰撞】。一般而言, 好的摘要算法,沒有人能從中找到【碰撞】或者說極度難找到。雖然【碰撞】是肯定存在的(碰撞即不同的內容產生相同的摘要),但因目前信息科學發達程度非常高,計算機的運算能力得到了前所未有的提升,僅通過計算機運算的暴力破解,某些較弱的信息摘要算法就能被【碰撞】成功。


常見的信息摘要算法


        常見的信息摘要算法有:MD2/4/5、SHA1/SHA224/SHA256/SHA384、SM3算法、MAC算法等。

MD(Message Digest):消息摘要

        MD算法,是誕生於比較早的消息摘要算法,在網絡應用上也比較常見,比如在某個網站上下載一個文件,通常它會標識該文件的MD5值,當下載者完成下載文件到本地之後,使用工具對下載的文件執行MD5計算,求出一個MD5摘要值,與網站上給出的參考MD5值進行對比;如果兩者相等,則表示下載的文件是可靠的,沒有被篡改過的;反之,如果MD5值對不上,則表明下載的文件是被篡改過的,可能是網絡攻擊者投放的病毒攜帶文件或者是在下載的過程中文件出現了損壞等情況,此時應該對文件進行刪除操作。

        MD系列的算法主要有MD2、MD4、MD5,數字值越大表示MD算法的版本越高,從安全性上說:MD5 > MD4 > MD2,自然破解難度MD5是最高的。

         MD系列的信息摘要算法,輸出的信息摘要長度都是固定的128bits,即16字節;當不同的信息輸入時,產生的信息摘要也不相同;反之,當信息摘要相同,我們可以認爲信息的明文是相同的。

SHA(Secure Hash Algorithm):安全散列

       SHA系列的算法從版本上劃分有SHA-1和SHA-2;SHA-1和SHA-2是該算法的兩個不同版本。它們兩者之間在構造上(散列結果是怎樣被原始數據創建出來的)和簽名的位數上都有不同和簽名的位長。你應該把SHA-2看作是SHA-1的繼承者,因爲這是一個整體上的改進。

       SHA-1就是我們常見到的SHA1;SHA-2主要有SHA224、SHA256、SHA384、SHA512等等,不同的數字代表信息摘要輸出的位數。與MD系列算法類似,數字值越高表示摘要算法的安全性越高,計算的複雜性也越大;但不同於MD算法的是,SHA算法每個算法輸出的信息摘要長度是不一樣的。

  • SHA1,產生的信息摘要爲160bits,即20字節
  • SHA224,產生的信息摘要爲224bits,即28字節
  • SHA256,產生的信息摘要爲256bits,即32字節
  • SHA384,產生的信息摘要爲384bits,即48字節  
  • SHA512,產生的信息摘要爲512bits,即64字節

       更爲詳細的SHA算法介紹,可以參考: https://www.cnblogs.com/block2016/p/5632234.html

SM(Shangyong Mima):國密算法,即商用密碼

        經查證,國密算法的英文字母縮寫SM,其實是【碼】的中文拼音首字母簡寫。國密即國家密碼局認定的國產密碼算法,即商用密碼。

        在國密算法的列表中,SM3算法就是實現了類似MD算法和SHA算法的信息摘要算法。它和其他2種摘要算法一樣,都是不同長度的信息輸入,產生固定長度的摘要輸出。不同的是,它輸出的信息摘要長度固定爲256bits,即32字節。在實際使用過程中,SM3算法比較少會單獨使用,而是配合SM2【非對稱加密算法】配合使用,實現數字驗籤和消息驗籤的應用。

MAC(Message Authentication Code):消息認證碼

        MAC算法不同於以上3種信息摘要算法;MAC算法是帶密鑰的Hash函數:消息的散列值由只有通信雙方纔知道的祕密密鑰K來控制。此時Hash值稱作MAC。表達公式如下所示,其中M表示信息原文,P表示MAC算法,MAC表示輸出的MAC值,K表示MAC密鑰:

  •  P(M with any length) by K = MAC(with fixed length)

       通過公式我們可以發現,計算MAC通常會有KEY的參與,那麼在信息安全通訊領域,接收方要想驗證收到的數據是否正確,就需要利用以上公式,輸入MAC密鑰重新計算一遍MAC值,然後對比計算值和收到的MAC值;若相等才認爲數據是合法。這裏涉及到一個MAC KEY,發送方和接收方對相同的數據進行MAC運算,能得到相同MAC值的前提,除了兩者需使用相同的MAC算法外,還需要保證兩者的MAC KEY是一致的(通常計算MAC採用的是對稱加密算法)。至於,在實際生產應用過程中,如何保證兩者的MAC KEY是一致的,或者說MAC KEY是如果從一方傳遞到另一方的,這又是另一個話題,這種應用場景,在POS機與銀行後臺信息交互的安全性,就是利用MAC KEY的。

        MAC算法是一個統稱,它很多種實現,在POS行業,常用的MAC算法有CUP模式、EMV2000模式、或者自定義形式的MAC算法。MAC算法的核心是如何將輸入數據分組,利用MAC KEY做一些XOR、移位、加密等操作,使得輸入數據散列化,最後再利用MAC KEY執行加密操作(通常爲對稱加密)得到MAC值。

       值得注意的是,雖然MAC算法有MAC KEY的參與,但是它計算過程依然是單向的,不可逆的,這也是爲什麼會把它歸爲【信息摘要算法】的主要原因。

常見信息摘要算法的對比
信息摘要算法 信息輸入長度 摘要輸出長度 密鑰 安全性
MD5 * 128bits(16字節) 低,有被碰撞的可能性
SHA1 * 160bits(20字節) 低,有被碰撞的可能性
SHA224 * 224bits(28字節) 較高
SHA256 * 256bits(32字節) 高,推薦使用,最長使用
SHA384 * 384bits(48字節) 高,推薦使用
SHA512 * 512bits(64字節) 高,高安全性場景下推薦使用
SM3 * 256bits(32字節) 高,推薦使用
MAC算法 *

視不同的MAC算法而不同

有的是8字節,有的是16字節

高,除非密鑰被破解
注:表中*表示輸入長度爲“任意值”;此處的任意值,通常也是有限制的,比如SHA256,*應小於2的64次方,而SHA512,*應小於2的128次方。

信息摘要算法的應用場景


信息摘要算法的應用場景只要有以下幾種:

  • 網絡文件下載

        前面也簡單提到了,在網絡文件下載的時候,通常會有附上對應下載文件的摘要值,常用的是MD5或SHA1值;這個主要目的是給下載者在下載完網絡文件後,做最後的文件正確性和完整性的確認。如果計算出來的摘要值,與網站上的摘要不相等,我們應認爲下載的文件是不可信任的,應當做刪除處理。

  • 數字簽名和信息驗籤

       在產生數學簽名的過程中,通常會有一步是對輸入數據原文做摘要運算,這樣做的主要目的是將輸入數據原文迷你化。由於經摘要算法處理後,信息摘要的長度都是一定的,所以在做簽名運算的時候,只需要對信息摘要做簽名運算,在一定程度上就是輸入信息的原文做簽名運算。輸入數據簽名後,發送方會將簽名數據附在輸入信息的尾部,一同發送給接收方。而在驗籤流程中,接收方收到發送方的信息原文和簽名值,首先需要做的是根據雙方協商的信息摘要算法,做同樣的摘要運算,得到摘要值M',然後使用密鑰對簽名數據進行解密運算,得到發送方的摘要M;如果M' = M,則表示驗籤通過,接收的數據是可任性的。

       關於數字簽名的具體細節,後續會有更爲詳細的文章做更進一步的介紹,比如常見的簽名算法是怎麼工作的,等等。

  • 安全報文傳輸

       這種應用場景,主要是MAC算法的應用,最常見的就是POS與銀行後臺的報文傳輸。由於涉及到金融風險,所以在POS機與銀聯後臺通訊的過程中,除了對個人賬戶的敏感信息(如卡號、卡密碼)等做加密處理外,還需要對整一個通訊報文做MAC計算,在發送報文的時候,MAC值附在原始的密文後面以供接收方對接收的密文做MAC校驗。至於爲何要這樣做,就是爲了保證通訊報文的其他信息要素不能被篡改,比如消費的金額。試想下,如果你在超市消費了1.00元,但是由於報文被截取了,攻擊者將報文中的消費金額篡改爲100.00元;這種情況下,除非報文攻擊者拿到了POS與銀行後臺通訊的MAC KEY,否則它計算出來的MAC值必定與銀行後臺計算的MAC值對不上,進而被銀行後臺當做非法報文,做丟棄處理。但如果銀行後臺沒有MAC值校驗這一步操作,那麼對於消費者而言,就是明明消費了1.00元卻被扣款100.00元;這個後果將變得不堪設想。


        本文對常見的信息摘要算法進行一番總結,閱讀了本文後,相信讀者對信息摘要算法都有了更爲清晰的認識,同時對各個摘要算法之間的區別也有一定的瞭解。文中提及的觀點,難免有紕漏之處,還望有心的讀者誠心提出改進意見,互相學習,互相進步。感謝。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章