怎樣用Hadoop保護大數據?

隨着大數據分析技術的發展,人們在不斷地尋找更好的方法去保護他們的大數據。請閱讀本文,瞭解Hadoop是如何通過網絡安全的方法來保護大數據的。

Hadoop是什麼?

Hadoop是用Java開發的開源編程系統,讓用戶可以在計算機環境裏存儲和處理大數據集。它由Apache項目創建,由Apache軟件基金會主導開發。

有了Hadoop,用戶就可以在由幾千臺服務器組成的大型分佈式系統上創建、運行和測試應用程序,甚至可以一次性地處理TB級的大數據。即使某臺物理服務器宕機,Hadoop的分佈式文件系統也可以讓系統繼續工作,不會受到故障影響。這樣就避免了數據損失的風險,以及由於多臺物理服務器宕機而導致的主系統故障。

而且,Hadoop也是大數據處理系統,可以完成各種處理任務,比如做銷售和業務計劃、科學分析、處理物聯網業務等。

談到網絡安全,Hadoop也讓用戶可以更容易地保存大數據,並在發現新的大數據漏洞時可以向所有人告警。我們將在這篇文章裏解釋如何用Hadoop實現網絡安全,以及從長期來說如何保存你的大數據,來保證公司的安全運營。

Hadoop與網絡安全

談到網絡安全,Hadoop可以保存你們公司產生的所有數據,無論數據量有多大。它可以讓你處理用戶、物聯網、各種終端產生的所有信息,有了這些信息,才能對異常事務、可疑行爲和其它威脅等進行精準分析。

有了Hadoop,你就可以使用各式各樣的開源或閉源的應用和機器學習技術,對當前面臨的和未來將要出現的挑戰也有了解決方案。

但網絡安全問題卻沒有這麼簡單。十年前,我們以爲有了SIEM和其它類似產品就已經足夠了。我們相信它們可以提供我們需要的信息,幫助我們應對網絡安全的挑戰。

但當移動、雲和物聯網應用被開發出來以後,我們才知道SIEM系統還不夠健壯,沒辦法對各種不同規模的大數據進行恰當處理,也不能依數據規模的不同而伸縮自如。SIEM不是針對大規模數據的系統設計的,因此對發現網絡底層隱藏的問題無法提供有幫助作用的分析性結果。

當網絡專家們不能用SIEM做高級分析或保護他們的大數據時,那麼能爲保護網絡而做的事看起來就很有限了。他們只能發現有限類型的攻擊,或者稍稍高級並已知的攻擊,僅此而已。

但當你使用Hadoop時,可供參考的安全用例集就大多了,你可以在很大程度上得到幫助。公司可以用用戶行爲分析法來緩解並發現內部威脅,分享威脅信息,並且定位網絡內部的可疑活動。

網絡安全主要處理三方面內容:改進事故響應、更好的事故檢測和了解這些場景對你的業務的影響。使用Hadoop時,這三個方面都能適用,因爲從設計上它就可以讓你很容易地進行分析、情境理解和獲取信息。

安全社區不會受某一種應用的洞察侷限,從而讓自己處於危險的境地。Hadoop的靈活性可以幫你的團隊找到問題的答案,而不是受限於各種不同安全程序的已有知識,以及可以對他們發出通知的系統。

Hadoop還整合了開源和閉源技術,提供完整的網絡安全防禦機制。比如,在開源安全技術的支持下,它的開放式網絡洞察(Open Network insights, ONI)網絡最先通過大數據分析和開放數據模型爲平臺提供了高級的威脅檢測解決方案。

Hadoop的網絡安全功能

Hadoop提供了以下幾方面最常見的的網絡安全特性:

  • 全面性:Hadoop爲所有的告警總結、相關大數據和高級搜索選項提供了單一的視圖。這樣避免了信息過載,有助於衝突分析和解決。
  • 高速錄入:大數據一直在產生,需要非常快速地對這些數據進行收集、存儲和標準化,這樣才能爲進一步的高級分析和計算所用。
  • 實時處理:Hadoop提供了實時處理功能,可以滿足對地理信息、威脅信息等重要大數據信息的流式處理需求,它基於DNS的元數據也對調查每個數據漏洞提供了必要信息。
  • 高效:企業需要用廉價的大數據存儲來保存數據,並且可以長期地反複對數據進行分析和挖掘。有了Hadoop,用戶就可以理解產生威脅的原因是什麼、哪些數據被泄漏了、以及數據被髮往了哪裏。

Hadoop如何存儲大數據?

Hadoop用分佈式的方式存儲大數據。假設你有5G數據,那可以修改Hadoop的配置,產生1G大小的數據塊。於是數據會被切分到5個塊裏,因此會放到多個DataNode上,而且還會在不同的節點上創建大數據塊的副本。因爲我們用的都是商業硬件,存儲空間還不成問題。

Hadoop還解決了擴展的問題。大多數系統用的是縱向擴展的方案,而Hadoop用的是橫向擴展。必要時你可以向Hadoop集羣添加新的數據節點。爲了存儲1TB的數據,你並不需要一臺具有1TB空間的設備,你可以使用多臺128GB的設備,讓它們一起來存儲1TB的數據,這樣可以避免空間的過度浪費。

Hadoop怎樣進行數據分析?

用Hadoop進行數據分析就非常簡單了。你可以用Hadoop存儲多種類型的數據,不管是非結構型的、半結構型的或結構型的。向Hadoop導入數據時不會預先做模式校驗。而且它遵循一次寫入多次讀取的模式。因此,你可以在寫入數據之後,多次進行讀取分析,以找到有價值信息。

怎樣才能更快地分析和處理數據?

用Hadoop做大數據分析的人都知道,處理大數據實在太困難了。爲了解決這個問題,我們把算法發往數據,而不是把數據帶給算法。這意味着我們不會先把數據收集到主節點之後再進行處理,而是用MapReduce算法來讓數據處理過程變得更快。處理邏輯會被髮往多個從節點,然後就在這些從節點上對大數據進行處理。處理過程結束後,再把處理結果發往主節點,通過它返回給客戶端。Hadoop的YARN架構中有NodeManager和ResourceManager。可以把ResouceManager配置到NameNode所在的服務器上運行。但NodeManager要與Data Node運行在相同的服務器上。

結論

用Hadoop做數據分析對用戶來說是個非常好的選擇,他們可以專注於數據分析,而無需擔心其它風險。即使數據量非常大,仍然可以放心地進行存儲、處理和分析,不用擔心這些過程會對網絡流量造成多大影響。

正因如此,很多大數據公司都喜歡用Hadoop來作數據存儲。它不只能保存你的大數據,它先進的網絡安全思想也可以讓數據保存變得更容易。

當你的團隊意識到了Hadoop的好處,並學會了怎樣使用它之後,你就會發現系統運營變得更容易了,因爲你對可能發生的威脅和底層問題都瞭解得更清楚了。因此,如果你非常想優化你的大數據管理,並且希望能掌控它,請了解一下Hadoop吧!

英文原文:

Protecting Big Data with Hadoop: A Cyber Security Protection Guide

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章