大數據處理需注意的問題

  信息時代,數據儼然已成爲一種重要的生產要素,如同資本、勞動力和原材料等其他要素一樣,而且作爲一種普遍需求,它也不再侷限於某些特殊行業的應用。各行各業的公司都在收集並利用大數據處理分析結果,儘可能的降低成本,提高產品質量、提高生產效率以及創造新的產品。

大數據處理需注意的問題

 

  大數據的處理都有哪些問題

 

  一、海量的數據

 

  處理超大數據集通常會受到存儲和處理數據的計算資源的限制。通常一塊商用硬盤可以容納1TB的數據量。有些數據集能有好多PB(相當於上千塊硬盤的容量)。這些數據需要在數據中心內跨多個服務器(或傳統的RAID盤)存儲。除此之外,處理這些數據也需要大量的物理內存和CPU。

 

  Hadoop(一個開源分佈式大數據處理生態)的出現一定程度上降低了數據處理的成本。這套系統的核心是Hive,一種能像數據庫一樣存儲數據的類SQL處理系統。數據處理在商用硬件上進行,使用Map-Reduce算法(專門爲分佈式處理設計的算法)。這些服務器通常被存放在數據中心。但是,管理維護數據中心和Hadoop套件的成本非常高。

 

  二、複雜的數據

 

  複雜數據的概念和理想數據完全相反。所有數據集都有一定的複雜性,但有一些天生更難處理。通常這些複雜數據集沒有定義結構(沒有行列結構),經常變化,數據質量很差或沒有記錄。

 

  比如人工輸入的醫生的筆記、博客的文字、時刻更新的網頁日誌以及深嵌套的XML或JSON文件。

 

  爲複雜數據做快速標註時,大多數不好的數據應該在源頭就進行識別。數據工程師需要構建足夠強壯的系統來快速獲取和過濾這些數據集,但是這些數據終還是要在源頭糾正。此外,如果可以,我們建議在數據產生的源頭定好SLA來減少低質量的數據,使數據更好管理。

 

  處理複雜數據集,讓它們能遵從整潔的格式需要下很大的功夫。每種數據質量問題都需要區別處理,比如記錄重複、主鍵缺失、字符/字符串的格式錯誤等。

 

  有很多工具可以用來處理這種數據。通常數據科學家和工程師會用Jupyternotebook以及Pandas或Spark來處理、分析、可視化這些數據集。Jupyter爲開發者提供了交互式的環境使他們能在代碼中逐行遍歷數據集,從而節省很多時間。Databricks也提供了非常好的數據處理和分析環境,包含了一個類似Jupyternotebook的UI、獨有的Spark特性、以及簡單易用的節點管理能力。

 

  三、高速的數據

 

  高速數據通常被認爲是實時的或是準實時的數據流。數據流本質上是在生成後就發給處理器的數據包(比如天線收到的電視信號或是通過固話傳輸的語音電話)。實時數據的定義值得深入討論,但是它本質上可以歸結爲需要在毫秒內被更新的數據。處理數據流有很多挑戰,包括在採集時不丟失數據、處理數據流中的重複記錄、流數據與更大的歷史數據集集成、以及進行實時分析。

 

  數據分析是目前企業工作中的一個非常重要的組成部分,企業將根據自己的銷售數據、財務數據、管理數據等各類數據來分析自己企業的實際情況,然後結合有效的分析結果,做出更好的發展決策。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章