如何對大數據進行分析

  現實生活中現在所有事情都受到監視及測試,從而創建了許多數據流,其數據量通常比公司處理的速度還快。因此問題就來了,按照定義,在大數據很大的情況下,數據收集中的細微差異或錯誤會導致重大問題。

如何對大數據進行分析

 

  如何分析大數據?從以下六個方面考慮

 

  1.可視化分析

 

  不管是數據分析專家還是普通用戶,數據可視化都是數據分析工具的基本要求。可視化可以直觀地顯示數據,讓數據自己說話,讓用戶看到結果。

 

  2.數據挖掘算法

 

  可視化適用於人,而數據挖掘適用於機器。聚類,細分,離羣值分析和其他算法使我們能夠深入挖掘數據並挖掘價值。這些算法不僅需要處理大數據的量,還需要處理大數據的速度。

 

  3.預測分析能力

 

  數據挖掘使分析師可以更好地理解數據,而預測分析則可以使分析師基於視覺分析和數據挖掘的結果做出一些預測性判斷。

 

  4.語義引擎

 

  我們知道,非結構化數據的多樣性給數據分析帶來了新的挑戰。我們需要一系列工具來解析,提取和分析數據。需要將語義引擎設計爲可以從“文檔”中智能地提取信息。

 

  5.數據質量和主數據管理

 

  數據質量和數據管理是管理方面的最佳實踐。通過標準化流程和工具處理數據可以確保預先定義的高質量分析結果。

 

  如果大數據確實是下一個重要的技術創新,那麼我們將更好地關注大數據可以爲我們帶來的好處,而不僅僅是挑戰。

 

  6.數據存儲,數據倉庫

 

  數據倉庫是一個關係數據庫,旨在促進以特定模式存儲的數據的多維分析和多角度顯示。在商業智能系統的設計中,數據倉庫的建設是商業智能系統的關鍵和基礎。它承擔着集成業務系統數據的任務,爲業務智能系統提供數據提取,轉換和加載(ETL)。查詢和訪問數據以提供用於在線數據分析和數據挖掘的數據平臺。

 

  如何進行數據處理和分析?

 

  步驟1:收集資料

 

  對於企業來說,無論是新實施的系統還是舊的系統,要實施大數據分析平臺,首先都需要了解需要收集哪些數據。考慮到數據收集的難度和成本,大數據分析平臺並不收集企業的所有數據,而是直接或間接相關的數據。企業應該知道哪些數據可用於戰略決策或某些詳細的決策,並且分析後的數據的結果是有價值的,這也是考驗一個數據分析師的能力。例如,一家企業只想瞭解生產線設備的運行狀態。此時,僅需要收集影響生產線設備性能的關鍵參數。再例如,在產品售後服務中,公司需要了解產品使用狀態,購買組別和其他信息,這些數據對於支持新產品開發和市場預測非常重要。因此,建議公司在執行大數據分析計劃時對項目目標進行準確的分析,這更容易實現業務目標。

 

  大數據收集過程的困難主要是由於併發數量高,因爲可能有成千上萬的用戶同時訪問和操作,例如12306網和淘寶網,他們的併發訪問量在2007年達到了數百人。因此您需要在集合端部署大量數據庫以提供支持。而如何在這些數據庫之間執行負載平衡和分片也需要深入思考。

 

  步驟2:導入和預處理數據

 

  收集過程只是構建大數據平臺的第一步。在確定需要收集哪些數據之後,下一步需要統一處理不同來源的數據。例如,在智能工廠中,可能存在視頻監控數據,設備操作數據,材料消耗數據等。這些數據可以是結構化的或非結構化的。目前,企業需要使用ETL工具從分佈式和異構數據源(例如關係數據和平面數據文件)中提取數據到臨時中間層進行清理,轉換和集成,並將這些數據從前端導入到集中式大型分佈式數據庫或分佈式存儲集羣最終被加載到數據倉庫或數據集市中,併成爲在線分析處理和數據挖掘的基礎。對於數據源的導入和預處理,最大的挑戰主要是導入的數據量,每秒的導入量通常達到100萬億甚至千兆位。

 

  步驟3:統計分析

 

  統計和分析主要使用分佈式數據庫或分佈式計算集羣對存儲在其中的海量數據進行常規分析和分類,以滿足最常見的分析需求。在這方面,一些實時需求將使用EMC的GreenPlum,Oracle的Exadata和基於MySQL的列式存儲Infobright等,而一些批處理或基於半結構化數據的需求則可以使用hadoop。數據的統計分析方法很多,例如假設檢驗,顯着意義檢驗,差異分析,相關分析,T檢驗,方差分析,卡方分析,偏相關分析,距離分析,迴歸分析,簡單迴歸分析,多元迴歸分析,逐步迴歸,迴歸預測和殘差分析,嶺迴歸,邏輯迴歸分析,曲線估計,因子分析,聚類分析,主成分分析,因子分析,快速聚類和聚類方法,判別分析,對應分析,多元對應分析(最佳規模分析),自舉技術等。在統計和分析部分,主要特徵和挑戰是分析中涉及的大量數據,這將大大佔用系統資源,尤其是I/O。

 

  步驟4:價值挖掘

 

  與以前的統計和分析過程不同,數據挖掘通常沒有任何預設的主題,主要是基於對現有數據的各種算法的計算,從而達到預測的效果,以實現一些高級的數據分析需求目的。典型的算法包括用於聚類的Kmeans,用於統計學習的SVM和用於分類的NaiveBayes。使用的主要工具是Mahout for Hadoop。該過程的特點和挑戰主要在於用於挖掘的算法非常複雜,並且計算中涉及的數據量和計算量非常大。常用的數據挖掘算法主要是單線程的。

 

  大數據分析技術的發展需要我們對於非結構化數據進行分析,如果能夠將海量複雜多源的語音、圖像和視頻數據轉化爲機器可識別的、具有明確語義的信息,進而從中提取有用的知識。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章