深入淺出學習大數據:核心篇之大數據分析!

  • 一:數據分析目的和分類

深入淺出學習大數據:核心篇之大數據分析!

  • 數據分析處理來自對某一興趣現象的觀察、測量或者實驗的信息,數據分析目的是從和主題相關的數據中提取儘可能多的信息,主要目標包括:

• 推測或解釋數據並確定如何使用數據;
• 檢查數據是否合法;
• 給決策制定合理建議;
• 診斷或推斷錯誤原因;
• 預測未來將要發生的事情

深入淺出學習大數據:核心篇之大數據分析!

由於統計數據的多樣性,數據分析的方法大不相同,可以將數據根據下述標準分爲幾類:根據觀察和測量得到的定性或定量數據,根據參數數量得到的一元或多元數據,此外,有些工作對領域相關的算法進行了總結,Manimom等對數據挖掘算法進行了分類,將其分爲描述性(deive)、預測性和驗證性(veryfying),Bhatt等則將多媒體分析方法劃分爲特徵提取、變形、表示和統計數據挖掘,然而並沒有對大數據處理方法進行分類的工作,Blackett等根據數據分析深度將數據分析分爲三個層次:描述性(deive)分析,預測性分析和規則性(preive)分析。

  • 描述性分析

基於歷史數據描述發生了什麼,例如,利用迴歸技術從數據集中發現簡單的趨勢,可視化技術用於更有意義地表示數據,數據建模則以更有效的方式收集、存儲和刪減數據,描述性分析通常應用在商業智能和可見性系統。

  • 預測性分析

用於預測未來的概率和趨勢,例如,預測性模型使用線性和對數迴歸等統計技術發現數據趨勢,預測未來的輸出結果,並使用數據挖掘技術提取數據模式(pattern)給出預見。

  • 規則性分析

解決決策制定和提高分析效率,例如,仿真用於分析複雜系統以瞭解系統行爲並發現問題,而優化技術則在給定約束條件下給出最優解決方案。

  • 二、應用演化

深入淺出學習大數據:核心篇之大數據分析!

數據驅動的應用在過去幾十年裏已經出現,例如,20世紀90年代在商業領域出現的商業智能,21世紀初期出現的基於數據挖掘的web搜索引擎,接下來將介紹在不同時期典型大數據領域中具有高影響力的大數據分析應用的發展。

  • (1)商業應用演化

早期的商業數據是結構化的數據,由企業或公司收集並存儲在關係數據庫管理系統中,這些系統應用的數據分析技術通常是直觀簡單的,Gartner總結了商業智能應用的常用方法,包括報表(reporting)、儀表盤(dashboard)、即時查詢(adhocquery)、基於搜索的商業智能、在線事務處理、交互可視化、計分卡、預測模型和數據挖掘。21世紀初期,互聯網和web使得企業將其業務上線,並能和客戶直接聯繫,大量的產品和客戶信息如點擊流數據日誌和用戶行爲可以通過web收集,通過使用不同的文本和web挖掘技術,可以完成產品放置優化,客戶事務分析,產品推薦和市場結構分析,據報道,2011年移動手機和平板電腦的數量首次超過了筆記本和PC機,移動手機和物聯網構建了具有位置感知、個人爲中心和上下文感知的革新性應用。

  • (2)網絡應用演化

早期的網絡提供電子郵件和網站服務,因此文本分析、數據挖掘和網頁分析技術被用於挖掘郵件內容、創建搜索引擎,網絡數據佔據了全球數據的絕大部分,包含文本、圖像、視頻、照片和交互式內容等多種類型的數據,隨後,用於半結構化和無結構數據的分析技術得到了發展,例如,圖像分析技術可以從照片中提取有意義的信息,多媒體分析技術可以使商業或軍事領域的視頻監控系統自動化,2004年後,諸如論壇、博客、社交網站、多媒體分享站點等在線社交媒體的出現使得用戶能夠產生、上傳和共享豐富的用戶自主創造內容,從這些不同人們發佈社交媒體內容中可以挖掘每天的熱門事件和社會政治觀點等,從而提供及時的反饋和意見。

  • (3)科學應用演化

科學研究的許多領域中高生產量的傳感器和儀器將產生大量的數據,如天文學、海洋學、基因學和環境研究等學科領域,美國NSF宣佈對BIGDATA項目進行立項,促進數據分享和分析,有些科學研究學科以前已開發出對海量數據的分析平臺,並取得了有效地成果,例如在生物學科,iPlant利用信息基礎設施,物理計算資源和支持互操作的分析軟件等,向致力於豐富植物科學知識的研究者、教育者和學生提供數據服務,iPlant數據集是多樣性的數據,包含權威的和供參考的數據、實驗數據、仿真建模數據、觀察數據和其他處理後的數據。

.

基於以上的分析,可以將數據分析的研究分爲6個方向:結構化數據分析、文本分析、web數據分析、多媒體數據分析、社交網絡數據分析和移動數據分析,結構化數據分析是指傳統的數據分析,Web數據、多媒體數據、社交網絡數據和移動數據,從數據形態上可能包括結構化數據的某些數據類型(如文本),但是在特定的應用領域裏面,具有新的分析要求和特性。

  • 三、常用分析方法

儘管目標和應用領域不同,一些常用的分析方法幾乎對所有的數據處理都有用,下面將討論三種類型的常用數據分析方法。

深入淺出學習大數據:核心篇之大數據分析!

  • 數據可視化

深入淺出學習大數據:核心篇之大數據分析!

與信息繪圖學和信息可視化相關,數據可視化的目標是以圖形方式清晰有效地展示信息38),一般來說,圖表和地圖可以幫助人們快速理解信息,但是,當數據量增大到大數據的級別,傳統的電子表格等技術已無法處理海量數據,大數據的可視化已成爲一個活躍的研究領域,因爲它能夠輔助算法設計和軟件開發,Friedman和Frits分別從信息表示和計算機科學領域對數據可視化進行了探討。Tabusvis則是一個輕型的可視化系統,提供對多維數據的靈活、可定製的數據可視化。

  • 統計分析

基於統計理論,是應用數學的一個分支,在統計理論中,隨機性和不確定性由概率理論建模,統計分析技術可以分爲描述性統計和推斷性統計,描述性統計技術對數據集進行摘要(summarization)或描述,而推斷性統計則能夠對過程進行推斷,更多的多元統計分析包括迴歸、因子分析、聚類和判別分析。

  • 數據挖掘

是發現大數據集中數據模式的計算過程,許多數據挖掘算法已經在人工智能、機器學習、模式識別、統計和數據庫領域得到了應用。此外,一些其他的先進技術如神經網絡和基因算法也被用於不同應用的數據挖據。有時候,幾乎可以認爲很多方法間的界線逐漸淡化,例如數據挖掘、機器學習、模式識別、甚至視覺信息處理、媒體信息處理等等,此處以“數據挖掘”作爲一個通稱。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章