大數據處理的基本流程:數據抽取與集成+數據分析+數據解釋

大數據的數據來源廣泛,應用需求和數據類型都不盡相同,但是最基本的處理流程是一致的。

整個大數據的處理流程可以定義爲,在合適工具的輔助下,對廣泛異構的數據源進行抽取和集成,將結果按照一定的標準進行統一存儲,然後利用合適的數據分析技術對存儲的數據進行分析,從中提取有益的知識,並利用恰當的方式將結果展現給終端用戶。

具體來講,大數據處理的基本流程可以分爲數據抽取與集成、數據分析和數據解釋等步驟。

數據抽取與集成

大數據的一個重要特點就是多樣性,這就意味着數據來源極其廣泛,數據類型極爲繁雜。這種複雜的數據環境給大數據的處理帶來極大的挑戰。

要想處理大數據,首先必須對所需數據源的數據進行抽取和集成,從中提取出數據的實體和關係,經過關聯和聚合之後採用統一定義的結構來存儲這些數據。


webp

在數據集成和提取時,需要對數據進行清洗,保證數據質量及可信性。同時還要特別注意大數據時代數據模式和數據的關係,大數據時代的數據往往是先有數據再有模式,並且模式是在不斷的動態演化之中的。

數據抽取和集成技術並不是一項全新的技術,在傳統數據庫領域此問題就已經得到了比較成熟的研究。隨着新的數據源的涌現,數據集成方法也在不斷的發展之中。

【很多初學者,對大數據的概念都是模糊不清的,大數據是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大數據學習qq羣:數字458+數字345782,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大數據講師給大家免費授課,給大家分享目前國內最完整的大數據高端實戰實用學習流程體系】

從數據集成模型來看,現有的數據抽取與集成方式可以大致分爲 4 種類型:基於物化或 ETL 方法的引擎、基於聯邦數據庫或中間件方法的引擎、基於數據流方法的引擎,以及基於搜索引擎的方法。

數據分析

數據分析是整個大數據處理流程的核心,大數據的價值產生於分析過程。

從異構數據源抽取和集成的數據構成了數據分析的原始數據。根據不同應用的需求可以從這些數據中選擇全部或部分進行分析。

小數據時代的分析技術,如統計分析、數據挖掘和機器學習等,並不能適應大數據時代數據分析的需求,必須做出調整。大數據時代的數據分析技術面臨着一些新的挑戰,主要有以下幾點。

1)數據量大並不一定意味着數據價值的增加,相反這往往意味着數據噪音的增多。

因此,在數據分析之前必須進行數據清洗等預處理工作,但是預處理如此大量的數據,對於計算資源和處理算法來講都是非常嚴峻的考驗。

2)大數據時代的算法需要進行調整。

首先,大數據的應用常常具有實時性的特點,算法的準確率不再是大數據應用的最主要指標。

在很多場景中,算法需要在處理的實時性和準確率之間取得一個平衡。其次,分佈式併發計算系統是進行大數據處理的有力工具,這就要求很多算法必須做出調整以適應分佈式併發的計算框架,算法需要變得具有可擴展性。

許多傳統的數據挖掘算法都是線性執行的,面對海量的數據很難在合理的時間內獲取所需的結果。因此需要重新把這些算法實現成可以併發執行的算法,以便完成對大數據的處理。

最後,在選擇算法處理大數據時必須謹慎,當數據量增長到一定規模以後,可以從小量數據中挖掘出有效信息的算法並一定適用於大數據。

3)數據結果的衡量標準。

對大數據進行分析比較困難,但是對大數據分析結果好壞的衡量卻是大數據時代數據分析面臨的更大挑戰。

大數據時代的數據量大,類型混雜,產生速度快,進行分析的時候往往對整個數據的分佈特點掌握得不太清楚,從而會導致在設計衡量的方法和指標的時候遇到許多困難。

數據解釋

數據分析是大數據處理的核心,但是用戶往往更關心對結果的解釋。如果分析的結果正確,但是沒有采用適當的方法進行解釋,則所得到的結果很可能讓用戶難以理解,極端情況下甚至會引起用戶的誤解。

數據解釋的方法很多,比較傳統的解釋方式就是以文本形式輸出結果或者直接在電腦終端上顯示結果。這些方法在面對小數據量時是一種可行的選擇。

但是大數據時代的數據分析結果往往也是海量的,同時結果之間的關聯關係極其複雜,採用傳統的簡單解釋方法幾乎是不可行的。

解釋大數據分析結果時,可以考慮從以下兩個方面提升數據解釋能力。

1)引入可視化技術。

可視化作爲解釋大量數據最有效的手段之一率先被科學與工程計算領域採用。

該方法通過將分析結果以可視化的方式向用戶展示,可以使用戶更易理解和接受。常見的可視化技術有標籤雲、歷史流、空間信息流等。

2)讓用戶能夠在一定程度上了解和參與具體的分析過程。

這方面既可以採用人機交互技術,利用交互式的數據分析過程來引導用戶逐步地進行分析,使得用戶在得到結果的同時更好地理解分析結果的過程,也可以採用數據溯源技術追溯整個數據分析的過程,幫助用戶理解結果。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章