大數據的基礎理論是怎麼架構起來的?

大數據不僅是當下火熱的IT新興行業,也是一項由多學科、多領域結合而成的綜合性技術,更被認爲是一種思維方式,是一門科學。學習大數據技術有必要了解一下大數據的理論基礎,對於有理想有追求的同學們來說,如果以後想要往更深的方向發展會很有幫助

雖然大數據的理論體系尚未形成,但大數據與哲學、數學、物理學等學科的內在聯繫已有所顯現,哲學、數學、物理學也將爲大數據提供數理和哲學基礎。此處僅簡述大數據的哲學基礎和數學基礎。

哲學是關於世界觀的學說,大數據存在着哲學基礎,因爲大數據首先被認爲是一種認識論,關於這一點,一些具有代表性的觀點爲:

1)大數據代表了一種新的思維方式,也是一種新的方法論。人類對世界的認識,是精神世界和物質世界兩個同構系統之間的相互作用,而大數據作爲一種新的認識論,通過物質世界的表現——數據的呈現,使物質和精神兩個世界達到了統一。認識者獲得的不是對象本身的絕對映像,而是從對象中抽象出來的、關於對象運動軌跡的數據。從這一角度看,同構關係是大數據的數理哲學基礎;

【大數據開發學習資料領取方式】:加入大數據技術學習交流羣458345782,點擊加入羣聊,私信管理員即可免費領取

2)世界的規律表現爲恆常規律、混沌規律和浮動規律。恆常規律的認識基於少量的數據即可實現,但對於混沌規律和浮動規律的認識,則需要以足夠多的數據也即大數據爲依據。所以,大數據更適合研究混沌規律和浮動規律。理論上,混沌規律是沒有規律可尋的,應基於全部的數據,而浮動數據是有跡可尋的,只要有足夠的數據即可。例如,當數據表現出一定的統計特性時,足夠的數據可以通過統計特性展現其規律;

3)浮動規律和混沌規律往往難以找到精確的因果關係,所以,大數據也更適合於從數據中挖掘關聯關係。一種情況是,大數據挖掘出的關聯關係,並沒有超越人類的先驗知識,而是對先驗知識給予了定量的表徵。另一種情況是,大數據挖掘出的知識,超越了人類的先驗知識,爲人類揭示了至今沒有認識到的規律。

數學是科學的基礎,不能建立數學模型並用數學方法分析,不能稱之爲科學,但大數據統一的數學基礎和系統的建模方法目前還沒有形成。“從數據中學習”是統計學的重要目標,正因如此,統計學也成爲大數據最基本的數學基礎。進行預測或分類時,在線性迴歸、支持向量機、人工神經網絡的有指導或無指導學習過程中都體現了統計學方法。

在基於統計學的機器學習之外,大數據也存在許多基於全數據分析的數據分析方法。這些方法包括決策樹方法、Apriori算法、劃分方法以及層次方法等。同樣基於大數據具有統計特徵的假設,有學者嘗試用隨機矩陣作爲某類大數據的統一數據模型。假設構成大數據的系統來自呈空間分佈的N個數據源,每一個數據源可以表示爲時變向量,由此可將整個系統的數據整合爲一個單獨的大型矩陣,也即隨機矩陣。

“熵”也被用來表徵大數據所表現出來的特徵。當大數據滿足一定的統計特性時,大數據所表徵的事物的特性可以用“熵”來表徵。針對大數據的數據類型複雜性,學術界目前鼓勵發展一種一般性的結構化數據和半結構化、非結構化數據之間的轉化原則,如,在對網絡上多種來源的數據進行性質分析和規律探索中,有學者嘗試運用圖論和統計分析等方法對數據進行定量分析,並已有學者發現了複雜的網絡大數據之中存在一些統計規律性。綜上所述,就大數據的數學基礎而言,可總結如下:

1)形成大數據的系統建模方法和統一數學結構,是形成大數據統一完備理論的前提和關鍵,也是大數據研究者的努力目標。由於大數據數據類型的複雜性,這一目標的實現看起來相當不易,即使是可行的,也必定要經歷很長的路程;

2)目前提出的一些數學方法主要是在統計學基礎上發展的,“熵”的計算,隨機矩陣理論等均是基於大數據具有統計特性假設基礎上建立的;還有一些數學理論,是針對半結構化和非結構化數據的建模和分析而建立的。

大數據的未來發展是不會侷限於僅僅是一種技術,當大數據成爲一種廣泛的思維方式,人們的生活可能會變得更加便利。現在開始學習大數據,快人一步體驗科技的魅力,成爲時代的“弄潮兒”。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章