大數據的基礎理論是怎麼架構起來的？

原創

yyyyyyyyyooi

2019-06-11 17:11

大數據不僅是當下火熱的IT新興行業，也是一項由多學科、多領域結合而成的綜合性技術，更被認爲是一種思維方式，是一門科學。學習大數據技術有必要了解一下大數據的理論基礎，對於有理想有追求的同學們來說，如果以後想要往更深的方向發展會很有幫助

雖然大數據的理論體系尚未形成，但大數據與哲學、數學、物理學等學科的內在聯繫已有所顯現，哲學、數學、物理學也將爲大數據提供數理和哲學基礎。此處僅簡述大數據的哲學基礎和數學基礎。

哲學是關於世界觀的學說，大數據存在着哲學基礎，因爲大數據首先被認爲是一種認識論，關於這一點，一些具有代表性的觀點爲：

1）大數據代表了一種新的思維方式，也是一種新的方法論。人類對世界的認識，是精神世界和物質世界兩個同構系統之間的相互作用，而大數據作爲一種新的認識論，通過物質世界的表現——數據的呈現，使物質和精神兩個世界達到了統一。認識者獲得的不是對象本身的絕對映像，而是從對象中抽象出來的、關於對象運動軌跡的數據。從這一角度看，同構關係是大數據的數理哲學基礎；

【大數據開發學習資料領取方式】：加入大數據技術學習交流羣458345782，點擊加入羣聊，私信管理員即可免費領取

2）世界的規律表現爲恆常規律、混沌規律和浮動規律。恆常規律的認識基於少量的數據即可實現，但對於混沌規律和浮動規律的認識，則需要以足夠多的數據也即大數據爲依據。所以，大數據更適合研究混沌規律和浮動規律。理論上，混沌規律是沒有規律可尋的，應基於全部的數據，而浮動數據是有跡可尋的，只要有足夠的數據即可。例如，當數據表現出一定的統計特性時，足夠的數據可以通過統計特性展現其規律；

3）浮動規律和混沌規律往往難以找到精確的因果關係，所以，大數據也更適合於從數據中挖掘關聯關係。一種情況是，大數據挖掘出的關聯關係，並沒有超越人類的先驗知識，而是對先驗知識給予了定量的表徵。另一種情況是，大數據挖掘出的知識，超越了人類的先驗知識，爲人類揭示了至今沒有認識到的規律。

數學是科學的基礎，不能建立數學模型並用數學方法分析，不能稱之爲科學，但大數據統一的數學基礎和系統的建模方法目前還沒有形成。“從數據中學習”是統計學的重要目標，正因如此，統計學也成爲大數據最基本的數學基礎。進行預測或分類時，在線性迴歸、支持向量機、人工神經網絡的有指導或無指導學習過程中都體現了統計學方法。

在基於統計學的機器學習之外，大數據也存在許多基於全數據分析的數據分析方法。這些方法包括決策樹方法、Apriori算法、劃分方法以及層次方法等。同樣基於大數據具有統計特徵的假設，有學者嘗試用隨機矩陣作爲某類大數據的統一數據模型。假設構成大數據的系統來自呈空間分佈的N個數據源，每一個數據源可以表示爲時變向量，由此可將整個系統的數據整合爲一個單獨的大型矩陣，也即隨機矩陣。

“熵”也被用來表徵大數據所表現出來的特徵。當大數據滿足一定的統計特性時，大數據所表徵的事物的特性可以用“熵”來表徵。針對大數據的數據類型複雜性，學術界目前鼓勵發展一種一般性的結構化數據和半結構化、非結構化數據之間的轉化原則，如，在對網絡上多種來源的數據進行性質分析和規律探索中，有學者嘗試運用圖論和統計分析等方法對數據進行定量分析，並已有學者發現了複雜的網絡大數據之中存在一些統計規律性。綜上所述，就大數據的數學基礎而言，可總結如下：

1）形成大數據的系統建模方法和統一數學結構，是形成大數據統一完備理論的前提和關鍵，也是大數據研究者的努力目標。由於大數據數據類型的複雜性，這一目標的實現看起來相當不易，即使是可行的，也必定要經歷很長的路程；

2）目前提出的一些數學方法主要是在統計學基礎上發展的，“熵”的計算，隨機矩陣理論等均是基於大數據具有統計特性假設基礎上建立的；還有一些數學理論，是針對半結構化和非結構化數據的建模和分析而建立的。

大數據的未來發展是不會侷限於僅僅是一種技術，當大數據成爲一種廣泛的思維方式，人們的生活可能會變得更加便利。現在開始學習大數據，快人一步體驗科技的魅力，成爲時代的“弄潮兒”。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

大數據的基礎理論是怎麼架構起來的？

職場上打拼的人，這4件事一定要去爭取

大學生是否該選擇培訓機構學習，這些因素看完就知曉

python+人工智能學習路徑是怎麼樣？

簡歷投出去卻沒有電話，關注這些，錄取提高了80%

Scala難道會成爲大數據世界的通用編程語言？

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結