聽孟小峯教授報告有感

今天下午在太原理工大學聽取了孟小峯教授的報告,報告的題目爲:雲計算與大數據。

孟小峯教授是中國人民大學信息學院的副院長,在大數據領域帶領其團隊已經有了數年的積累,對於什麼是大數據以及大數據的意義有着自己的實踐與理解,對於大數據的獲取、數據之間聯繫的建立以及數據信息的詮釋有着實際的體會。在此就把通過這次報告我所得到的寫下來,同時把我的疑問也記錄下來。

1,一個新見解:大數據是一種需求。

之前我一直膚淺的理解大數據是一種技術,而這次報告一開始,孟教授就闡述了這個觀點,即:大數據是一種需求。

隨着網絡的發展,人們在使用網絡的過程中已經並且正在產生大量數據,這些數據正如在殷墟發現的甲骨文一般,蘊藏着重要的價值,但我們卻無從下手去建立數據之間的聯繫,從而獲得有價值的信息。在這個背景下,對於這些數據的分析的需求就造就了大數據這種技術,所以說,大數據是一種需求。

2,孟教授對於推動技術進步力量的認識

編程範式的發展、實際需求的推動以及硬件的發展。在孟教授看來,這三點是推動技術進步的因素。

在傳統的CS模式中,C/C++所代表的編程範式解決了當時的需求,在網絡時代,Java所代表的編程範式所面對的是BS的問題,而面對現在的對於海量數據的處理需求,直接促進產生了大數據相關的技術。

在報告會中,孟教授格外強調了硬件的發展對於技術的重要性,孟教授有一句話大意是這樣的:起初我們在編程時不得不接觸硬件,之後,我們的編程彷彿是在一個虛擬的環境中,不用去關心硬件,那麼現在,我們必須重新去認識硬件,利用硬件來提高我們處理的速度。

孟教授介紹了關於現在的存儲設備的變革,包括了非易失性的內存,這必將帶來編程上的改變,只有改變現在的編程範式,才能更好地與現在的設備結合,提高性能,尤其是對於性能有要求的數據方面的操作。

3,數據源的改變

起初,數據是被動的,是在公司機構的日常生產中被動產生的(運營式),這種數據格式固定,在處理之前就有着明確的含義與使用方式;然後,數據是主動產生的,是人們藉由互聯網主動記錄的,比如你的狀態、照片等等(互聯網),隨後的發展,數據是自動產生的(感知網),而這種自動產生的大量數據,在孟教授看來,正是大數據的真正驅動力。數據的源變的複雜多樣,這就意味着數據的格式變得不統一。以前 ,對於數據信息的獲取就彷彿是使用網在池塘中捕魚,池塘中的魚是放養的,大小差不多,一網下去就會撈起不少,而現在對於數據中有價值信息的獲取則是在大海中捕魚,大海中的魚大小不一,使用相同的網子必然導致撈起大的就錯過小的,反之亦然。這就使得我們對於數據信息的抽取技術的變革,針對不同的數據使用不同的網子(有意思的點:孟教授的一個關於大數據分析的應用實現了自動生成數據抽取程序《關於定性分析大數據的應用》)。

4,大數據下編程範式的改變

之前的數據庫編程範式是把會產生的數據已經做好了對應的格式,在使用過程中從產生到處理都是基於已經預定義好的數據規範。在大數據時代,數據的格式千差萬別,多種多樣,使用之前的編程範式已經無法解決現在的問題。面對現在的狀況,新的編程範式已經由預定規律改變成了發現規律,即通過對已經獲得的數據的分析發現數據的格式上的規律,以便進行下一步的處理。也就是說,現在的大數據模式已經成爲了先有數據,後有模式,再使用發現的模式處理新的數據。
5,孟教授關於其成果的介紹

孟教授介紹了其帶領團隊在大數據領域的成果。我的疑惑也在這個地方。孟教授及其團隊在大數據分析過程中,採用了一種數據抽樣的方法,即,把現有的海量數據首先根據特徵進行抽樣,然後去分析抽取出的數據,在預置的置信區間中分析大數據,從而實現分析速度的提高。而這個預置區間就是一個可以接受的準確度。我的體會就是,孟教授通過採用這種方法以定性的方式分析大數據,來提供一些決策性的信息。但是,孟教授同時也介紹道,Google的無人汽車也是大數據的應用,那麼,對於這種大數據應用,顯然定性的分析是不可行的,那麼仍把其歸於大數據的範圍,是不是把大數據的概念糾纏了?這個Google的無人車大數據與傳統的多信息融合網絡有什麼區別(待查資料)?最後體會總覺得大數據這個概念有些模糊,應用領域有些過於寬泛。

6,關鍵點

大數據的關鍵點:數據集成、數據抽取、建立數據間的聯繫、分析數據的含義。

7,其他點,待查閱資料

Stream Process

包括:Storm(Twitter) S4(Yahoo!)

 

ScholarSpace

 

Online Aggregation

 

CCF大數據會議

 

數據科學家

8,網頁

http://idke.ruc.edu.cn/

9,建議切入點

可以選擇一類數據,開發對於這類數據的大數據分析工具來切入這個領域。

 

憑記憶整理,難免有紕漏,敬請諒解!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章