身邊的大數據和我們的着手點

身邊的大數據和我們的着手點

2014年8月17日~

從上次在圖書館外等小孩借書開始考慮這個問題,已經有好幾個月了。一直在思考,也動手做了一些嘗試,但是一直“在過程中”。期間,再次翻閱了《大數據時代》和相關的網上資源,每天除了工作,總在思考將這段的思路總結一下。

早期的精確統計,或隨機取樣,到現在的“樣本=全部”的大數據思想出現,我感覺我們可以做點事情了。雖然一直忙碌於“企業應用”的事情,不過總有一份“互聯網的基因”存在。從最早採集的50多POI,到最近收集的300多移動上網過程數據,做一個數據分析,做一下大數據時代的嘗試。

大數據發展的核心動力來源於人類測量、記錄和分析世界的渴望。信息技術變革隨處可見,但是如今的信息技術變革的重點在“T”(技術)上,而不是在“I”(信息)上。現在,我們是時候把聚光燈打想“I”,開始關注信息本身了。

不論是成熟的互聯網還是正熱的移動互聯,都在每天產生大量的數據,如果不進行處理挖掘,這些數據將總是沉睡冰藏在各地的硬盤中。現在處理能力和存儲空間都變的越來越廉價,是時候將“數據”變成“信息”,將“信息”變成“知識”,用知識來指導組織的運營和個體的日常生活了。

“數據”可能還是硬盤的負載,“知識”就是提高人們幸福感的源泉。

本文是我在“負載”向“源泉”前進過程中的一些思考總結,供見着參考,希望同業者交流。

一、        多大算是大數據

據說微軟的拼寫檢查基礎數據量是千萬條,谷歌的的智能翻譯基礎數據量是千億,有次聽利物浦大學的教授講的,所謂“大數據”至少要到10的10次方,到這個數量級,我們平常的數據來源是較難得到了。

不過,看《大數據時代》分析的摔跤比賽樣本,使用的是“11年時間裏,約64000場摔跤比賽的記錄”,要通過這些大數據來尋找其異常性。還是分析出了比賽成敗的人爲因素和心理因素。

看來,所謂“大”,也要看數據樣本的對象了。所以我把這裏叫做“身邊的大數據”比較合適。這裏的身邊的大數據包括:我對自己的位置行爲採集和記錄,一些參與測試者的上網過程記錄。

如果,你有自己的大數據資源,我們也可以一起分析。

二、        對大數據的期望

面對一個數據集合的時候,人都帶有一定期望的,至少是“初步的認識和期望”。如果漫無目的地“從裏面找出規律”,也不知道是什麼規律了。

“對數據特徵的初步瞭解和理解”,任何事情不可能憑空造出個算法或模型來,就像“TRIZ理論”,對發明問題也可以提供些解決套路一樣。

聽過一個恐龍級公司分析銀行數據,基本的期望包括:

l  銀行用戶的資金變動情況,逐減的是夕陽客戶,波動式上升的就是朝陽客戶。

l  朝陽客戶的地域分佈情況,增加相應的門店和客服經理,提升客戶服務的滿意度。

l  朝陽客戶的行爲特徵,提供更加貼心的服務,挖掘潛在的客戶價值。

l  門店的儲戶增長情況,儲蓄增長情況。月度,年度波動情況,避免騙儲增業績的情況。

l  在初期“期望項”之外,在數據分析過程中,一些中間結果,做一些統計分析,可以產生其它數據結果,比如:

n  客戶的年齡段

n  不同客戶到訪門店的時間段特徵

n  不同時間段,不同門店的排隊情況

n  重要客戶車位佔用和預留計劃

n  客流量和天氣的關聯變動

n  儲蓄量、投資量與國家經濟增長的關聯變化

n  銀行關鍵業務指標預測和後續投資量

n  投資和風險回報的關聯關係

 

三、        數據處理過程和產生的結果

首先,持有一個大數據集(比如銀行),或者能獲得持續增長的大數據源(比如互聯網應用),根據對數據特徵的初步瞭解和理解,進行統計分析,可以產生初步的數據規律模型。

模型的建立和改進,可以從以下維度,從對數據的基礎特性瞭解和理解,建立多維度模型:

l  期望的結果模型

l  分析過程中間結果模型

l  實際結果模型

l  人工辨識的數據特徵模型

l  多維度數據統計模型

身邊的大數據和我們的着手-1.

2014年9月3日,百度世界發佈的大數據應用產品“城市預測”,“景點預測”,“高考預測”,“世界盃預測”,“歐洲聯賽預測”,“經濟指數預測”。雖然感覺玄妙,但是對掌握這樣的資源,有能建立相應的預測模型還是佩服不已。

身邊的大數據和我們的着手-2.

四、        我的數據處理模型

建模(提綱):

l  時間特性

l  地點和位置特性

l  日增特性

l  人的移動特性(軌跡)

l  異常排序統計

l  上網過程和天氣變化的關聯

l  綜合分析出人的特性

至目前,已有的“大數據集”,按照以上模型進行一次單機“非遍歷”處理,需要45分鐘以上。接下來我計劃進行一些專業處理環境的搭建和嘗試。

歡迎關注後續。謝謝!

五、        附錄

Hadoop和Storm

Storm是一個免費開源、分佈式、高容錯的實時計算系統。它與其他大數據解決方案的不同之處在於它的處理方式。

Hadoop 在本質上是一個批處理系統,數據被引入Hadoop文件系統 (HDFS) 並分發到各個節點進行處理。當處理完成時,結果數據返回到 HDFS 供始發者使用。Hadoop的高吞吐,海量數據處理的能力使得人們可以方便地處理海量數據。但是,Hadoop的缺點也和它的優點同樣鮮明——延遲大,響應緩慢,運維複雜。Storm就是爲了彌補Hadoop的實時性爲目標而被創造出來。

 

S語言和R語言

S語言是由AT&T貝爾實驗室開發的一種用來進行數據探索、統計分析、作圖的解釋型語言。它的豐富的數據類型(向量、數組、列表、對象等)特別有利於實現新的統計算法,其交互式運行方式及強大的圖形及交互圖形功能使得我們可以方便的探索數據。

目前S語言的實現版本主要是S-PLUS。它基於S語言,並由MathSoft公司的統計科學部進一步完善。作爲統計學家及一般研究人員的通用方法工具箱,S-PLUS強調演示圖形、探索性數據分析、統計方法、開發新統計工具的計算方法,以及可擴展性。

S-PLUS可以直接用來進行標準的統計分析得到所需結果,但是它的主要的特點是它可以交互地從各個方面去發現數據中的信息,並可以很容易地實現一個新的統計方法。

R語言是統計領域廣泛使用的,誕生於1980年左右的S語言的一個分支。 R語言是S語言的一種實現。S語言是由AT&T貝爾實驗室開發的一種用來進行數據探索、統計分析、作圖的解釋型語言。最初S語言的實現版本主要是S-PLUS。S-PLUS是一個商業軟件,它基於S語言,並由MathSoft公司的統計科學部進一步完善。

R是一套完整的數據處理、計算和製圖軟件系統。其功能包括:數據存儲和處理系統;數組運算工具(其向量、矩陣運算方面功能尤其強大);完整連貫的統計分析工具;優秀的統計製圖功能;簡便而強大的編程語言:可操縱數據的輸入和輸出,可實現分支、循環,用戶可自定義功能。與其說R是一種統計軟件,還不如說R是一種數學計算的環境,因爲R並不是僅僅提供若干統計程序、使用者只需指定數據庫和若干參數便可進行一個統計分析。R的思想是:它可以提供一些集成的統計工具,但更大量的是它提供各種數學計算、統計計算的函數,從而使使用者能靈活機動的進行數據分析,甚至創造出符合需要的新的統計計算方法。

本文地址,http://blog.xufun.cn/?p=655

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章