一文了解大數據,從算法、架構、應用到規劃--童亞齋

大數據時代滾滾襲來,認知決定佈局,行動決定終局,儘早佈局,收穫未來。

大數據時代,數據資產被認爲是“未來的黃金”,沉默已久的歷史數據也開始被喚醒。大數據將在社會生產、流通、分配、消費活動以及經濟運行機制等方面發揮着重要的作用。

但是,我們也要清楚的意識到,大數據也是有成本的,甚至會非常昂貴,這時,我們就要分析數據的成本和價值,然後做出取捨,做出合理方案,因爲越舊的數據,對現今市場的利用價值,就越低。比如30年前,某個產品的市場銷量和人羣畫像,對於今天的運營還有多大價值。所以,同樣是1G的數據,30年前的數據價值,比今年就要低很多。關於大數據的成本問題,後面會單獨專門來講。

 

我國大數據產業繼續保持高速發展,大數據將深入滲透到各行各業。到2025年,我國產生的數據量將從2018年的約7.6ZB增至2025年的48.6ZB。與此同時,美國2018年的數據約爲6.9ZB。到2025年,這個數字預計將達到30.6ZB,屆時將超越美國,數據交易迎來戰略機遇期。

下面將從大數據的應用場景,算法案例以及技術架構等三個方面進行介紹。

應用場景

大數據對各行各業的滲透,大大推動了社會生產和生活,未來必將產生重大而深遠的影響。

金融行業,大數據在高頻交易、社交情緒分析和信貸風險分析三大金融創新領域發揮重大作用。互聯網行業,藉助於大數據技術,可以分析客戶行爲,進行商品推薦和針對性廣告投放。製造業,利用工業大數據提升製造業水平,包括產品故障診斷與預測、分析工藝流程、改進生產工藝,優化生產過程能耗、工業供應鏈分析與優化、生產計劃與排程。物流行業,利用大數據優化物流網絡,提高物流效率,降低物流成本。城市管理,可以利用大數據實現智能交通、環保監測、城市規劃和智能安防。生物醫學,大數據可以幫助我們實現流行病預測、智慧醫療、健康管理,同時還可以幫助我們解讀DNA,瞭解更多的生命奧祕。體育娛樂,大數據可以幫助我們訓練球隊,決定投拍哪種題材的影視作品,以及預測比賽結果。安全領域,政府可以利用大數據技術構建起強大的國家安全保障體系,企業可以利用大數據抵禦網絡攻擊,警察可以藉助大數據來預防犯罪。個人生活, 大數據還可以應用於個人生活,利用與每個人相關聯的“個人大數據”,分析個人生活行爲習慣,爲其提供更加周到的個性化服務。

經典算法和場景

1.探索性數據分析

數據分析的一般流程是:確定目標->獲取數據源->數據探索->數據預處理->挖掘分析建模->模型效果評價。

數據的篩選、重組、結構化、預處理等都屬於探索性數據分析的範疇。進行數據分析,要從數據的收集和預處理開始。但是大多數人往往忽視這一點,這是非常錯誤的看法。在數據分析項目中,數據的收集和預處理往往佔據整個項目工作量的百分之七八十,正是這些簡單的工作決定了整個項目的成敗。

在機器學習/模式識別領域,有句經典的話,"Garbage in,Garbage out"。顧名思義,如果你的數據本身就有問題,那麼無論多麼牛X的模型,都無法輸出令人滿意的結果。數據的質量高低決定了數據分析的成功與否。好的數據滿足時效性、準確性、客觀性、全面性、結構性等多個條件。

2.相關分析

相關分析和迴歸分析是應用最廣泛的算法。如流星雨推薦系統中的協同過濾算法、神經網絡中的徑向基函數、各種各樣的聚類算法等,都借鑑了相關係數的計算方式及迴歸方程式的表達方式。

在這裏給大家重點介紹一下比較流行的協同過濾算法。個性化推薦系統總是被應用在各類購物網站和新聞網站上,它可以推薦商品和廣告,這其中絕大多數都是基於協同過濾算法做的推薦。

協同過濾的核心思想十分簡潔,可以簡單概括:假設根據歷史分析得知用戶甲喜歡的品牌,乙都喜歡。那麼,如果某一天,用戶甲購買了一件新商品,那麼就可以把這個新商品推薦給乙。

但是,協同過濾算法也有它自身的侷限性,分析師必須根據用戶的不同意圖,以及所處的不同場景爲用戶推薦不同的產品,這需要在一個系統中集合不同的算法,並瞭解業務的邏輯性。

3.迴歸分析

迴歸分析是根據事物變化發展的前因後果進行科學預測的方法。在金融領域,迴歸分析仍然是最重要的一項分析方法,華爾街的數學家使用迴歸分析模型計算每日的股價變化,以及每種投資組合的盈利概率,許多經典金融模型都是用迴歸方程式寫成的。

Logistic迴歸分析、線性迴歸分析和非線性迴歸分析並稱基本回歸分析模型。

Logistic迴歸分析可用於流感預測,谷歌就是基於這個算法,推出了“谷歌流感趨勢”。谷歌地圖利用人們對流感搜索的關鍵詞直接預測流感爆發。谷歌認爲倘若某個地方的人們突然瘋狂搜素感冒、咳嗽、發燒等和流感相關的詞彙,那麼這個地方爆發流感的可能性就比較大。但是,後來也發現了這個算法的一些問題,還有很多影響預測的因素,比如最新的藥品銷量、人口流動、風力強弱、人口密度等都需要放進Logistic迴歸方程。

線性迴歸分析被廣泛用於各行各業,比如在電商或者百貨行業,主要用於預測產品銷量進而調整庫存,預測不同促銷組合產生的盈利進而確定促銷活動,預測廣告策略的影響,給不同消費者評分,進而尋找最優價值的消費者。在銷量的迴歸方程中引入了用戶搜索次數、顧客評價、庫存、服務態度、物流時間、折扣力度、廣告宣傳、購物體驗等十幾個變量。對於數據分析師來說,只有理解迴歸分析裏重要參數的意義,瞭解如何使用數據轉換、因子分析等輔助建立迴歸方程,才能得到具有識記意義的迴歸模型,並將其應用到實際生活中去。

4.降維分析

降維算法是隨着近年來數據量爆炸性增長而逐漸爲人們所重視的分析方法之一。降維分析算法的共同特點是將模型從較多的維度通過空間映射的方法變成較少的緯度,從而達到減少計算量或改善變量間關係的目的。

降維分析有很多算法,比如,粗糙集算法、因子分析、最優尺度分析等,這裏重點介紹一下粗糙集算法。

粗糙集算法可以用於制定信貸政策和風控政策。好的風控部門可以幫助公司提升利潤,維持國家經濟正常發展。如何在將錢借貸出去的同時保證人家會還,這是需要重點考慮的問題。但銀行在考察一個申請貸款的企業的時候,可能考慮很多方面,比如企業的類型、企業的財產狀況、每個類型企業的平均歷史還款情況,等等。

粗糙集算法中引入更多的條件屬性可以使協調決策更多,但是過多的條件屬性會拖累計算機的速度。通過計算每個屬性的重要程度,可以幫助數據分析師遴選出最有用的屬性,從而在計算精度和速度上折中。因此,粗糙集算法具有計算速度快、準確度高、結果易於理解等優點。

5.模式識別

計算機的發展和大數據時代的到來,促使人們自然而然地思考和如何利用大數據使計算機像人類一樣進行模式識別工作。

模式識別有很多算法,比如,圖像分析(無人駕駛)、遺傳算法(人力資源優化)、決策樹分析(準確判斷用戶健康水平)、K均值聚類分析(通過爲客戶分類降低退貨率)等。這裏重點介紹決策書分析算法。

決策樹是一種典型的分類方法,是如今最著名的模式識別算法之一。它能夠從數據集中抽取有價值的規則,並廣泛用於各種決策問題。

隨着網絡普及,人們購物、購票都可以在網上進行,就連健身都能夠通過網絡完成了。衆所周知,每個人的身體素質不同,適合的健身方法也不同,如何將用戶的體能測試數據和健身課程的難易係數掛鉤是一個最核心的問題,而決策樹算法恰巧是一個非常適合解決這個問題的算法。在使用決策樹決定用戶的訓練強度時,可以利用的變量有很多。最常見的有用戶的年齡、性別、身高、體重、肺活量、每分鐘脈搏次數、三圍、身體脂肪等。一個決策樹可以引入十幾種甚至近百種變量,從理論上來講,決策樹的變量越多,結果越準確。

決策樹的思想十分簡單,真正使得決策時所向無敵的是決策樹所決策條件的排列順序。爲了得到最優的決策結果,必須像決策樹引入熵和信息增益的概念。當然,決策樹也有像貪心算法等缺點,這裏不做詳細討論。

6.機器學習、深度學習、數據挖掘

另外,大數據在機器學習、深度學習、數據挖掘中也有衆多算法應用。

機器學習:語義搜索(沃爾瑪利用Kosmix語義搜索技術,提升15%的銷售額)、順序分析(搜狗輸入法利用順序分析進行智能糾錯)等。

深度學習:感知神經網絡(進行房地產價格預測)、RBM算法(爲新聞報道自動分類)等。

數據挖掘:購物籃分析(找出零售業的最佳商品組合,如啤酒和尿布)、馬爾可夫鏈(準確預測市場佔有率)等。

大數據技術架構

本篇文章主要是對大數據做一個整體的介紹,因此,涉及的內容比較廣。所以,關於具體技術的使用,這裏不做詳述。以後根據需要,再針對重點部分,進行分解。

1.大數據框架

2.大數據技術圖譜

大數據時代滾滾襲來,認知決定佈局,行動決定終局,儘早佈局,收穫未來。

後面會陸續聊聊金融、互聯網、信息化、區塊鏈、項目管理、組織建設以及各種雜七雜八的感悟和經歷,感謝大家關注。

“同道說"與你同行。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章