大數據分析案列

1、體育賽事預測

世界盃期間,谷歌、百度、微軟和高盛等公司都推出了比賽結果預測平臺。百度預測結果最爲亮眼,預測全程64場比賽,準確率爲67%,進入淘汰賽後準確率爲94%。現在互聯網公司取代章魚保羅試水賽事預測也意味着未來的體育賽事會被大數據預測所掌控。

“在百度對世界盃的預測中,我們一共考慮了團隊實力、主場優勢、最近表現、世界盃整體表現和博彩公司的賠率等五個因素,這些數據的來源基本都是互聯網,隨後我們再利用一個由搜索專家設計的機器學習模型來對這些數據進行彙總和分析,進而做出預測結果。”---百度北京大數據實驗室的負責人張桐

 

 

2、股票市場預測

去年英國華威商學院和美國波士頓大學物理系的研究發現,用戶通過谷歌搜索的金融關鍵詞或許可以金融市場的走向,相應的投資戰略收益高達326%。此前則有專家嘗試通過Twitter博文情緒來預測股市波動。

理論上來講股市預測更加適合美國。中國股票市場無法做到雙向盈利,只有股票漲才能盈利,這會吸引一些遊資利用信息不對稱等情況人爲改變股票市場規律,因此中國股市沒有相對穩定的規律則很難被預測,且一些對結果產生決定性影響的變量數據根本無法被監控。

目前,美國已經有許多對衝基金採用大數據技術進行投資,並且收穫甚豐。中國的中證廣發百度百發100指數基金(下稱百發100),上線四個多月以來已上漲68%。

和傳統量化投資類似,大數據投資也是依靠模型,但模型裏的數據變量幾何倍地增加了,在原有的金融結構化數據基礎上,增加了社交言論、地理信息、衛星監測等非結構化數據,並且將這些非結構化數據進行量化,從而讓模型可以吸收。

由於大數據模型對成本要求極高,業內人士認爲,大數據將成爲共享平臺化的服務,數據和技術相當於食材和鍋,基金經理和分析師可以通過平臺製作自己的策略。

http://v.youku.com/v_show/id_XMzU0ODIxNjg0.html

 

3、市場物價預測

CPI表徵已經發生的物價浮動情況,但統計局數據並不權威。但大數據則可能幫助人們瞭解未來物價走向,提前預知通貨膨脹或經濟危機。最典型的案例莫過於馬雲通過阿里B2B大數據提前知曉亞洲金融危機,當然這是阿里數據團隊的功勞。

 

4、用戶行爲預測

基於用戶搜索行爲、瀏覽行爲、評論歷史和個人資料等數據,互聯網業務可以洞察消費者的整體需求,進而進行針對性的產品生產、改進和營銷。《紙牌屋》選擇演員和劇情、百度基於用戶喜好進行精準廣告營銷、阿里根據天貓用戶特徵包下生產線定製產品、亞馬遜預測用戶點擊行爲提前發貨均是受益於互聯網用戶行爲預測。

購買前的行爲信息,可以深度地反映出潛在客戶的購買心理和購買意向:例如,客戶 A 連續瀏覽了 5 款電視機,其中 4 款來自國內品牌 S,1 款來自國外品牌 T;4 款爲 LED 技術,1 款爲 LCD 技術;5 款的價格分別爲 4599 元、5199 元、5499 元、5999 元、7999 元;這些行爲某種程度上反映了客戶 A 對品牌認可度及傾向性,如偏向國產品牌、中等價位的 LED 電視。而客戶 B 連續瀏覽了 6 款電視機,其中 2 款是國外品牌 T,2 款是另一國外品牌 V,2 款是國產品牌 S;4 款爲 LED 技術,2 款爲 LCD 技術;6 款的價格分別爲 5999 元、7999 元、8300 元、9200 元、9999 元、11050 元;類似地,這些行爲某種程度上反映了客戶 B 對品牌認可度及傾向性,如偏向進口品牌、高價位的 LED 電視等。

http://36kr.com/p/205901.html

 

5、人體健康預測

中醫可以通過望聞問切手段發現一些人體內隱藏的慢性病,甚至看體質便可知曉一個人將來可能會出現什麼症狀。人體體徵變化有一定規律,而慢性病發生前人體已經會有一些持續性異常。理論上來說,如果大數據掌握了這樣的異常情況,便可以進行慢性病預測。

 

6、疾病疫情預測

基於人們的搜索情況、購物行爲預測大面積疫情爆發的可能性,最經典的“流感預測”便屬於此類。如果來自某個區域的“流感”、“板藍根”搜索需求越來越多,自然可以推測該處有流感趨勢。

Google成功預測冬季流感:
2009年,Google通過分析5000萬條美國人最頻繁檢索的詞彙,將之和美國疾病中心在2003年到2008年間季節性流感傳播時期的數據進行比較,並建立一個特定的數學模型。最終google成功預測了2009冬季流感的傳播甚至可以具體到特定的地區和州。

 

7、災害災難預測

氣象預測是最典型的災難災害預測。地震、洪澇、高溫、暴雨這些自然災害如果可以利用大數據能力進行更加提前的預測和告知便有助於減災防災救災賑災。與過往不同的是,過去的數據收集方式存在着死角、成本高等問題,物聯網時代可以藉助廉價的傳感器攝像頭和無線通信網絡,進行實時的數據監控收集,再利用大數據預測分析,做到更精準的自然災害預測。

 

8、環境變遷預測

除了進行短時間微觀的天氣、災害預測之外,還可以進行更加長期和宏觀的環境和生態變遷預測。森林和農田面積縮小、野生動物植物瀕危、海岸線上升,溫室效應這些問題是地球面臨的“慢性問題“。如果人類知道越多地球生態系統以及天氣形態變化數據,就越容易模型化未來環境的變遷,進而阻止不好的轉變發生。而大數據幫助人類收集、儲存和挖掘更多的地球數據,同時還提供了預測的工具。

 

9、交通行爲預測

基於用戶和車輛的LBS定位數據,分析人車出行的個體和羣體特徵,進行交通行爲的預測。交通部門可預測不同時點不同道路的車流量進行智能的車輛調度,或應用潮汐車道;用戶則可以根據預測結果選擇擁堵機率更低的道路。

百度基於地圖應用的LBS預測涵蓋範圍更廣。春運期間預測人們的遷徙趨勢指導火車線路和航線的設置,節假日預測景點的人流量指導人們的景區選擇,平時還有百度熱力圖來告訴用戶城市商圈、動物園等地點的人流情況,指導用戶出行選擇和商家的選點選址。

多爾戈夫的團隊利用機器學習算法來創造路上行人的模型。無人駕駛汽車行駛的每一英里路程的情況都會被記錄下來,汽車電腦就會保持這些數據,並分析各種不同的對象在不同的環境中如何表現。有些司機的行爲可能會被設置爲固定變量(如“綠燈亮,汽車行”),但是汽車電腦不會死搬硬套這種邏輯,而是從實際的司機行爲中進行學習。

       這樣一來,跟在一輛垃圾運輸卡車後面行駛的汽車,如果卡車停止行進,那麼汽車可能會選擇變道繞過去,而不是也跟着停下來。谷歌已建立了70萬英里的行駛數據,這有助於谷歌汽車根據自己的學習經驗來調整自己的行爲。

 

http://www.5lian.cn/html/2014/chelianwang_0522/42125_4.html

 

10、能源消耗預測

加州電網系統運營中心管理着加州超過80%的電網,向3500萬用戶每年輸送2.89億兆瓦電力,電力線長度超過25000英里。該中心採用了Space-Time Insight的軟件進行智能管理,綜合分析來自包括天氣、傳感器、計量設備等各種數據源的海量數據,預測各地的能源需求變化,進行智能電能調度,平衡全網的電力供應和需求,並對潛在危機做出快速響應。中國智能電網業已在嘗試類似大數據預測應用。

 

二、大數據分析種類

  • 按照數據分析的實時性,分爲實時數據分析和離線數據分析兩種。

實時數據分析一般用於金融、移動和互聯網B2C等產品,往往要求在數秒內返回上億行數據的分析,從而達到不影響用戶體驗的目的。要滿足這樣的需求,可以採用精心設計的傳統關係型數據庫組成並行處理集羣,或者採用一些內存計算平臺,或者採用HDD的架構,這些無疑都需要比較高的軟硬件成本。目前比較新的海量數據實時分析工具有EMC的Greenplum、SAP的HANA等。

對於大多數反饋時間要求不是那麼嚴苛的應用,比如離線統計分析、機器學習、搜索引擎的反向索引計算、推薦引擎的計算等,應採用離線分析的方式,通過數據採集工具將日誌數據導入專用的分析平臺。但面對海量數據,傳統的ETL工具往往徹底失效,主要原因是數據格式轉換的開銷太大,在性能上無法滿足海量數據的採集需求。互聯網企業的海量數據採集工具,有Facebook開源的Scribe、LinkedIn開源的Kafka、淘寶開源的Timetunnel、Hadoop的Chukwa等,均可以滿足每秒數百MB的日誌數據採集和傳輸需求,並將這些數據上載到Hadoop中央系統上。

  • 按照大數據的數據量,分爲內存級別、BI級別、海量級別三種。

這裏的內存級別指的是數據量不超過集羣的內存最大值。不要小看今天內存的容量,Facebook緩存在內存的Memcached中的數據高達320TB,而目前的PC服務器,內存也可以超過百GB。因此可以採用一些內存數據庫,將熱點數據常駐內存之中,從而取得非常快速的分析能力,非常適合實時分析業務。圖1是一種實際可行的MongoDB分析架構。

 

圖1 用於實時分析的MongoDB架構

MongoDB大集羣目前存在一些穩定性問題,會發生週期性的寫堵塞和主從同步失效,但仍不失爲一種潛力十足的可以用於高速數據分析的NoSQL。

此外,目前大多數服務廠商都已經推出了帶4GB以上SSD的解決方案,利用內存+SSD,也可以輕易達到內存分析的性能。隨着SSD的發展,內存數據分析必然能得到更加廣泛的

應用。

BI級別指的是那些對於內存來說太大的數據量,但一般可以將其放入傳統的BI產品和專門設計的BI數據庫之中進行分析。目前主流的BI產品都有支持TB級以上的數據分析方案。種類繁多。

海量級別指的是對於數據庫和BI產品已經完全失效或者成本過高的數據量。海量數據級別的優秀企業級產品也有很多,但基於軟硬件的成本原因,目前大多數互聯網企業採用Hadoop的HDFS分佈式文件系統來存儲數據,並使用MapReduce進行分析。本文稍後將主要介紹Hadoop上基於MapReduce的一個多維數據分析平臺。

 

三、大數據分析一般過程

3.1 採集
大數據的採集是指利用多個數據庫來接收發自客戶端(Web、App或者傳感器形式等)的 數據,並且用戶可以通過這些數據庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關係型數據庫MySQL和Oracle等來存儲每一筆事務數據,除 此之外,Redis和MongoDB這樣的NoSQL數據庫也常用於數據的採集。
在大數據的採集過程中,其主要特點和挑戰是併發數高,因爲同時有可能會有成千上萬的用戶 來進行訪問和操作,比如火車票售票網站和淘寶,它們併發的訪問量在峯值時達到上百萬,所以需要在採集端部署大量數據庫才能支撐。並且如何在這些數據庫之間 進行負載均衡和分片的確是需要深入的思考和設計。

3.2 導入/預處理
雖然採集端本身會有很多數據庫,但是如果要對這些海量數據進行有效的分析,還是應該將這 些來自前端的數據導入到一個集中的大型分佈式數據庫,或者分佈式存儲集羣,並且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使 用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。
導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鐘的導入量經常會達到百兆,甚至千兆級別。

3.3 統計/分析
統計與分析主要利用分佈式數據庫,或者分佈式計算集羣來對存儲於其內的海量數據進行普通 的分析和分類彙總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基於 MySQL的列式存儲Infobright等,而一些批處理,或者基於半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的佔用。

3.4 挖掘
與前面統計和分析過程不同的是,數據挖掘一般沒有什麼預先設定好的主題,主要是在現有數 據上面進行基於各種算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型算法有用於聚類的Kmeans、用於 統計學習的SVM和用於分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用於挖掘的算法很複雜,並 且計算涉及的數據量和計算量都很大,常用數據挖掘算法都以單線程爲主。

 

 

四、大數據分析工具

4.1 Hadoop

Hadoop 是一個能夠對大量數據進行分佈式處理的軟件框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因爲它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分佈處理。Hadoop 是高效的,因爲它以並行的方式工作,通過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop 依賴於社區服務器,因此它的成本比較低,任何人都可以使用。

Hadoop是一個能夠讓用戶輕鬆架構和使用的分佈式計算平臺。用戶可以輕鬆地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點:

⒈高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。

⒉高擴展性。Hadoop是在可用的計算機集簇間分配數據並完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。

⒊高效性。Hadoop能夠在節點之間動態地移動數據,並保證各個節點的動態平衡,因此處理速度非常快。            

⒋高容錯性。Hadoop能夠自動保存數據的多個副本,並且能夠自動將失敗的任務重新分配。

Hadoop帶有用 Java 語言編寫的框架,因此運行在 Linux 生產平臺上是非常理想的。Hadoop 上的應用程序也可以使用其他語言編寫,比如 C++。

 

4.2 HPCC

HPCC,High Performance Computing and Communications(高性能計算與通信)的縮寫。1993年,由美國科學、工程、技術聯邦協調理事會向國會提交了“重大挑戰項目:高性能計算與 通信”的報告,也就是被稱爲HPCC計劃的報告,即美國總統科學戰略項目,其目的是通過加強研究與開發解決一批重要的科學與技術挑戰問題。HPCC是美國 實施信息高速公路而上實施的計劃,該計劃的實施將耗資百億美元,其主要目標要達到:開發可擴展的計算系統及相關軟件,以支持太位級網絡傳輸性能,開發千兆 比特網絡技術,擴展研究和教育機構及網絡連接能力。

該項目主要由五部分組成:

1、高性能計算機系統(HPCS),內容包括今後幾代計算機系統的研究、系統設計工具、先進的典型系統及原有系統的評價等;

2、先進軟件技術與算法(ASTA),內容有巨大挑戰問題的軟件支撐、新算法設計、軟件分支與工具、計算計算及高性能計算研究中心等;

3、國家科研與教育網格(NREN),內容有中接站及10億位級傳輸的研究與開發;

4、基本研究與人類資源(BRHR),內容有基礎研究、培訓、教育及課程教材,被設計通過獎勵調查者-開始的,長期 的調查在可升級的高性能計算中來增加創新意識流,通過提高教育和高性能的計算訓練和通信來加大熟練的和訓練有素的人員的聯營,和來提供必需的基礎架構來支 持這些調查和研究活動;

5、信息基礎結構技術和應用(IITA ),目的在於保證美國在先進信息技術開發方面的領先地位。

 

4.3 Storm

Storm是自由的開源軟件,一個分佈式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的數據流,用於處理Hadoop的批量數據。Storm很簡單,支持許多種編程語言,使用起來非常有趣。Storm由Twitter開源而來,其它知名的應用企業包括Groupon、淘寶、支付寶、阿里巴巴、樂元素、Admaster等等。

Storm有許多應用領域:實時分析、在線機器學習、不停頓的計算、分佈式RPC(遠過程調用協議,一種通過網絡從遠程計算機程序上請求服務)、 ETL(Extraction-Transformation-Loading的縮寫,即數據抽取、轉換和加載)等等。Storm的處理速度驚人:經測 試,每個節點每秒鐘可以處理100萬個數據元組。Storm是可擴展、容錯,很容易設置和操作。

 

4.4 Apache Drill

爲了幫助企業用戶尋找更爲有效、加快Hadoop數據查詢的方法,Apache軟件基金會近日發起了一項名爲“Drill”的開源項目。Apache Drill 實現了 Google’s Dremel.

據Hadoop廠商MapR Technologies公司產品經理Tomer Shiran介紹,“Drill”已經作爲Apache孵化器項目來運作,將面向全球軟件工程師持續推廣。

該項目將會創建出開源版本的谷歌Dremel Hadoop工具(谷歌使用該工具來爲Hadoop數據分析工具的互聯網應用提速)。而“Drill”將有助於Hadoop用戶實現更快查詢海量數據集的目的。

“Drill”項目其實也是從谷歌的Dremel項目中獲得靈感:該項目幫助谷歌實現海量數據集的分析處理,包括分析抓取Web文檔、跟蹤安裝在Android Market上的應用程序數據、分析垃圾郵件、分析谷歌分佈式構建系統上的測試結果等等。

通過開發“Drill”Apache開源項目,組織機構將有望建立Drill所屬的API接口和靈活強大的體系架構,從而幫助支持廣泛的數據源、數據格式和查詢語言。

 

4.5 RapidMiner

RapidMiner是世界領先的數據挖掘解決方案,在一個非常大的程度上有着先進技術。它數據挖掘任務涉及範圍廣泛,包括各種數據藝術,能簡化數據挖掘過程的設計和評價。

功能和特點

  • 免費提供數據挖掘技術和庫
  • 100%用Java代碼(可運行在操作系統)
  • 數據挖掘過程簡單,強大和直觀
  • 內部XML保證了標準化的格式來表示交換數據挖掘過程
  • 可以用簡單腳本語言自動進行大規模進程
  • 多層次的數據視圖,確保有效和透明的數據
  • 圖形用戶界面的互動原型
  • 命令行(批處理模式)自動大規模應用
  • Java API(應用編程接口)
  • 簡單的插件和推廣機制
  • 強大的可視化引擎,許多尖端的高維數據的可視化建模
  • 400多個數據挖掘運營商支持

耶魯大學已成功地應用在許多不同的應用領域,包括文本挖掘,多媒體挖掘,功能設計,數據流挖掘,集成開發的方法和分佈式數據挖掘。

 

4.6 Pentaho BI

Pentaho BI 平臺不同於傳統的BI 產品,它是一個以流程爲中心的,面向解決方案(Solution)的框架。其目的在於將一系列企業級BI產品、開源軟件、API等等組件集成起來,方便商務智能應用的開發。它的出現,使得一系列的面向商務智能的獨立產品如Jfree、Quartz等等,能夠集成在一起,構成一項項複雜的、完整的商務智能解決方案。

Pentaho BI 平臺,Pentaho Open BI 套件的核心架構和基礎,是以流程爲中心的,因爲其中樞控制器是一個工作流引擎。工作流引擎使用流程定義來定義在BI 平臺上執行的商業智能流程。流程可以很容易的被定製,也可以添加新的流程。BI 平臺包含組件和報表,用以分析這些流程的性能。目前,Pentaho的主要組成元素包括報表生成、分析、數據挖掘和工作流管理等等。這些組件通過 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技術集成到Pentaho平臺中來。 Pentaho的發行,主要以Pentaho SDK的形式進行。

Pentaho SDK共包含五個部分:Pentaho平臺、Pentaho示例數據庫、可獨立運行的Pentaho平臺、Pentaho解決方案示例和一個預先配製好的 Pentaho網絡服務器。其中Pentaho平臺是Pentaho平臺最主要的部分,囊括了Pentaho平臺源代碼的主體;Pentaho數據庫爲 Pentaho平臺的正常運行提供的數據服務,包括配置信息、Solution相關的信息等等,對於Pentaho平臺來說它不是必須的,通過配置是可以用其它數據庫服務取代的;可獨立運行的Pentaho平臺是Pentaho平臺的獨立運行模式的示例,它演示瞭如何使Pentaho平臺在沒有應用服務器支持的情況下獨立運行;

Pentaho解決方案示例是一個Eclipse工程,用來演示如何爲Pentaho平臺開發相關的商業智能解決方案。

Pentaho BI 平臺構建於服務器,引擎和組件的基礎之上。這些提供了系統的J2EE 服務器,安全,portal,工作流,規則引擎,圖表,協作,內容管理,數據集成,分析和建模功能。這些組件的大部分是基於標準的,可使用其他產品替換之。

 

4.7 SAS Enterprise Miner

  • § 支持整個數據挖掘過程的完備工具集
  • § 易用的圖形界面,適合不同類型的用戶快速建模
  • § 強大的模型管理和評估功能
  • § 快速便捷的模型發佈機制, 促進業務閉環形成

 

五、數據分析算法

大數據分析主要依靠機器學習和大規模計算。機器學習包括監督學習、非監督學習、強化學習等,而監督學習又包括分類學習、迴歸學習、排序學習、匹配學習等(見圖1)。分類是最常見的機器學習應用問題,比如垃圾郵件過濾、人臉檢測、用戶畫像、文本情感分析、網頁歸類等,本質上都是分類問題。分類學習也是機器學習領域,研究最徹底、使用最廣泛的一個分支。

最近、Fernández-Delgado等人在JMLR(Journal of Machine Learning Research,機器學習頂級期刊)雜誌發表了一篇有趣的論文。他們讓179種不同的分類學習方法(分類學習算法)在UCI 121個數據集上進行了“大比武”(UCI是機器學習公用數據集,每個數據集的規模都不大)。結果發現Random Forest(隨機森林)和SVM(支持向量機)名列第一、第二名,但兩者差異不大。在84.3%的數據上、Random Forest壓倒了其它90%的方法。也就是說,在大多數情況下,只用Random Forest 或 SVM事情就搞定了。

 

https://github.com/linyiqun/DataMiningAlgorithm

KNN

K最近鄰算法。給定一些已經訓練好的數據,輸入一個新的測試數據點,計算包含於此測試數據點的最近的點的分類情況,哪個分類的類型佔多數,則此測試點的分類與此相同,所以在這裏,有的時候可以複製不同的分類點不同的權重。近的點的權重大點,遠的點自然就小點。詳細介紹鏈接

Naive Bayes

樸素貝葉斯算法。樸素貝葉斯算法是貝葉斯算法裏面一種比較簡單的分類算法,用到了一個比較重要的貝葉斯定理,用一句簡單的話概括就是條件概率的相互轉換推導。詳細介紹鏈接

 樸素貝葉斯分類是一種十分簡單的分類算法,叫它樸素貝葉斯分類是因爲這種方法的思想真的很樸素,樸素貝葉斯的思想基礎是這樣的:對於給出的待分類項,求解在此項出現的條件下各個類別出現的概率,哪個最大,就認爲此待分類項屬於哪個類別。通俗來說,就好比這麼個道理,你在街上看到一個黑人,我問你你猜這哥們哪裏來的,你十有八九猜非洲。爲什麼呢?因爲黑人中非洲人的比率最高,當然人家也可能是美洲人或亞洲人,但在沒有其它可用信息下,我們會選擇條件概率最大的類別,這就是樸素貝葉斯的思想基礎。

SVM

支持向量機算法。支持向量機算法是一種對線性和非線性數據進行分類的方法,非線性數據進行分類的時候可以通過核函數轉爲線性的情況再處理。其中的一個關鍵的步驟是搜索最大邊緣超平面。詳細介紹鏈接

Apriori

Apriori算法是關聯規則挖掘算法,通過連接和剪枝運算挖掘出頻繁項集,然後根據頻繁項集得到關聯規則,關聯規則的導出需要滿足最小置信度的要求。詳細介紹鏈接

PageRank

網頁重要性/排名算法。PageRank算法最早產生於Google,核心思想是通過網頁的入鏈數作爲一個網頁好快的判定標準,如果1個網頁內部包含了多個指向外部的鏈接,則PR值將會被均分,PageRank算法也會遭到LinkSpan攻擊。詳細介紹鏈接

RandomForest

隨機森林算法。算法思想是決策樹+boosting.決策樹採用的是CART分類迴歸數,通過組合各個決策樹的弱分類器,構成一個最終的強分類器,在構造決策樹的時候採取隨機數量的樣本數和隨機的部分屬性進行子決策樹的構建,避免了過分擬合的現象發生。詳細介紹鏈接

Artificial Neural Network

“神經網絡”這個詞實際是來自於生物學,而我們所指的神經網絡正確的名稱應該是“人工神經網絡(ANNs)”。
人工神經網絡也具有初步的自適應與自組織能力。在學習或訓練過程中改變突觸權重值,以適應周圍環境的要求。同一網絡因學習方式及內容不同可具有不同的功能。人工神經網絡是一個具有學習能力的系統,可以發展知識,以致超過設計者原有的知識水平。通常,它的學習訓練方式可分爲兩種,一種是有監督或稱有導師的學習,這時利用給定的樣本標準進行分類或模仿;另一種是無監督學習或稱無爲導師學習,這時,只規定學習方式或某些規則,則具體的學習內容隨系統所處環境 (即輸入信號情況)而異,系統可以自動發現環境特徵和規律性,具有更近似人腦的功能。 

 

六、 案例

6.1 啤酒與尿布
   

“啤酒與尿布”的故事產生於20世紀90年代的美國沃爾瑪超市中,沃爾瑪的超市管理人員分析銷售數據時發現了一個令人難於理解的現象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關係的商品會經常出現在同一個購物籃中,這種獨特的銷售現象引起了管理人員的注意,經過後續調查發現,這種現象出現在年輕的父親身上。

在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便爲自己購買啤酒,這樣就會出現啤酒與尿布這兩件看上去不相干的商品經常會出現在同一個購物籃的現象。如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店, 直到可以一次同時買到啤酒與尿布爲止。沃爾瑪發現了這一獨特的現象,開始在賣場嘗試將啤酒與尿布擺放在相同的區域,讓年輕的父親可以同時找到這兩件商品,並很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布” 故事的由來。

當然“啤酒與尿布”的故事必須具有技術方面的支持。1993年美國學者Agrawal提出通過分析購物籃中的商品集合,從而找出商品之間關聯關係的關聯算法,並根據商品之間的關係,找出客戶的購買行爲。艾格拉沃從數學及計算機算法角度提 出了商品關聯關係的計算方法——Aprior算法。沃爾瑪從上個世紀 90 年代嘗試將 Aprior算法引入到 POS機數據分析中,並獲得了成功,於是產生了“啤酒與尿布”的故事。 

 

6.2 數據分析幫助辛辛那提動物園提高客戶滿意度

 

辛辛那提動植物園成立於1873年,是世界上著名的動植物園之一,以其物種保護和保存以及高成活率繁殖飼養計劃享有極高聲譽。它佔地面積71英畝,園內有500種動物和3000多種植物,是國內遊客人數最多的動植物園之一,曾榮獲Zagat十佳動物園,並被《父母》(Parent)雜誌評爲最受兒童喜歡的動物園,每年接待遊客130多萬人。

辛辛那提動植物園是一個非營利性組織,是俄亥州同時也是美國國內享受公共補貼最低的動植物園,除去政府補貼,2600萬美元年度預算中,自籌資金部分達到三分之二以上。爲此,需要不斷地尋求增加收入。而要做到這一點,最好辦法是爲工作人員和遊客提供更好的服務,提高遊覽率。從而實現動植物園與客戶和納稅人的雙贏。

藉助於該方案強大的收集和處理能力、互聯能力、分析能力以及隨之帶來的洞察力,在部署後,企業實現了以下各方面的受益:

-          幫助動植物園瞭解每個客戶瀏覽、使用和消費模式,根據時間和地理分佈情況採取相應的措施改善遊客體驗,同時實現營業收入最大化。

-          根據消費和遊覽行爲對動植物園遊客進行細分,針對每一類細分遊客開展營銷和促銷活動,顯著提高忠誠度和客戶保有量。.

-          識別消費支出低的遊客,針對他們發送具有戰略性的直寄廣告,同時通過具有創意性的營銷和激勵計劃獎勵忠誠客戶。

-          360度全方位瞭解客戶行爲,優化營銷決策,實施解決方案後頭一年節省40,000多美元營銷成本,同時強化了可測量的結果。

-          採用地理分析顯示大量未實現預期結果的促銷和折扣計劃,重新部署資源支持產出率更高的業務活動,動植物園每年節省100,000多美元。

-          通過強化營銷提高整體遊覽率,2011年至少新增50,000人次“遊覽”。

-          提供洞察結果強化運營管理。例如,即將關門前冰激淋銷售出現高潮,動植物園決定延長冰激淋攤位營業時間,直到關門爲止。這一措施夏季每天可增加2,000美元收入。

-          與上年相比,餐飲銷售增加30.7%,零售銷售增加5.9%。

-          動植物園高層管理團隊可以制定更好的決策,不需要 IT 介入或提供支持。

-          將分析引入會議室,利用直觀工具幫助業務人員掌握數據。

 

6.3 雲南昭通警察打中學生事件輿情分析

起因:  

5月20日,有網友在微博上爆料稱:雲南昭通魯甸二中初二學生孔德政,對着3名到該校出警並準備上車返回的警察說了一句“打電話那個,下來”,車內的兩名警員聽到動靜後下來,追到該學生後就是一頓拳打腳踢。

5月26日,昭通市魯甸縣公安局新聞辦迴應此事:魯甸縣公安局已對當事民警停止執行職務,對毆打學生的兩名協警作出辭退處理,並將根據調查情況依法依規作進一步處理。同時,魯甸縣公安局將加大隊伍教育管理力度,堅決防止此類事件的再次發生。

經過:

 

5月26日,事件的輿情熱度急劇上升,媒體報道內容側重於“班主任稱此學生平時愛起鬨學習成績差”“被打學生的同學去派出所討說法”“學校要求學生刪除照片”等方面,而學校要求刪除圖片等行爲的曝光讓事件輿情有擴大化趨勢。

5月26日晚間,新華網發佈新聞《警方迴應“雲南一學生遭2名警察暴打”:民警停職協警辭退》,中央主流網絡媒體公佈官方處置結果,網易、新浪、騰訊等門戶網站予以轉發,從而讓官方的處置得以較大範圍傳播。

 

昭通警察打中學生事件輿論關注度走勢(抽樣條數:290條)

總結:

“警察打學生,而且有圖有真相,在事發5天后,昭通市魯甸縣警方最終還是站在了輿論的風口浪尖。事發後當地官方積極迴應,並於5月26日將涉事人予以處理,果斷的責任切割較爲有效地撫平了輿論情緒,從而較好地化解了此次輿論危機。

  從事件的傳播來看,事發時間是5月20日,輿論熱議則出現在25日,4天的平靜期讓魯甸警方想當然地以爲事件就此了結,或許當事人都已淡忘此事。如果不是雲南當地活躍網友“直播雲南”於5月25日發佈關於此事的消息,並被當地傳統媒體《生活新報》關注的話,事情或許真的就此結束,然而輿情發展不允許假設的存在。這一點,至少給我們以警示,對微博等自媒體平臺上的負面信息要實時監測,對普通草根要監測,對本地實名認證的活躍網友更需監測。從某種角度看,本地實名認證的網友是更爲強大的“輿論發動機”,負面消息一旦經他們發佈或者轉發,所帶來的傳播和形成的輿論壓力更大。

  在此事件中,校方也扮演着極爲重要的角色。無論是被打學生的班主任,還是學校層面,面對此事件的迴應都欠妥當。學校層面的“刪除照片”等指示極易招致網友和學生的反感,在此反感情緒下,只會加劇學生傳播事件的衝動。班主任口中該學生“學習不好、愛起鬨”等負面印象被理解成“該學生活該被打”,在教師整體形象不佳的背景下,班主任的這些言論是責任感缺失的一種體現。校方和班主任的不恰當行爲讓事件處置難度和輿論引導難度明顯增加,實在不該。“ --- 人民網輿情監測室主任輿情分析師 朱明剛

 

七、大數據雲圖展示

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章