楊明川:中國電信燈塔大數據應用實踐

來源:數據觀 時間:2016-09-05 11:05:27 作者:燈塔大數據

2016年9月4日,CDAS2016第三屆中國數據分析師行業峯會在北京國際會議中心成功舉辦,中國電信雲計算重點實驗室執行副主任楊明川主任,在峯會上做了題爲《中國電信燈塔大數據應用實踐》的主題演講,以下是演講實錄:

楊明川:中國電信燈塔大數據應用實踐
 

大家好,非常高興今天有機會能夠跟大家分享一下《中國電信燈塔大數據應用實踐》,我本人是中國電信北京研究院負責雲計算和大數據部門的負責人。我們也開發了燈塔大數據系統,這個系統是我們面向整個大數據領域做的探索和創新。

楊明川:中國電信燈塔大數據應用實踐
 

我今天介紹的內容有幾方面,首先簡單分析一下大數據最新的行業背景,從我們角度來看,最近行業有哪些點是我們比較關注的。第二方面,我們也想介紹一下我們正在做的一些事情。最後有幾個案例,借這個機會給大家分享。也想通過這個分享能夠看看大家能不能找到共同感興趣的話題,或者大家共同在這個領域一起合作研究的機會。

楊明川:中國電信燈塔大數據應用實踐
 

這是大數據從開始到現在最新的發展歷程,大數據的整個發展週期也會經歷起起伏伏的發展,比如說去年挺熱,但去年整個大數據業務還沒有真正起來,今年之後,大數據在各個領域深度研究和深度跟行業結合,能夠找到真正有價值的點纔剛剛開始起來。我想未來幾年應該是大數據領域真正能夠找到他自身價值,而不僅僅是炒作的階段。

楊明川:中國電信燈塔大數據應用實踐
 

另外一個方面我們覺得比較關注的應該是從2014年最早開始,但從去年到今年,國家逐漸把大數據上升成爲國家戰略,這裏面幾個方面,包括“十三五”規劃,包括國務院印發的“互聯網+”、大數據等等一系列相關政策和產業上的一些主導。大數據逐漸上升到國家戰略之後,對我們產業來講是非常大的促進,這個促進一方面會帶來很多,比如說政府大數據相關領域的機會,同時,從國家層面也會促進給大數據營造比較健康的產業環境。比如大家比較關注大數據的隱私保護、安全法律等等問題,大數據不同行業不同領域之間大數據的交易市場,大數據的融合等等,更加規範的問題。所以我想大數據上升爲國家戰略之後,會爲產業發展帶來新的機會,也會給大數據的產業發展帶來更多健康有序的空間。

楊明川:中國電信燈塔大數據應用實踐
 

真正大數據的空間,未來大數據發展還是要圍繞着“互聯網+”來講,“互聯網+”最基本的概念是連接,“互聯網+”它的真正含義,一方面是連接,什麼樣的連接呢?低成本連接,通過大規模協同進行連接,更多的通過移動互聯網去連接等等。我想大數據是在連接基礎上去打破信息壁壘,也就是說,打一個不恰當的比方,在“互聯網+”早期階段,我們更多是把不同環節通過互聯網的方式把它連接起來。大數據要做的是第二階段,我不但要把不同環節連接起來,而且我要讓不同階段他們的信息不對稱,他們的信息壁壘要通過大數據去打破。比如說通過大數據,讓相互之間信息更加透明,更加有效,更加可信,某種意義上也涵蓋了大數據未來發展的一個要點。我的觀點是,大數據未來真正的空間要和“互聯網+”進行更加有效的結合,特別是大數據怎麼應用在那些互聯網還不夠發達的行業,怎麼樣通過和這些行業大數據進一步深入分析和拓展,能夠打造更加有效的“互聯網+”。

楊明川:中國電信燈塔大數據應用實踐
 

整個產業是有兩個線條,我們去分析這個線條的構成其實也是在找我們的定位,我們覺得整個大數據產業結構,數據一條線,技術一條線。在數據這條線,比如說數據的基礎設施,各個運營商,各個銀行,各個大的互聯網公司等等。再往上數據開放,比如從去年開始非常火熱的數據交易市場,包括很多政府主導的數據交易市場。再往上是面臨“互聯網+”的大數據行業。再往上是數據算法能力這條線。這兩條線互相交織,構成大數據產業結構,在未來我們面向更加智能化的發展,面向更大的空間,我覺得剛開始階段大家比較注重的是左下角階段,我們怎麼樣更多的獲取數據,未來整個產業會不斷的向上發展,比如說大數據和“互聯網+”融合,我們需要和行業進行深度融合。原有大數據更多的是通過機器學習、商業智能等等手段,未來會不會和人工智能技術,比如深度學習、物聯網、區塊鏈等等技術去進行合作,進行更深的結合。通過這樣的結合我相信大數據領域的發展會從一個比較低的數據彙集,原來是誰有數據誰就能夠在這個領域佔據主導,未來不是這樣,我們會向上不斷延伸。

從燈塔大數據角度講,我們希望我們定位爲行業大數據解決方案提供者以及在大數據關鍵技術,特別是算法能力方面的創新者和開拓者,後面我分享的案例會有簡單的介紹。

楊明川:中國電信燈塔大數據應用實踐
 

回到運營商來講,大家都認爲運營商具有最廣泛的數據,也有最海量的數據,運營商來講做大數據應該是具有很好的條件的。我們也是通過幾年的不斷研究和探索,我們也遇到很多困惑,真正大數據發展起來,在後面發展過程中,我們還是會發現遇到很多的問題,很多的障礙,這個障礙各個層面的。比如說數據的完整性,不同來源數據之間的關聯,實時的數據怎麼樣能夠有效的獲取,在紛雜的數據中,大量的數據污染,大量無效的數據和錯誤的數據噪聲怎麼樣去除,這些數據能不能連續,行業知識怎麼和數據進行有效結合,當然,大家都會比較關注的安全隱私怎麼保護。

楊明川:中國電信燈塔大數據應用實踐
 

我們怎麼樣能夠一方面做大數據分析和挖掘,一方面又能夠避免這個行業走向全社會不願意看到的一些隱患。對我們來講就是兩個方面,一個是技術創新,一個是應用創新,這二者之間形成雙螺旋的關係。技術創新加上應用創新,再加上前面數據和技術的產業鏈條相結合,我想可能是我們在大數據行業裏面進行不斷研究,不斷深化的一些主線條。

楊明川:中國電信燈塔大數據應用實踐
 

我們認爲大數據未來的發展空間在於“互聯網+”,結合我們自己研究的實踐,我們覺得邁向“互聯網+”有哪些大數據相關的關鍵問題,我們也進行了分析。

比如說數據拼接,其實我們有不同來源的數據,任何一家都不可能擁有所有的數據,我們會有不同的數據,來自於我們採集的數據,爬蟲的數據,來自於互聯

楊明川:中國電信燈塔大數據應用實踐
 

網公司各種各樣的,包括APP的數據,包括RTB的數據,包括行業數據。但是這些數據他們的質量不一,表示方法也不一樣,特別是他們缺乏很有效的統一標識,怎麼樣能夠通過有效的技術手段去把不同的數據有效的拼接起來,我覺得這是大數據面臨的一個關鍵問題,我們在這方面也進行了探索。

楊明川:中國電信燈塔大數據應用實踐
 

第二個問題是深度標籤技術,包括以前的互聯網廣告裏面也會給每個人做畫像,也會給每個人打標籤,但這樣的標籤通常意義來講都是比較淺層次的標籤,我看了什麼網頁,我可能關注了什麼商品。我覺得大數據未來的發展可能我們需要去挖掘用戶行爲背後的東西,比如說真正的消費意識是什麼,你的消費能力是什麼,你在某一個事情上的偏好是什麼等等,隱藏在大量日常行爲背後的東西,甚至是你的一些動機,你的一些模式,我們希望把這些東西通過我們的大數據技術算法提取出來,我們稱之爲深度標籤技術。

楊明川:中國電信燈塔大數據應用實踐
 

第三個是行業知識建模技術,這些技術它解決的問題是光有用戶行爲數據是不夠的,特別是我們要面向“互聯網+”的話,我們必須把這些數據和我們的領域知識進行有效對應,才能發現它真正的背後價值和意義。第四個是場景智能推薦技術。第五個是數據源很大的時候,數據降維和關聯分析。第六個是大規模交互式數據可視化技術。第七個是數據安全和隱私保護。這些技術也是我們燈塔大數據重點研究的方向。我們希望通過技術創新能夠發現一些比較好的有意思的東西。

後面是我們的不同探索。比如數據拼接技術,在燈塔裏面,除了運營商內部的數據資源以外,我們也通過數據爬蟲,通過和其他大數據團隊、公司之間的合作,也有很多第三方的數據源,我們怎麼通過這些事情把不同來源數據進行有效拼接呢?比如我們在一些地區,我們怎麼樣去打通手機號、郵箱號、淘寶號等等它們之間的關聯關係,打破它們之間的關係,讓不同來源的數據有效拼接在一起。這裏採取了不同的技術模型,模型我不細講了,大家感興趣以後我們可以交流。

深度標籤技術,這裏我們也列舉了算法,也跟一些高校在合作。打個比方,我們怎麼樣判斷一個人的消費行爲,大家如果做消費行爲分析的時候就會知道,男士和女士他們的消費行爲是不一樣的,有一些典型的消費行爲。當然也有一些人的消費行爲介於男士和女士之間。我們做分析並不是通過原始數據發現比如你這個消費者是男性還是女性,而是通過你的消費行爲,比如你買了什麼東西,你關注什麼新聞,你關注什麼樣的帳號,通過這樣的行爲去推測這個人的性別行爲。這個性別行爲和一個人的真實是有差異的,但一個人生理上的性格和真正購物時做決策的行爲之間哪個更準不好說。

通過這樣的深度標籤方法,能夠發現一個人行爲背後的東西,比如說可變的性別行爲,還有一個人的購買力,他購買的偏好,購買力的偏好也是不一樣的。有些人可能收入不高,但是購買模式是比較喜歡消費奢侈品,或者中高端商品,也有深入高的,但是他的消費模式不一樣等等。更多的是通過算法發現背後的東西。知識建模,比如我們通過行業信息爬取,我們構建更加豐富的行業知識模型,比如說電商的知識圖,我們把電商的商品信息,特別是不同電商他們同一款商品可能有不同的表示,有不同的型號,他們可能就是一款商品,我們怎麼樣把不同電商裏面的商品進行對齊,以及比如說影視相關的信息,汽車、房地產,我們能不能通過外部的行業知識去構建一個行業的知識圖譜,而且這個知識圖譜可能不僅僅是一個支點式的知識圖譜,未來通過知識圖譜技術,通過圖的技術,我們能夠把這些分離的知識再能夠關聯起來,形成很大的知識圖,不同的電影,不同的人,不同的物之間,它們能夠通過巨大的圖譜連接起來,再把這個東西和我們前面講的數據進行有效連接。還有其他技術,比如對地理信息的挖掘,基於位置信息,以及對於這個位置區域的人口屬性分析,我們去挖掘異常行爲。後面我也會講到我們給政府解決方案過程中會用到這樣的方法,做位置分析。

楊明川:中國電信燈塔大數據應用實踐
 

第二部分,介紹一下我們燈塔大數據。我們自己的定位還是在應用創新方面,中國電信也有很多做大數據的,我們作爲研究院,我們希望能夠更多的把我們的精力放在應用創新、技術創新、算法創新方面。

楊明川:中國電信燈塔大數據應用實踐
 

我們自己也整合了一些數據,比如我們內部數據,當然,也考慮到安全隱私,其實內部數據不涉及到內部比較核心的和用戶隱私相關的數據,我們更多的是外部的,我們內部採集到的用戶行爲相關的數據,比如DPI等等數據。第二方面我們更多采集了互聯網數據,比如我們通過爬蟲,我們對不同行業信息,前面講知識圖譜,我們更多把行業信息爬取出來,通過我們的算法,構建行業知識圖譜,以及社交媒體,微博、微信等等,還有視頻方面的信息,我們後面有一個例子就講我們怎麼樣把視頻的信息和我們的行爲數據進行有效的結合,打造價值指數。

楊明川:中國電信燈塔大數據應用實踐
 

當然,還有第三方數據,這個是和合作夥伴進行數據方面的合作產生的。我們在幾個層面上,比如不同數據來源的整合,而且我想整合的目的不是把這些數據都加起來,而是我們把這些數據拼接起來之後,能夠產生更全更新的數據,我們希望把不同來源數據整合起來之後能夠讓這些數據增值,這是一部分。二是構建大數據分析算法的能力,最後在一些領域進行嘗試和探索。

楊明川:中國電信燈塔大數據應用實踐
 

具體講幾個案例,第一個案例是我們面向政府做的,隨着國家大數據戰略的實施,可能政府大數據,政務雲,在這方面會受到越來越多的關注,我們也和電信的省公司合作,推進政府大數據項目。

楊明川:中國電信燈塔大數據應用實踐
 

比如說從政府角度講,他們有很多關注點,比如城市人口的綜合視圖,城市管理、綜合發展的管理決策,比如社會治安,比如重點人羣監測,異常行爲的監測,比如外來人口等等,這個點有很多,我們只是列舉其中的幾個點。

楊明川:中國電信燈塔大數據應用實踐
 

比如人口密度綜合視圖,政府都比較關注,比如人口分佈、外來人口、當前活動視圖等等,我們也提供這樣的解決方案。比如說人口的基礎設施規劃,我們現在也在做基於區域的。

楊明川:中國電信燈塔大數據應用實踐
 

又如我們可以在地圖上任意劃定一塊區域,我們可以監測這個區域人羣的情況,包括人羣的數量,人羣的分佈,以及這個人羣內部,結合前面講的用戶人羣畫像特徵,我們可以做這個區域的人羣分佈,甚至更復雜的事情,比如這個區域裏邊外來人口的比例等等事情。

楊明川:中國電信燈塔大數據應用實踐
 
楊明川:中國電信燈塔大數據應用實踐
 

還有一塊,重點外來人口,這個可能和某些地方是有關的。外來人口變化和監測,我們自己也做了一些相關的大數據分析,能夠動態的檢測部分地區他的外來人口來源和比例。這個更多是跟公安部門合作,比如通過用戶信息、通話信息、位置信息做綜合處理和深度挖掘,能夠提升輿情研判,幫助預警。還有人口普查,這是簡單的案例來說明我們怎麼樣能夠通過我們的數據和一些算法上的能力,能夠針對比如說政府管理部門他們的大數據需求,開展相關的解決方案工作。

楊明川:中國電信燈塔大數據應用實踐
 

案例二,分享一下網絡視頻節目觀衆商業價值指數。前面講了我們也構建了行業知識圖譜,比如說在視頻領域,現在視頻分成幾種,一種是互聯網視頻,各大視頻網站的視頻,還有電視臺播放的TV視頻,這些視頻有不同的視頻節目,視頻節目本身也有電影、影視、綜藝節目,我們想分析一個問題。視頻節目都在做廣告,衡量一個視頻節目廣告價值量以前相對比較單純,就是它的收視率,如果是電視臺的話就看收視率,或者說就看點擊量,這個簡單的方法是有一定問題的。同樣一個電視節目可能他的收視率一樣,但是我們會深入的去分析,同樣是1000萬人看了這個節目,但是這1000萬人他的年齡結構、消費水平、行爲愛好、行爲習慣都不一樣,比如我看電視的時候我會不會上網等等,這些情況不一樣,導致一個電視節目同樣1000萬人看,但是它的商業價值有很大差異。

楊明川:中國電信燈塔大數據應用實踐
 

對於有的電視節目同樣的收視率下,他的收看人羣,收入水平比較高,消費意願比較強,在線購物活躍度比較大,這些節目潛在的商業價值肯定要比觀看年齡結構,相對購買意願沒那麼強的節目來得大。從這個角度出發,我們結合多方數據,比如影視方面的知識圖譜,我們把線上線下的收視行爲進行打通,我們再把影視的觀看行爲和用戶的購物行爲,和用戶其他的行爲,比如相關的特殊行業,房地產、汽車等等這方面領域的深度關聯和分析,我們想打造影視行業的價值指數,這個價值指數不同於傳統上收視率的價值,我們希望通過這個指數能夠幫助到電視臺他去衡量一個電視節目真正的價值,能夠幫助在電視上投放廣告的商家,能夠幫助他們發現什麼樣的節目可能他的廣告價值會更高等等。

楊明川:中國電信燈塔大數據應用實踐
 

這些是我們做出來的一些結果,比如說2015年-2016年,我們對45個熱播節目進行了分析,包括有電視劇,有綜藝節目,也有網絡節目,它們的收視率情況不一樣,但是它們的價值指數分析,比如我們有這樣一些維度,觀看過程中最近一次購買的時間,購買的頻率,購買的總額等等,通過這樣一些對應關係分析,我們有這樣一些結論。比如說節目觀衆的商業價值,長尾程度,節目收視率和觀衆的商業價值之間不存在正向相關性,觀衆的潛在商業價值和已有商業價值呈現顯著相關性,電視劇的觀衆商業價值明顯高於綜藝節目和網絡化節目,高價值觀衆一般在夜間和上午時段觀看視頻節目。大家如果對這個感興趣可以關注我們公衆號。

楊明川:中國電信燈塔大數據應用實踐
 

我們還有一些其他的案例。

楊明川:中國電信燈塔大數據應用實踐
 

比如市場研究,這是我們之前做的市場研究報告。

楊明川:中國電信燈塔大數據應用實踐
 

還有消費者決策路徑。前面有嘉賓分享也提到了,現在在網絡時代,大家的消費決策過程跟以前是不一樣的,我覺得最大的好處是在購買比較貴重商品的時候,這個決策鏈條我們可以通過網上行爲進行更加有效的跟蹤,我們把它叫決策路徑跟蹤,如果大家要買房或者買汽車的話,決策時間超過一個月,在這一個月裏面不同的時段他會有不同的行爲,不同的時段也有影響他的不同方式等等。通過這樣一些決策路徑研究,我們能夠更加清楚的知道可能任何一個消費者他現在處於什麼樣的階段,我們應該用什麼樣的方式對他施加影響,未來我們可能會把這個進行更加深度的建模,能夠發現用戶在消費過程當中他的行爲模式。

楊明川:中國電信燈塔大數據應用實踐
 

這是一個企業徵信分析,這個也是我們通過網絡其他的行爲,不同於原來我們講的這個企業收入是多少,負債是多少,現金流是多少等等這樣的行爲,我們通過別的行爲。比如這個企業裏面企業員工收入水平怎麼樣,比如這個員工是不是有離職意願,這些員工工作時間都在幹嗎等等這樣一些其他的信息,能夠構建其他的模型,對企業整體運行狀況,特別是這個模型更加有助於企業未來發展發生的情況,能夠做出一個比較有意思的預測。

以上簡單分享了我們的一些案例,在這個過程當中我們也在不斷探索,希望有更多的合作 夥伴跟我們一塊兒去探索,謝謝大家!

張峯:謝謝楊主任的分享。下面有兩個提問的機會。

提問:你現在做了很多研究,基於電信運營數據,是從各個省彙集到你這,還是你只能一個省一個省去弄?

楊明川:我們現在不是做各個省的匯聚,這個工作不是我們的重點工作,我們的重點是和省公司合作,跟省裏合作。

提問:如果想做全國分析,目前的數據源還達不到是吧?

楊明川:現在還達不到,但我們現在能夠做重點城市分析。

提問:所以你和上海合作只能做上海的?

楊明川:不是上海,我們現在有很多重點城市,不僅僅是一個地方,可能有六七個地方。

提問:您提到對重點人羣違法行爲的關注和分析,能否介紹一下咱們這塊分析用的什麼數據源,以及通過哪些行爲分析判斷他是違法用戶,或者做一些違法事情。

楊明川:我們這裏做的不是特別強的分析,我們有兩方面的結合。一方面我們會和擁有這方面的數據公司合作,比如擁有犯罪記錄,這些數據我們是沒有的。我們能做的另外一方面的信息,比如違法方面的傾向,這裏面需要構建一些算法模型。

提問:這是用的咱們通信裏的數據源嗎?

楊明川:不是通信數據,更多用的是網絡數據。但是這塊我們也在研究,但更多用的是網絡數據來看他的傾向性的東西。當然,兩方面數據我們都會結合,如果很強的數據這方面我們沒有,我們更多是判斷中間地帶。

提問:剛纔有張PPT講視頻節目價值,我想問一下,您這個分析是基於移動網還是移動網和固定網都有?

楊明川:都有,固移融合。

提問:IPTV有嗎?

楊明川:IPTV有一部分,但不全。

提問:這個數據量很大,以省份爲試點?

楊明川:對,但是我相信這種研究我們做的數據量已經足夠大了,做這種研究我們一定要把全國所有人都拿出來做分析,這個沒有必要,一個城市的數據價值做出來的結果已經足夠好了。比如我在一個城市做的話,這個人口量級可能是百萬級,千萬級的。數據拼接的時候我們有一個ID關聯,我們會把不同ID提取出來,做一個映射關係。比如說移動網裏面有一些ID的特徵,打個比方,跟手機相關的一些信息,在固網裏面會有另外的特徵,比如他其他的帳號等等,其他ID的特徵,這個特徵和移動網的一些特徵做匹配,謝謝大家。

注:本文摘自數據觀入駐自媒體—燈塔大數據,轉載請註明來源,微信搜索“數據觀”獲取更多大數據資訊。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章