談談企業的數據工作!——企業的數據分析能力金字塔

寫在前面
筆者寫這篇文章的初衷源於兩個故事:
故事一:一位在互聯網行業做數據庫架構多年的同事一起吃飯,問起我現在在說什麼,我說自己在做醫療方面數據分析,同事笑,說:你有很多資源啊,只要你能拿到電子病例的數據,就能分析很多東西了……我臉上的微笑表情瞬間僵化!
故事二:當時爲內蒙一個企業做上游原材料供應商的數據管理項目,當時我們拿到的只是該企業小部分供應商的數據,下一階段計劃拿到其全國供應商的相關數據給該企業進行管理支持。有一天,我們的項目負責人很興奮,高興地對我說:後面我們拿到所有供應商的數據後,我們做的就是“真正的大數據”了,你要考慮一下後面的大數據分析如何做啊……我臉上的微笑再一次僵化!大家覺得以上兩個故事如何?我當時內心是有一萬頭羊駝奔騰而過的~~寫這篇文章的目的很簡單,就是希望向不瞭解數據分析體系建設的朋友們解釋一下:數據分析到底都包括些什麼?從完成數據採集到做出數據產品,到底有多遠的路程要走?筆者在工作的過程中碰到過很多企業老闆、客戶以及領導,他們對數據分析的理解之淺薄,讓我覺得難以置信。和他們交流之後的感觸,促使我寫了這篇文章。1. 數據分析本身是一個過程數據分析是企業的一種能力;數據分析本身是一個過程;數據分析的本質是一種思想。數據分析是一個過程——企業利用這一過程將數據中的信息提取出來,進行處理、識別、加工、呈現,最後成爲指導企業經營管理的知識和智慧。因而,企業利用這一過程的成熟程度,決定了企業使用數據的有效程度。影響這一過程的因素有四個:(如果有不同意見,還請大家補充)1、 技術和方法:我們的信息採集技術、數據庫架構、數據處理技術、算法、可視化等都會在很大程度上對這一過程產生根本性的限制或改變,這就是爲什麼分佈式存儲、運算等技術成熟後,大數據這一概念被熱捧的一個原因;2、 數據的應用:更準確的說數據應用在一個企業、一個行業甚至全社會中被理解的程度有多深、使用範圍有多廣,決定了你的數據影響力能夠達到的程度;3、 商務模式:這是一個當數據能力在市場中體現時纔會發揮作用的因素,好的商務模式可以爲行業內、跨行業的數據應用、數據產品提供好的商業環境,幫助其成長;而壞的商務模式也可能毀掉一個好的數據產品;4、 制度和規則:制度和規則既有國家層面的,例如數據安全保障方面的法規;也有行規、企業內部制度等。這些制度和規則保障了數據能夠被人們用在需要且正確的地方,而不是被濫用(某種程度上,制度和規則的缺失也是造成數據安全問題、行業數據標準混亂的主要原因)。

在我看來,從拿到數據到將數據中的知識提煉成人類的智慧,這是一個很長的過程,有可能一年甚至幾年(但是很多人把這個過程想得太短了)。首先,想要分析數據你要獲取數據。獲取數據這個過程如果是線上還相對容易,如果是線下就非常複雜,這也是爲什麼現在實體行業推進“互聯網+”如此緩慢的一個原因。其次,得到數據之後,如何整理才能讓數據變成信息,也是個“技術活”。這裏涉及到數據的清洗、整理、關聯等等問題,最麻煩的還不是做這些工作,而是隨着我們對數據認識的加深,這些工作總是不定時地就要返工修繕一遍——這也是沒有辦法的事情!再次,數據整理得到的信息是海量的,需要經過加工、提取、抽象等操作,提煉成爲各項知識被人腦理解、吸收。這個過程就涉及到各種分析方法的使用,而且這也是個隨着對業務認識的加深而逐漸複雜的過程,金融領域的風控模型、宏觀經濟領域的福利模型等等,都是發展多年並逐步演進的例子。最後,人們在各個業務領域通過數據得到知識,在很多情況下可以重複應用在不同的領域,並與其他領域的知識相融合,形成新的生產生活方式。每個領域的知識內容如何相互融合,也是一個需要長期實踐和探索的過程,“產品”這一概念從誕生到現在的發展過程,就是一個很好的例子。我把上述過程做了一個簡單的比喻幫助大家理解:採集到的原始數據就像是一個一個的沙礫,在沒有任何整合的情況下都是“一堆一堆的”;數據處理的過程就是把沙堆中的雜質去掉,把每種顏色的沙礫區分開,再通過不同的工藝使其成爲不同的磚塊;每個磚塊在建造數據大廈的過程中都有不同的用處,我們會按照圖紙(就是數據分析體系)將不同的磚塊用在適當的建築位置上;數據大廈構建完成後,每個房間裏面要完成的工作都各不相同,到底如何運用,就要看大廈使用者的安排了~~那麼,我們就來看看企業到底要做些什麼,才能完成從數據採集到智慧積累的這一過程。2. 企業的數據能力層級個人認爲,企業的數據分析能力層級大概可以分爲七級(這裏列出七個能力層級是強調底層基礎數據採集的意思):基礎IT系統的搭建、數據集中與標準化處理、數據報表及可視化的實現、日常產品和運營分析、精細化運營管理的實現、數據產品的輸出和變現、數據戰略的形成。個人水平有限,最後的數據戰略從沒接觸過,所以這裏不做闡述。

可能有同行會對這個金字塔的層級不認同,而且大部分專家也認爲這幾個部分是平級關係,不存在高低關係……我這裏這樣列出來只是爲了說明“要做到每個層級的水平,該層級以下的內容都是支撐這些層級的必要條件”而已,實際中的確是存在諸如“數據產品已經完成上線,但是數據可視化還停留在需要人工完成報表的階段”這樣的情況。(在互聯網行業中,往往數據產品是最先出現的,而後才產生數據採集及後續內容,因爲有了產品之後纔會有業務流程;但是在實體行業中,線下業務流程是已有的,不需要等數據產品產生後纔有業務流程,所以二者的數據分析構建過程完全不同。我這裏對互聯網產品領域不做考慮。)下面我們就來詳細說說每個層級的具體內容。2.1. 基礎IT系統最底層的”基礎IT系統”是一切數據分析的基礎,因爲它最重要的作用就是完成“數據採集”。“基礎IT系統”,這裏主要指的就是我們各個企業在實際生產中使用的軟件系統及其配套的硬件設備,如:網絡世界中的一串串抓取代碼,真實世界中的諸如醫院裏的醫學影像設備和其他傳感器、探測器,財務使用的財務管理軟件等等,這些系統解決了我們口中的“數據採集”問題,正是因爲有了這些基礎的IT系統(包括軟件和硬件),我們才能將生活中的所有一切數字化、可度量~~

解決了最基本的“數據採集”問題之後,是不是意味這我們就有數據了呢?NO!從數據採集系統中拿到的信息有這樣幾個特點:割裂的、碎片化的、無序的,它們必須經過處理之後才能用於使用,因而我們需要進入到下一個階段“數據集中與標準化”。2.2. 數據集中與標準化在“數據集中與標準化”這一層級中,我們要實現的是數據的集中管理與相互融合,打破數據壁壘,讓數據能夠正常地在企業內流動。如果把數據比作企業運營的血液,那麼我們要做的就是打通所有的血管,讓血液自由地流動。因而,這一階段的工作並不只是“數據集中”和“數據標準化”兩件事情,需要做的內容大概包括:(如有缺少的部分還請大家補充)1、 數據清理:這個步驟解決的問題是將系統採集到的內容轉化爲人類能夠理解的數據內容,主要有兩個方面:一是清理原始數據,使之完整、乾淨無雜質;二是將採集到的一些編碼信息轉化爲人能看懂的文字、數字等數據。2、 數據邏輯和數據結構的搭建:每個系統中的數據描述的都只是企業業務流程中的一部分,因此梳理業務流程,按照業務流程找到各個系統之間數據的銜接點,從而實現多領域數據的關聯。第一步,根據業務邏輯,需要將數據分別劃分爲多少類?每一類的字段、緯度、統計週期等都是什麼樣的?每一類數據需要多少層彙總?……這些問題首先將數據從採集的清單分離出來,成爲一個個數據體系;第二步,在考慮數據關聯邏輯方面,需要考慮三個方面:1) 關聯使用的“主鍵”需要在各個系統中實現統一,即在各個相關的系統中,對於同一內容的同一主鍵是相同的,例如:在電信系統中,用戶ID是個在所有相關係統中可以唯一標識用戶的主鍵,而非手機號碼;2) 各個系統中數據的時間顆粒度統一才能保證主鍵關聯的有效使用,例如表格A是每日最新數據,表格B是每日數據,則使用時就要在時間上進行限制:表格A中的日期=表格B中最大日期,而且這種情況下,要想查詢A表中的歷史數據就無法查到;3) 各類數據在業務上存在相互制約、相互影響的關係,這種關係也要在多系統的數據關聯中體現出來,例如營銷活動中的活動商品數量受到庫存商品數量的限制,在營銷活動執行過程中,每增加一單活動商品銷售量,庫存商品數就要進行相應的減少,若不做相應的觸發變更,多系統數據融合也會意義大減。

這裏我要特別強調一下數據關聯的意義。在行業內,我們經常把每一個包含了大量數據、卻又與其他系統無任何連通的數據系統稱之爲“數據孤島”。在多數實體行業中,一個企業內部也不同程度地存在數據孤島問題。有些數據孤島本身因爲包含的數據內容較多,足以支撐一定的數據分析應用的建設;但是有些數據孤島中的數據若想發揮價值,就必須實現與其他系統數據的有效融合使用,即數據關聯。2.3. 數據報表與可視化解決了數據關聯和標準化的問題之後,我們下一步要解決的問題是:如何能讓大家看到數據?最簡單直接的方法是“數據報表”。對,就是按照日常業務使用習慣,構建各種表格,在表格中填寫大量的數據。有的企業是手工製作報表,有的企業使用IT工具製作報表,有的企業則進入到了數據可視化的階段,什麼方式實現的不重要,重要的是將數據報表做出來呈現給用戶進行使用。數據可視化是隨着數據圖形化展現技術發展起來的,它的功能不僅僅是展示數據,它還將很多數據分析的方法、維度、樣式與基礎數據相結合,以更加形象和貼近業務應用場景的方式向用戶展示數據要表達的內容或問題。要實現數據可視化,不是隻有可視化工具就可以了,這背後也要求使用者對需要數據展示的業務邏輯、圖形效果等內容有深入的理解。

從“基礎IT系統”到“數據報表及可視化”,前三個層級從某些方面而言,都是完成數據分析和數據應用工作的基礎。對於一個企業來說,完成這三個層級的方式可以是手工形式的,也可以是本地系統化的,更可以是雲端化的,但是無論如何只有在一定程度上具備了上述三個層級的能力,才能說企業具有了使用數據指導運營、決策、管理等進行數據應用的基礎。2.4. 產品與運營分析在我的理解中,所有的分析都是從日常的產品和運營分析開始的。這一層級的主要作用有三個:1、解決日常運營和監控需求;2、深入分析用戶、市場、產品;3、以分析結果指導產品和運營工作。下面我們分別解釋:產品和運營分析,首先要滿足的就是日常數據的監控:高了?低了?爲什麼高?爲什麼低?數據的變動能否說明我們的產品和運營在往好的方向變化?如果變化是好的,我們如何繼續保持?如果是不好的,那是什麼原因造成的?如何改正?——這些是日常數據監控過程中,業務人員最常問的一些問題,解決這些問題是日常分析報告最主要的工作。其次,當日常分析已經成爲例行工作的一部分之後,企業的產品和業務人員就會發現簡單的日常分析無法解釋很多複雜的現象和問題,這就需要對用戶、產品、渠道、市場、需求等等方面進行深入的分析和研究。在這個過程中,很多針對具體業務情況的分析專題和數據模型應運而生,這些專題和模型幫助企業更好地認識我們的市場,撲捉客戶和潛在的商機。這其中最具代表性的例子就是“用戶畫像”(有關用戶畫像的內容網絡上有很多文章,這裏不再細說)。最後,根據日常分析和各種深入分析的結論,我們能知道諸如:這個營業廳發展的用戶質量很差,需要覈實這些用戶行爲的真實性;在XX環節中,耗費的人工工時較長,需要看看是改進該環節的人員配置還是存在其他問題……如此種種從數據中反映的問題,最後都會歸結爲各種管理、運營、營銷等方面的問題。如何應用數據結論去解決問題,則需要依靠業務人員的經驗了。

2.5. 精細化運營在“產品和運營分析”層級中積累的分析思路和分析方法,大多是分散的、點狀的。在“精細化運營”這一層級,所有的分析不再相互孤立,而是更多地以一個實際業務場景爲基礎,在該業務場景下從“如何感知識別”,到“如何篩選用戶”,再到“如何營銷配合”,從而實現該場景下全部過程的統籌管理。在這個過程中,數據分析不再只是分析報告、數據圖表,它成爲人們構建這個流程的一種貫穿始終的思想,流程中的每個環節都會有數據分析甚至數據挖掘的內容存在,以數據的結果驅動產品、渠道、投入資源等等內容的配合,共同構成該業務場景下的完整業務流程。當然,這一流程不能是靠手工來完成,一定是自動化的,人只是這一流程中起決策作用的節點而已。更有甚者,將多個業務場景下的數據驅動過程進行組合,就形成了諸如“用戶生命週期管理”、“會員運營體系”這樣的數據應用集合(我這裏暫且把它們成爲數據應用集合,其實這些內容每個都可以形成一個單獨的數據應用產品)。如果企業中每個領域都能建設起來多個數據應用集合,那麼這些集合就基本能夠支撐其企業的主要運行管理工作。

2.6. 數據產品數據產品在我看來不是企業數據能力建設最終要實現的目標,它只是企業將內部數據價值變現的衆多方式中的一種。實體行業的數據產品很多時候是因爲企業內部的數據能力成長到一定階段,企業某些內部數據及分析方法已經具備了獨立變現的條件,因而被企業單獨拿出來作爲一類產品提供到市場,從而形成我們所理解的數據產品。當然實體行業中出現的數據產品實例並不多(此觀點僅是我的理解,如有異議歡迎大家溝通討論)。

按照我的理解,企業內部某一數據應用足夠成熟的時候,便具備了與其縱向上下游產業鏈之間及橫向市場中其他企業數據相互融合使用的可能。這種縱向、橫向的合作可以有很多形式,諸如:以具體數據內容爲形式的數據交易,以體系化的分析方法爲形式的分析工具,以產業內數據共享爲形式的數據聯盟等等,甚至當企業數據逐漸得到行業和市場的認可後,跨行業的數據產品交易和數據合作也是可以預見的。
個人認爲,無論哪種產品形式,都必然離不開適當的商務模式,而必要的商務模式也是保證數據市場安全、高效運轉的必備條件。
寫在最後
筆者接觸的很多實體行業中的企業,有些可能剛剛完成數據採集和數據中心的建設工作,有些則連數據採集問題都沒有解決,層次各有不同。但是在接觸這些公司的企業負責人時,每個人都雄心勃勃地說自己的企業要在未來的一兩年內做出數據產品,完成數據價值的變現~~而當問到:您知不知道從貴公司現在的數據情況做到數據產品,需要走過多少階段從而支撐您做成數據產品嗎?對方的回答也出奇地相似:所以我們需要找一個懂這方面的人來啊……!
這就是我寫這篇文章的初衷~~

本文原創於CSDN平臺:http://blog.csdn.net/hualalalalali/article/details/71534999


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章