我所經歷的大數據平臺發展史（二）：非互聯網時代 • 下篇

本文是松子（李博源）的大數據平臺發展史系列文章的第二篇（共四篇），本系列以獨特的視角，比較了非互聯網和互聯網兩個時代以及傳統與非傳統兩個行業。是對數據平臺發展的一個回憶，對非互聯網、互聯網，從數據平臺的用戶角度、數據架構演進、模型等進行了闡述。

前言，”數據模型“ 這個詞只要是跟數據沾邊就會出現的一個詞，在數據庫設計、數據倉庫、數據挖掘上、業務裏都存在，聚焦一下，這裏提到的是數據平臺中的”數據模型“。這是一個非常的抽象詞，個人也很難用簡單語言把他描述出來，這一章也是整個系列中較爲抽象的一章節，同時這個章節將會回答非互聯網數據平臺數據模型是什麼？如何需要數據模型？如何簡單的建設？

在“我所經歷的大數據平臺發展史上篇非互聯網時代”曾經提到Bill inmon與 Ralph kilmball兩位大師的設計理念，對業務的數據按照某種規則進行有效組織並滿足業務需求。

在構建過程中，有一個角色理解業務並探索分散在各系統間的數據，並通過某條業務主線把這些分散在各角落的數據串聯並存儲同時讓業務使用，在設計時苦逼的地方除了考慮業務數據結構要素外，還得考慮可操作性、約束性（備註約束性是完成數據質量提升的一個關鍵要素，未來新話題主題會討論這些），這個既要顧業務、數據源、合理的整合的角色是數據模型設計師，又叫數據模型師。

非互聯網時代的數據模型是一個高度智慧業務抽象結晶，數據模型是整個系統建設過程的導航圖。

(點擊放大圖像)

平臺中模型設計所關注的是企業分散在各角落數據、未知的商業模式與未知的分析報表，通過模型的步驟，理解業務並結合數據整合分析，建立數據模型爲Data cleaning 指定清洗規則、爲源數據與目標提供ETL mapping （備註：ETL 代指數據從不同源到數據平臺的整個過程，ETL Mapping 可理解爲數據加工算法，給數碼看的，互聯網與非互聯網此處差異性也較爲明顯，非互聯網數據平臺對ETL定義與架構較爲複雜）支持、理清數據與數據之間的關係。（備註：Data cleaning 是指的數據清洗數據質量相關不管是在哪個行業，是最令人頭痛的問題，分業務域、技術域的數據質量問題，需要通過事前盤點、事中監控、事後調養，有機會在闡述）。

大家來看一張較爲嚴謹的數據模型關係圖：

(點擊放大圖像)

數據模型是整個數據平臺的數據建設過程的導航圖。
有利於數據的整合。數據模型是整合各種數據源指導圖，對現有業務與數據從邏輯層角度進行了全面描述，通過數據模型，可以建立業務系統與數據之間的映射與轉換關係。排除數據描述的不一致性。如：同名異義、同物異名..。
減少多餘冗餘數據，因爲了解數據之間的關係，以及數據的作用。在數據平臺中根據需求採集那些用於分析的數據，而不需要那些純粹用於操作的數據。

在面對企業複雜業務與成千上萬的數據項進行設計時，沒有哪個牛逼的人都記得住的，所以出現了按照某種層次規則去有組織並抽象與管理易用，由此誕生了概念模型、邏輯模型、物理模型 (備註數據平臺數據模型，而非數據挖掘的模型)。

數據模型在數據平臺的數據倉庫中是一個統稱，嚴格上來講分爲概念模型、邏輯模型、物理模型。(備註：四類模型如何去詳細構建文本不深講，關於非互聯網企業的數據模型網上非常多)

(點擊放大圖像)

在“我所經歷的大數據平臺發展史上篇非互聯網時代“提到兩位大師的架構與爭論，進一步聚焦來說，爭論點我的認爲其實是在數據模型的支持上，Bill Inmon的EDW的原則是準三範式的設計、Ralph kilmbal是星型結構。

Bill Inmon對EDW 的定義是面向事物處理、面向數據管理，從數據的特徵上需要堅持維護最細粒度的數據、維護最微觀層次的數據關係、保存數據歷史。所以在構建完畢的數據平臺中可以從中映射並檢查業務信息的完整性（同時也是養數據過程中的重要反饋點），這種方式還可以找出多個系統相關和重合的信息，減少多個系統之間數據的重複定義和不一致性，減小了應用集成的難度。

(點擊放大圖像)

該建設方式的要點是首先建立各個數據源業務的實體關係、然後再根據保存的主子實體關係、存儲性能做優化。

Ralph kilmball 對DM（備註：數據集市，非挖掘模型）的定義是面向分析過程的(Analytical Process oriented)，因爲這個模型對業務用戶非常容易理解，同時爲了查詢也是做了專門的性能優化。所以星型、雪花模型很直觀比較高性能爲用戶提供查詢分析。

(點擊放大圖像)

該方式的建模首先確定用戶需求問題與業務需求數據粒度，構建分析所需要的維度、與度量值形成星型模型；（備註涉及的複雜維度、退化維度等不在這個討論範圍）。

數據模型的業務建模階段、領域概念模型階段、邏輯模型階段、物理模型階段是超級學術與複雜的話題，而且在模型領域根據特點又分主數據(MDM)、CIF（企業級統一視圖）、通用模型(IBM 的金融、保險行業通用模型、 Teradata的金融通用模型、電信移動通用模型等)，鎖涉及到術語”擴展“、”扁平化“、”裁剪“等眼花繚亂的建模手法，數據模型不同層次ODS、DWD
DWD、DW、ST的分層目的不同導致模型設計方法又不同。相信業界有很多大牛能講的清楚的，以後有機會再交流。

(點擊放大圖像)

本文帶大家回憶了歷史非互聯網的數據平臺發展與核心模型特點，當然數據平臺的發展不是一步到位的，是經過無數人的智慧、努力反覆迭代而逐漸演進的。

非互聯網企業的數據平臺發展，每一代的平臺架構中的結構都是及其複雜的，比如ETL架構、數據模型架構、BD的架構、前端展現、元數據、數據質量等各方面，每一部分展開都是一個很深的話題，有機會再分享給大家。

下篇章將分享給大家互聯網時代的數據平臺，互聯網的數據平臺也就是在07年-08年左右開始迅猛發展的，在發展的初期也是從傳統數據平臺的第三代架構開始演進的，互聯網產品發展特點是“糙、快、猛”，同時數據量的超快速膨脹所帶來的技術變革，從數據倉庫->海量數據->大數據膨脹必然原有的技術無法支撐高IO吞吐、密集型計算，從而發展了合適互聯網大數據平臺。

關於作者

松子（李博源），自由撰稿人，數據產品&數據分析總監。2000年開始數據領域，從業傳統製造業、銀行、保險、第三方支付&互聯網金融、在線旅行、移動互聯網行業；個人沉澱在大數據產品、大數據分析、數據模型領域；歡迎關注個人微信訂閱號：songzi2016。

我所經歷的大數據平臺發展史（二）：非互聯網時代 • 下篇

關於作者

Linux 的 IO 隔離

Compile Hadoop in Docker container

國內連接maven官方的倉庫

hadoop(二):hdfs HA原理

ETCD是什麼

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結