語義層:2020 年不可不知的 BI 趨勢

數據是當今每一個商業決策的基石。 越來越多企業開始利用數據湖和雲計算等技術進行數字化轉型,然而當今前所未有的數據體量和分佈使得企業的數據管理充滿挑戰。 挑戰在於企業最有價值的數據資產被隔離在本地計算機、數據中心以及雲服務中;這些數據缺乏統一的數據及指標定義,這使得企業很難有效的挖掘其數據資產的價值,企業如果以這樣的數據管理方式進行數據驅動轉型,企業將收穫的只是一座座“數據孤島”

在更細的粒度,每個做過數據倉庫建設的行家都理解數倉內的數據對於業務的用戶是多麼的難以理解,技術元數據如表名、列名、數據類型對於業務用戶來說如天書般。

因此數據倉庫似乎並不是賦能業務進行數據分析的唯一解藥,那在業務人員和數據倉庫之間還缺少了什麼呢?


什麼是語義層?

解藥就是語義層,什麼是語義層呢?從業務人員的角度,他們需要一層在技術實現層上的業務抽象,一個模型層來統一維護業務的邏輯,業務定義的字段,數據層級,衍生計算等,使得業務人員無需關心底層的技術複雜度和實現。對於企業內的數據消費者來說,不論他/她的數據分析能力如何都需要更容易的發現,理解和利用可信賴的數據,這就是語義層應幫助企業做到的。 

Gartner 在分析報告《如何使用語義驅動數據的商業價值》(How to use Semantics to Drive the Business Value of Your Data) 中,也指出了用好語義層對數據和分析的管理者來說的必要性:來自不同業務線的自助式分析數據消費者,使得對於數據資產形成統一的理解和認知變得格外重要。


而語義層可以幫助企業實現: 

  • 創建數據資產之間的關聯以獲得對數據更全面的視角;
  • 利用語義實現更廣泛的對數據業務理解的一致性,避免理解的偏差。


語義層應具備的關鍵能力

說了這麼多,語義層仍是一個邏輯上的概念,聽起來仍舊虛無縹緲,對於數據和分析的管理者來說究竟應該如何落地語義層,實現上文美好的願景呢? 語義層應具有以下關鍵能力: 

  • 共享的業務邏輯
    語義層應包含業務分析所需的核心邏輯,將底層的數據模型轉化爲用戶熟悉的業務信息(維度、度量、層級結構)幷包含更多業務經過二次加工纔可直接使用的衍生度量,如常見的同環比,月累計,年累計等。 
     
  • 實現語義在不同下游應用的複用性
    通過開發多種通用的查詢接口,將統一的語義層複用到業務進行數據分析,業務洞察的終端,這個終端可能是一個 BI 工具,也可能是一個微信小程序,提供定期的業務洞察推送,重要的是通過統一的語義層滿足全企業內對不同人員的不同場景下的分析需求。 
     
  • 統一的安全策略
    這確保了用戶和數據訪問管理可以統一配置在語義層並作用到所有下游的分析或業務應用,IT 無需對下游系統再額外配置數據訪問控制。
     
  • 對接高性能引擎支撐業務計算的能力
    當全企業的數據消費者都在通過統一的語義層訪問數據時,其訪問量和將隨着業務的場景的增加而疊加,另一方面統一的語義層帶來了更全面數據視角,對於海量詳細的數據的查詢也會對查詢性能提出要求。 

除了企業方面對於語義層有迫切需求外,各路廠家也不約而同推出了語義層的能力。首先,讓我們看看BI領導者們是如何幫助企業落地語義層的。


BI 軟件是怎樣提供語義層的?

Tableau 的語義層能力:增強的複雜建模能力 

在 Tableau 2020.2 的發佈版本中,Tableau 推出了一個邏輯(語義層)模型層,幫助用戶關聯更多的數據模型,該功能的引入使得每個 Tableau 數據源從過去的支持單個事實表的模型到可以支持多事實表的分析,並支持複雜的分析場景如多對多關係等。 
 

 

可以看到,Tableau 提供的新的語義層可以加強其複雜建模分析的能力,滿足 Gartner 提到的關聯更多數據源的目標,且通過 Tableau 本身的數據源發佈能力,這個全新推出的數據源將可以在 Tableau 的軟件生態中進行復用,通過將這個邏輯模型層發佈到 Tableau Server 端,更多的業務用戶可以通過瀏覽器使用共享的數據源中的邏輯模型, IT 可以對發佈的數據源進行監控,同時業務人員可被授權修改和迭代數據源。 

Tableau 提供的這種語義建模能力兼顧了 IT 爲中心的模型管理及業務人員的自助式能力,且建模過程簡單易用,使用門檻低,這種透明的無縫的建模方式使得 Tableau 的語義層非常易用。當然另一方面來看,Tableau 的語義層和其他方案相比會更專注於其軟件生態中的複用,當在企業內有其他 BI 平臺存在時(不同部門擁有不同 BI 平臺是很多大企業的常態),這個語義層能力將比較難以在更大範圍內複用。 


Power BI 的語義層能力:複用到多個應用的統一語義 

在2020年3月,Power BI 最新發布了預覽功能讀寫XMLA 終端,該功能在 Power BI Premium 版有效,可以幫助第三方讀寫 Power BI 的數據集,賦能 Power BI 用戶打造以 Power BI 的數據集爲核心的唯一事實的語義層,該功能已公開開放給公衆使用,這意味着任何第三方供應商都可以通過讀寫 XMLA 終端來消費(讀)或者同步(寫)Power BI 的語義層。

通過 Power BI 發佈的預覽圖我們可以看到,在寫入端 Power BI 可以接受第三方工具定義,管理和診斷 Power BI 的語義層,在讀取端其他可視化工具(包括圖中展示的Tableau, Excel)都可以讀取並複用 Power BI 的語義層。  

可以看到 Power BI 最新推出的讀寫 XMLA 終端能力加強了 Power BI Premium 作爲企業級 BI 的核心平臺的能力,加強了 Power BI 模型的複用性,結合 Power BI 本來就支持的超複雜模型建模能力,其語義層將更適合企業級的 BI 部署。


MicroStrategy 的語義層能力:聯邦分析打造 IT 監管的統一分析平臺 

MicroStrategy 自 2019 以來開始強調其聯邦分析能力,通過可複用的實體和語義定義層,同時能夠將語義層複用到不同 BI,實現底層離散數據源的統一的同時,提供統一的數據事實。

然而整體上來說 BI 工具的發展千變萬化,考慮長期的投資的複用性,企業應在實現語義層時避免單一 BI 工具語義層帶來的廠商鎖定;另一方面,把語義層和 BI 工具中剝離可以提供更高的靈活性和擴展性。企業在選擇部署語義層時數據和分析的管理者仍需考慮以下幾個因素: 

  • 語義層生態開放性
    語義層存在的宗旨之一即是讓企業內不同數據消費者都能夠統一的訪問一套業務語義,如果語義層僅僅能夠在某個固定的廠商軟件中使用而不能在豐富的各種生態中則有違了語義層的初衷。 
     
  • 支持雲上部署語義層
    隨着雲架構越來越成爲企業 IT 的主流選擇,而同時企業需要面對數據在不同存儲中,包括雲上原生的存儲,能夠支持雲上部署的語義層確保了其符合當下雲端部署企業的訴求,以及未來 IT 架構的發展趨勢。 


Kyligence: 統一的語義即服務能力

Kyligence 團隊在服務企業級客戶的分析場景時,也發現了語義層能力在企業級部署場景下帶來的價值,並通過以下能力爲企業提供可落地的大數據語義層: 


支持 SQL,MDX,Rest API 多種查詢接口 

現代的語義層將複雜的數據映射爲業務語言,並以服務的形式爲每一個數據消費方在 PB 級別數據規模上提供統一的數據定義及行業標準的訪問接口(標準 SQL 及 MDX)。   


統一的安全策略 

通過將割裂的 BI 分析負載集中到大數據平臺上,Kyligence 也幫助企業降低數據分散在不同業務系統帶來的數據安全風險。用戶和數據訪問管理可以統一配置在大數據平臺的數據資產層並作用到所有上層業務應用。因此 IT 無需對下游系統再配置額外的數據訪問控制。 


AI 增強引擎 

Kyligence 利用 Hadoop 集羣的計算能力對數據進行預計算,基於AI的智能引擎能夠自動識別用戶的查詢模式並自動在後臺進行計算。Kyligence 利用 Hadoop 的分佈式架構進行數據處理,以及低廉的集羣資源進行存儲,這些聚合會自動創建並存儲在大數據集羣中。 

基於機器學習,Kyligence 能夠從 SQL 歷史記錄、分析師行爲、數據採樣及運行時指標中自動發現和查找黃金數據。  


本地或雲端:靈活的部署模式 

未來已來,在這個數據分析的後浪時代,雲上部署將越來越成爲數據管理和分析的主要部署模式,爲了包括今天的技術投資不在未來貶值,企業在選擇語義層時也應考慮其能否原生適配雲上的整體架構,從數據源的接入、轉換、語義建模、到對接下游應用 Kyligence 能夠助力企業形成端到端的雲上大數據分析,並提供統一的雲上語義層。 


小結:語義層應有的能力

通過行業領先的 BI 廠商對於語義層的能力定義,可以看到語義層所具有的共性特徵爲:

  1. 語義的可複用性  
  2. 統一離散數據源,提供單一版本數據事實 
  3. 提多種接口服務企業內各類數據消費人羣 
  4. 統一的 IT 安全和管控 

這樣的語義層能力是面向的企業級的數據分析平臺,能夠打通企業內的所有數據孤島形成統一的分析能力。在實際企業客戶的部署環境中,一個企業通常都具有不止一種 BI 分析工具,且將數據整合在一起的時候,數據量都非常龐大,因此企業在選擇語義層方案時還需要考慮:

  1. 多種 BI 對接能力和豐富的開放接口 
  2. 支持海量數據的處理或支持對接海量數據計算引擎 
  3. 支持雲上的部署模式,適應未來 IT 發展趨勢,保證技術投資不在未來貶值。 


參考文獻

[1] How to Use Semantic to Drive the Business Value of Your Data: https://www.gartner.com/en/documents/3894095/how-to-use-semantics-to-drive-the-business-value-of-your
[2] 10 Enterprise Analytics Trends to Watch in 2020 https://www.microstrategy.com/getmedia/462cb6e5-129c-4678-bdac-c321149bd075/MicroStrategy-10-Enterprise-Analytics-Trends-to-Watch-in-2020_FINAL.pdf
[3] Tableau for the Enterprise: An overview for IT https://www.tableau.com/sites/default/files/whitepapers/963212_enterprise_it_how_to_scale_a_culture_whitepaper_updated.pdf
[4] The Tableau Data Model: https://help.tableau.com/v2020.2/pro/desktop/en-us/datasource_datamodel.htm#star-and-snowflake-schema-analysis
[5] MicroStrategy 2019 Whitepaper: https://www.microstrategy.com/getmedia/4b9fbd76-952b-4da5-8f8d-489278abd59c/MicroStrategy-2019-whitepaper


關於作者

何京珂,Kyligence 產品總監,數據分析資深從業者 。

 

瞭解更多大數據資訊,點擊進入Kyligence官網

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章