通往數據分析平民化的成功之路

今天，每家公司都是數據公司，人人都是數據專家。不論您是信貸經理、會計師、銷售、人事經理還是工程師，這都不影響您進行數據處理並從中洞察先機。正是因此，平民數據科學家（CDS）這一概念應運而生，各行業的從業者們正藉助數據和分析模型來獲取與其專業領域相關的洞察力。相對平民數據科學家（CDS），我們更傾向使用平民數據分析師（CDA）這種說法，因爲在與數據的交互中，知識工作者所融入其中的不僅是科學，還有藝術。

根據 Gartner 的定義，“平民數據科學家是創建或生成模型的人，這些模型運用了先進的診斷分析、預測或說明功能。不過這些人的本職工作卻是在統計和分析領域之外。”[Idoine，2018 年]

那麼，平民數據分析師們如何能從數據和分析中獲取決策洞察？又是哪些工具和特性賦能了他們？

從根本上說，成功的平民數據分析師可以通過三大關鍵要素獲取洞察並提高業務績效：

高質量的業務數據
穩健的自助分析平臺
強大的數據和分析治理流程

這三大關鍵要素有希望滿足現在日益複雜的數據分析需求，賦能業務用戶，使其能根據自身需求獲取關鍵答案。雖然每家公司或組織中平民數據分析師們的能力多樣，但這並不妨礙我們找出一些通用的關鍵要素或解決方案。

關注數據本身

首先，如何解決分析中的數據質量問題？高質量數據，是指我們需要有價值的、而非更多的數據來獲取洞察。在數據分析領域，我們主要從以下三個方面來判斷數據是否有價值：

正確的維度

數據分析是要通過已知數據找出對已知問題的答案和未知問題的預先洞察。洞察的獲取則取決於反應（效果）和解釋（原因）變量，也被稱爲特徵或維度。維度的主要作用是限定諸如價格、數量和週期等業務相關度量的應用場景。

正確的數據結構

在企業通過業務收集的數據中，高達 80% 是非結構化數據，比如文檔、視頻、音頻、圖像等數據。大家都知道分析算法需要數據模型來對數據進行分析和處理，但由於這些非結構化數據中並沒有預定義數據模型，企業難以充分利用這些數據和發揮它們的價值。

較少的變化

業務流程中不可避免的會存在一些變化，這種變化同樣會反映在數據中。數據的變化使分析算法很難做出及時和準確的預測。

自助式分析平臺

聊完數據質量的重要性，我們再來看看如何通過自助分析平臺賦能平民數據分析師。如能擁有自助分析平臺，業務人員將只需要極少的 IT 支持就能執行查詢並獲取結果。在平民數據分析師們的分析工作中，一個穩健的自助分析平臺應提供如下核心功能：

數據加載

分析平臺的價值取決於它的可用數據。因此，自助分析平臺應能輕鬆對接現有數據源，無論是標準數據庫（如數據倉庫）還是記錄系統（如 ERP 或 CRM）。不論數據源是部署在本地、雲上還是混合雲中，自助分析平臺都能輕鬆管理數據索引（以實現高效搜索）、執行數據加載和刷新。

數據質量和及時性

數據的質量和及時性決定了洞察的有效和準確性。如存在根深蒂固的數據孤島，這二者都很難保證。如果沒有良好的數據質量，洞察和結論的真實性將無法保證。同樣，如果沒有足夠及時的數據，那我們極可能會基於過去的數據對今天進行假設。

性能、規模及併發性

如果響應時間很長，或儀表盤處於長期無響應狀態，那自助分析平臺將無法使用。真正的平民數據分析師，更希望能通過數據來跟蹤和證明或反駁他們對所分析世界的理解和判斷。他們應該能快速對數據進行探索並得到想要的數據。

數據安全

自助分析平臺並不代表安全性的降低或完全沒有安全性；安全管理是自助分析和平民數據分析師成功的先決條件。自助分析平臺應支持通過 IDM（身份管理）和 RBAC（基於角色的訪問控制）對平民數據分析師進行身份驗證，以便控制和管理對敏感數據的訪問，如 PCI DSS（支付卡行業數據安全標準）和 PII（個人身份信息）。

語義模型

分析結論的得出依賴於從各個系統中獲取的數據。考慮到大家對數據元素的定義各不相同，我們迫切需要能通過語義或其他方式來表示數據的含義。語義模型描述了特定數據值之間的關係[Luisi, 2014]。因此，自助分析平臺應該能爲平民數據分析師提供統一的語義模型，從而建立一個單一的真實來源（SoT），以便獲取準確、及時的洞察。

分析算法庫

自助分析平臺中應包含大量經時間驗證的分析算法庫，包括能訪問如 TensorFlow、Keras、scikit-learn 等開源庫。這樣平民數據分析師將能輕鬆重用現有分析算法，而非從頭構建自己的解決方案。

數據治理

最後，沒有正確的數據治理，同樣無法賦能平民數據分析師。平民數據分析師無疑很強大，但對他們的賦能同樣需要一個強大的治理框架來管理。治理框架應能：

明確數據所有權
角色評估
數據素養培訓
優化查詢
預計算結果
標記未使用的報告和儀表板
監控系統性能
其他監管和數據管理活動

那麼如何將高質量的業務數據、穩健的自助分析平臺及強大的數據和分析治理流程組合在一起，成功賦能平民數據分析師呢？

Kyligence 以 Apache Kylin 爲核心，通過安全的集成來自各數據源的數據爲平民數據分析師提供了一個整體的分析平臺，爲其創建一個整合的、有價值的語義數據庫，使其能獲取近乎實時的強大洞察力。通過自動化數據發現、數據集成和提供低代碼/無代碼的分析庫，Kyligence 爲平民數據分析師帶來了無縫及安全的數據洞察，進一步解放他們的生產力。

Kyligence 和數據分析平民化

Kyligence 一直在提倡「數據分析平民化」這一理念。在大數據分析領域，Kyligence 所打造的自助分析平臺獲得了廣泛的應用，收穫了來自金融、零售、製造等行業的客戶，接下來我們將簡要介紹 Kyligence 的優勢：

數據源

Kyligence 支持 Hadoop、RDBMS、數據倉庫和數據湖等領先的數據平臺，簡化數據接入並實現多雲部署。

數據質量

Kyligence 通過治理來自不同數據平臺及 Kafka 等實時流數據平臺的數據，產出高質量數據，從而能構建支持批數據源和實時數據源的混合分析模型。藉助統一語義層，平民數據分析師可以獲得標準的維度和度量定義，實現單一數據源。

高性能、高併發、大規模

Apache Kylin（分佈式 OLAP）和 ClickHouse（MPP）的強強聯手，更使得 Kyligence 在分析查詢、明細查詢或各類臨時查詢中都有非常高性能的表現。即便是面對極大數據集，平民數據分析師也能快速執行數據檢索。

保障數據安全

Kyligence 可提供單元格級別的安全保護，控制後端數據訪問，並使其對用戶透明。除基於角色的訪問控制外，Kylignece 還支持與 LDAP 和 Azure Active Directory 等用戶管理系統集成以確保協作安全。

統一語義模型

Kyligence 強大的統一語義層功能，可爲不同的 BI 團隊打造統一的語義模型。當數據源架構改變時，Kyligence 中的數據模型會自適應演化，並讓上層應用中的數據結構保持一致。

無縫集成 BI 工具，支持多種數據科學語言

Kyligence 提供標準的 ANSI-SQL 和 XMLA/MDX 接口，可輕鬆與現有分析工具（如 Tableau/Excel/PowerBI）集成，同時支持 Python 或 Scala 等數據科學語言，幫助用戶輕鬆藉助 TensorFlow、scikit-learn 等構建端到端的機器學習工作流。

自動簡化數據治理流程

藉助 Kyligence 語義層，每個數據模型都將會是一個受治理的數據集市，自動並簡化數據治理流程，如審計和評級等。

審計：由於數據模型是用戶使用的最小單元，管理員可以輕鬆跟蹤每個模型的使用情況；
評級：Kyligence 管理員可以查看每個模型的大小、數據的使用率與存儲空間之比，識別最熱數據模型，這些模型也正是企業最有價值的資產；
數據生命週期：輕鬆管理對數據模型的生命週期類操作，如創建、提取、刷新、合併等；
Kyligence 內置的 AI 增強引擎將提供更有價值的索引構建建議、檢測無效索引並建議刪除、從而降低存儲及計算資源的成本。

結語

在當今以數字和數據爲中心的經濟中，藉助分析洞察數據並據此明智決策，將推動從數據到業務資產的轉化。很遺憾，目前大多數的分析項目都側重於通過集中的數據科學團隊來提供業務洞察。從結果來看，超過 80% 的分析項目沒能實現業務的增益 [Miranda, 2018]。這不僅延遲了對數據洞察的消費，還增加了將其轉化爲對應的業務決策的成本。

如果平民數據分析師能從數據和分析中獲取洞察，這將能極大縮短週期時間、節省成本並提升公司或組織的客戶服務能力，這纔是對平民數據分析師賦能的未來。但如果希望這些平民數據分析師們能成功，那就要有一個像 Kyligence 這樣能提供高質量的數據、強大的治理流程且易於使用的自助分析平臺。

參考文章

1. Idoine, Carlie, "Citizen Data Scientists and Why They Matter", https://blogs.gartner.com/carlie-idoine/2018/05/13/citizen-data-scientists-and-why-they-matter/, 2018

2. Luisi, James, "Pragmatic Enterprise Architecture", Morgan Kaufmann, 2014

3. Miranda, Gloria Macías-Lizaso "Building an effective analytics organization", https://www.mckinsey.com/industries/financial-services/our-insights/building-an-effective-analytics-organization, 2018.

4. Southekal, Prashanth, "Analytics Best Practices", Technics Publications, 2020

關於作者

Dr.Prashanth Southekal，DBP-Institute 數據分析和指標公司的管理負責人。Southekal 先生先後爲 P&G、GE、Shell、Apple 和 SAP 等 75 多個組織和機構提供諮詢服務。Southekal 先生還是《Data for Business Performance》和《Analytics Best Practices》兩本書的作者，並經常爲福布斯網站及 CFO University 撰寫有關數據、分析及機器學習方面的專題稿件。他在學校擔任數據分析課程的客座教授，目前在全球已經教授了超過 2,500 名學生。Southekal 先生擁有法國里爾商學院的博士學位和美國凱洛格管理學院的 MBA 學位。

關於 Kyligence

Kyligence 由 Apache Kylin 創始團隊創建，致力於打造下一代智能數據雲平臺，爲企業實現自動化的數據服務和管理。基於機器學習和 AI 技術，Kyligence 從多雲的數據存儲中識別和管理最有價值數據，並提供高性能、高併發的數據服務以支撐各種數據分析與應用，同時不斷降低 TCO。Kyligence 已服務中國、美國及亞太的多個金融、製造、零售等客戶，包括建設銀行、浦發銀行、招商銀行、平安銀行、寧波銀行、太平洋保險、中國銀聯、上汽、一汽、安踏、YUM、Costa、UBS、Metlife、AppZen 等全球知名企業和行業領導者。公司已通過 ISO9001，ISO27001 及 SOC2 Type1 等各項認證及審計，並在全球範圍內擁有衆多生態合作伙伴。

通往數據分析平民化的成功之路

哈哈哈哈或

【自用】關於微信小程序的合法域名列表，

使用 @NoRepositoryBean 簡化數據庫訪問

MySQL查出時間比實際晚8小時的解決方案

什麼是IPD項目管理模式？聊聊IPD下的產品研發流程

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結