從數據整理到業務計算的最佳工具

1 概要

數據整理是爲業務人員進一步分析數據或進入 BI 系統前最重要的環節。隨着數據時代的到來,數據來源越來越多樣 (文件、大數據平臺、數據庫…),爲數據整理帶來了很多挑戰。在企業裏數據通常是由 IT 人員負責,統一組織數據抽取、數據變換和加載數倉的流程,即 ETL,之後再提供給業務人員或可視化系統,數據從 Raw Stage 到 Refined Stage 再到 Production Stage 三個階段才能最終拿來使用,整個過程納入自動化管理。然而,實際上這種集中式的自動化處理流程,每增加一個數據需求都要依賴 IT 人員和 ETL 專屬軟硬件,冗長的數據開發週期、公用的 ETL 軟硬件隨着需求的增多越來越耗時,都讓業務人員不能及時感知數據的變化(比如,銷售部門想獲得進行了某項促銷活動前後的銷售情況變化信息)。

imagepng

因此,脫離專屬人員和設備,另闢蹊徑開展敏捷數據整理,爲數據驅動的業務部門提供有力支撐變得越來越重要。即數據從 Raw Stage 到 Refined Stage 後直接被業務人員用於桌面分析或導入 BI 系統後的自助分析。

數據導入 BI 系統後,BI 系統的自助部分只是在多維分析和關聯查詢這兩個層面滿足業務需求,從經驗上看,最好情況也就能解決 30% 左右的問題而已,剩下 70% 左右或更多的需求,比如找出“銷售額佔到一半的前 n 個客戶,並按銷售額從大到小排序”,都會涉及到多步驟有過程的計算。而過程計算完全超出 BI 產品的設計目標,甚至可以不被認爲是數據分析,但卻是用戶特別希望解決的問題。碰到這類問題,通常還是導出數據由業務人員自己用 Excel 等做桌面分析,但是,Excel 並不擅長處理多層次數據的關聯運算,而且數據量大了也撐不住,在許多應用場景無法勝任。這類問題還是需要技術人員才能解決,SQL 難以處理有過程計算,Java 做結構化運算代碼冗長、不易複用和維護,python(pandas)/R 的定位是數學風格的統計分析,雖然提供了 dataframe 對象用於處理結構化數據,但是還不夠像 SQL 那麼簡單直觀,易學易用。

那麼,有沒有用一種工具,既能敏捷的整理數據,又能輕鬆應對複雜的業務計算呢?潤乾集算器的目標,就是爲普通技術人員提供從數據整理到業務計算最便捷的途徑,具備以下特性滿足這類技術需求。

1. 連接性

能夠連接各種數據源

  • 文件(CSV,JSON,Excel…)

  • 大數據平臺(Hive,HDFS,MongoDB…)

  • 雲平臺(AWS Redshift,AWS S3,Azure ADLS)

  • 數據庫(Oracle,DB2,Mysql,PostgreSQL,TD…)

  • 應用(Salesforce,Tableau Server…)

2. 易用性

  • 即裝即用
    無需安裝額外的依賴工具包

  • 分步處理
    避免 SQL 式嵌套和單向式管道處理,每步結果可以隨時引用,複雜問題化整爲零

  • 易理解、易複用
    易理解的必然是容易學習和掌握的;
    用最少和直觀的腳本來解決問題,整理過程一目瞭然,雷同問題很少改動即可複用

  • 核心操作完備
    數據整理的核心操作是 Structuring、Enriching、Cleaning

  • 調試方便
    不能只靠輸出來調試程序,支持單步、斷點等高級調試模式

  • 模塊化開發
    任務按模塊拆分,並能集中整合形成處理流程

3. 大數據
單機處理能力,支持 GB 規模、方便的數據分段、多線程 / 多進程並行計算、外存計算
多機處理能力,支持 TB 規模、靈活的數據分佈、分佈式計算

4. 集成性
報表集成,已完成的數據整理腳本,可與報表工具集成,作爲報表數據源,運行結果直接爲報表提供數據。
ETL 集成,已完成的數據整理腳本,可與 ETL 工具集成,被 ETL 調度後自動運行,將臨時的數據整理,納入日常批處理。

2 連接性

imagepng

集算器能從各種數據源中獲取數據,根據用戶需要仍在不斷添加中。

3 易用性

  • 簡潔編程環境

網格編程

imagepng

集算器使用網格式編程,和在 Excle 表格裏寫表達式類似。在單元格里書寫集算器腳本 SPL(Structured Process Language),單元格內 SPL 執行的結果賦值給單元格地址,單元格地址作爲變量名後續直接引用。代碼按單元格順序,先從左到右、後由上到下。
集算器 SPL 是專門爲處理結構化數據設計的 DSL(Domain Specific Language),不像通用語言,目標範圍涵蓋一切,通過短時間練習就能輕鬆掌握。分步式處理、中間結果引用,面對複雜需求比 SQL 更容易實現。數據結構簡單、語法簡潔,比 Python 更容易學習,更容易使用。

調試輕鬆

imagepng

  • 敏捷數據整理

總覽

imagepng

獲取

詳情參見 從數據整理到業務計算的最佳工具

結構化

  • 清除
  • 提取
  • 轉化
  • 組合

詳情參見 從數據整理到業務計算的最佳工具

清理

詳情參見 從數據整理到業務計算的最佳工具

導出

詳情參見 從數據整理到業務計算的最佳工具

4 大數據

詳情參見 從數據整理到業務計算的最佳工具

5 集成性

詳情參見 從數據整理到業務計算的最佳工具

6 對比 Python 和 SQL

詳情參見 從數據整理到業務計算的最佳工具


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章