突如其來的新冠疫情,加速了國內數字化進程。不久的將來,能夠在線上做的工作都不會在線下做,能夠依靠數據的決策都不會再拍腦袋。隔離在家的日子,每個人都在關注確診病例數、接受醫學觀察人數、密切接觸者人數、死亡人數,都在關注什麼時候累計確診增速下降、什麼時候再無新增?
很多人都會看新聞聯播,因爲每天都有最權威的數字發佈。但在手機網民規模已達9個億的中國,更多人會選擇看移動資訊。手機輕輕一點,不僅能夠看得到全國的數字,各個省、地級市的數據都能看得到;除了數字,還能夠看得到疫情地圖、折線圖等更爲直觀的材料,用於判斷態勢和分析趨勢(如圖1)。
圖1:丁香園疫情地圖
如果您有技術背景,一定會思考這個問題:這些數據是從哪裏來的?又如何能夠匯聚到一起?
實際上,這正是數據領域的一個專業,叫做ETL。主要負責從多個來源採集數據,並進行清洗、轉換、校覈後,存入各種數據媒介。
上述問題的答案是,ETL工程師必須從各省衛健委網站(如圖2)獲取原始數據,進行必要轉換和校準後,統一存入數據庫中,並由數據分析人員實現其可視化展示。
圖2:省級衛健委網站示例
而在ETL領域,最爲著名的工具之一當屬Kettle。因爲其功能強大、源碼開放等特性,吸引了全球上百萬的用戶。但也正是因爲其開源,纔會導致國內大部分用戶在遇到BUG時,無解決問題的專業渠道;遇到技術問題時,無專業諮詢渠道,大部分依賴加入的熱心人建立的QQ羣。
今天要爲大家介紹的工具是CKettle。源自開源,依然保留了其免費優勢;強於開源,增強了其中文化、服務化能力。下文將詳細介紹其使用流程,以實現快速入門。
1 下載軟件
首先從其門戶網站下載最新軟件,地址爲https://ckettle.ccsaii.com.cn。從網站上可以看出,官方提供了精簡版和完整版兩個版本(如圖3)。精簡版不帶任何插件,只有110M,大概是原來Kettle體積的十分之一;完整版帶所有已經上架的插件,大約360M,大概是原來Kettle體積的四分之一。從這裏可以看出CKettle的一個重大改進,就是所有插件都是按需下載,不需要的插件不佔任何控件。
圖3:CKettle網站
2 註冊
訪問地址https://cksso.ccsaii.com.cn/register進行用戶註冊,或者在啓動Spoon後點擊登錄按鈕,在彈出的對話框中點擊註冊。
圖4:CKettle中的登錄與註冊
3 打開現有轉換或者作業
打開已有轉換或者作業,在提示的下載插件框中點擊確認,即可下載所有缺失插件(如圖5)。插件下載後,可以如Kettle原樣使用所有功能。
圖5:批量下載插件
4 按需下載
在覈心對象輸入框中錄入部分插件名稱或者拼音首字母,CKettle將自動從本地和雲端搜索插件(如圖6)。在需要的雲端插件名稱上點擊右鍵,選擇安裝插件,即可實現從雲端下載插件到本地。
圖6:搜索安裝插件
5 自定義分組
在現有常用、默認與雲端三大分類的條件下,也可以自定義分組。在左側工具欄中點擊+符號,輸入分組名稱(如圖7),然後在插件的右鍵菜單中,選擇添加插件至菜單,可以直接將插件加入指定分類,也可以在雲端直接將插件安裝到指定分類。
圖7:自定義分組
圖8:添加插件到指定分組
圖9:安裝插件到分組
如果有技術問題,可以訪問其論壇:
感覺目前CKettle正處在公測階段,和我一樣有興趣與產品一起成長的朋友可以查看鏈接:
https://ccsaii.com.cn/main/ccaii-index-xwgg/2020-04/2c91808271b402120171b47e70350067.html?_t=1589503647571