災害風險數據治理思考上(10.19)

連續在化工和葡萄項目3上對產品進行檢驗和落地,也參與多個應急部門及數據普查成果展示的項目。看到很多已有系統成果,最大感觸是數據治理的缺失。雜亂的數據存檔,單一的數據堆砌展示,這樣的系統建設的最大意義在於推動數據收集工作,這對於機構單位來講,短期內能夠呈現大量的成果。但對於災害風險信息化產品的建設,這只是個開始,嚴格講,到這裏才只是數據採集環節。從這裏開始,對數據進行治理,核心是建立存儲,轉換,表達,交互等一系列端到端數據處理流程,核心的思想依然是標準和複用。

數據存儲標準化是第一步,在項目開展過程中我們遇到的數據種類越來越多,數據提供的方式也越來越多。如果按照過去項目實施的方式,我們會不斷努力去適配各種數據類型,各種結構,讓我們數據接入代碼越來越龐雜,無法複用。解決的這個問題的核心思想是分而治之。兩數據採集、加工、存儲三個環節分離開來。優先做好數據存儲的標準化,從而隔離外部不去定性與我們的系統。這裏我們可以對數據進行抽象,用不同維度對數據存儲形態進行劃分。按照狀態我們可以將數據分爲動態數據和靜態數據。動態數據主要指觀測、預報、預警類數據,這類數據擁相對高頻的變化。而我們定義的靜態數據只是相對的靜態,是指那些變化頻率很很小的數據,去地表覆蓋數據、年鑑數據、普查數據。這種劃分有利於我們組織開發工作上對技術界面的劃分。對存儲的標準化一個重點是選擇一致的數據存儲方式,比如對高頻變化的觀測預報資料,我們選擇統一數據進行存儲。對於分鐘級別的數據採用Elasticsearch這樣的對檢索支撐能力強的數據庫,而在對於短臨類格點預報資料,我們傾向於選擇Mongodb一類的文件存儲數據庫。而對於低頻更新的空間數據,我們儘可能轉換成Geojson格式和shp格式進行存儲。圖片和文檔就直接採用二進制文件進行存儲,關鍵是文件存儲路徑和命名規則的標準化,這部分在後續單獨進行總結。

在對數據存儲標準化之後,我們必然要做很多應對不確定性的工作。這部分工作本質就是基礎數據的加工工作。這部分的核心思想是自動化。能夠通過開發工具和組建來將多源異構的數據轉化爲我們定義的存儲標準。格式轉化、字段適配、結構轉置是開發工作的主要內容,目的只有一個就是爲標準化存儲落地。數據加工與採集工作進行無縫銜接,從而實現數據治理的第一層標準化工作。這也爲下一步數據的表達的產品化打下堅實基礎。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章