灾害风险数据治理思考上(10.19)

连续在化工和葡萄项目3上对产品进行检验和落地,也参与多个应急部门及数据普查成果展示的项目。看到很多已有系统成果,最大感触是数据治理的缺失。杂乱的数据存档,单一的数据堆砌展示,这样的系统建设的最大意义在于推动数据收集工作,这对于机构单位来讲,短期内能够呈现大量的成果。但对于灾害风险信息化产品的建设,这只是个开始,严格讲,到这里才只是数据采集环节。从这里开始,对数据进行治理,核心是建立存储,转换,表达,交互等一系列端到端数据处理流程,核心的思想依然是标准和复用。

数据存储标准化是第一步,在项目开展过程中我们遇到的数据种类越来越多,数据提供的方式也越来越多。如果按照过去项目实施的方式,我们会不断努力去适配各种数据类型,各种结构,让我们数据接入代码越来越庞杂,无法复用。解决的这个问题的核心思想是分而治之。两数据采集、加工、存储三个环节分离开来。优先做好数据存储的标准化,从而隔离外部不去定性与我们的系统。这里我们可以对数据进行抽象,用不同维度对数据存储形态进行划分。按照状态我们可以将数据分为动态数据和静态数据。动态数据主要指观测、预报、预警类数据,这类数据拥相对高频的变化。而我们定义的静态数据只是相对的静态,是指那些变化频率很很小的数据,去地表覆盖数据、年鉴数据、普查数据。这种划分有利于我们组织开发工作上对技术界面的划分。对存储的标准化一个重点是选择一致的数据存储方式,比如对高频变化的观测预报资料,我们选择统一数据进行存储。对于分钟级别的数据采用Elasticsearch这样的对检索支撑能力强的数据库,而在对于短临类格点预报资料,我们倾向于选择Mongodb一类的文件存储数据库。而对于低频更新的空间数据,我们尽可能转换成Geojson格式和shp格式进行存储。图片和文档就直接采用二进制文件进行存储,关键是文件存储路径和命名规则的标准化,这部分在后续单独进行总结。

在对数据存储标准化之后,我们必然要做很多应对不确定性的工作。这部分工作本质就是基础数据的加工工作。这部分的核心思想是自动化。能够通过开发工具和组建来将多源异构的数据转化为我们定义的存储标准。格式转化、字段适配、结构转置是开发工作的主要内容,目的只有一个就是为标准化存储落地。数据加工与采集工作进行无缝衔接,从而实现数据治理的第一层标准化工作。这也为下一步数据的表达的产品化打下坚实基础。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章