政府大数据之数据治理

目前项目正处于接入委办局数据并进行治理的阶段。由于大数据能力支撑平台的特点，其主要是对外部其它应用系统提供能力支撑，包括分析能力、可视化能力、数据服务能力等，而数据治理则主要是将接入的数据进行清洗、转换、融合等处理，正在考虑如何将数据治理的成果为项目甲方介绍清楚，将项目进度以可量化的指标表述出来。以下是我想到的一些点：

数据模型。数据建模是数据治理的重要工作，也是数据仓库项目能取得成功的关键。但政府大数据主要是将政务管理和服务过程中的数据进行汇聚，传统意义上的数据建模在这个领域的作用并不是特别明显。在这种情况下，个人认为对信息的分类更加重要，可以借鉴标签化手段，将表、字段、文件等打标签，通过标签让数据使用者可以便捷地检索数据。
数据清洗融合。数据清洗是政府大数据相关标准中经常提到的一个概念，但在实践当中，能经常用到的清洗也就是去重、去空等，更加偏业务化的清洗规则难以应用。因此，个人认为在实践当中，更加可行的是应用“一数一源”原则，将个别问题数据利用主数据的思想进行补正，服务上层的数据分析和应用。比如，基于人的身份证号，实现户籍、婚姻、社保等的打通，为政务服务提供数据支撑。在这个原则下，数据清洗融合的能力，就是从政务数据中提炼出来的数据标准的丰富程度，能在多大程度上界定出“一数一源”。
资源目录。资源目录就是对数据的编目，是数据使用者接触数据的“界面”，个人认为这是政府大数据最值得借鉴的地方。资源目录实际上也是数据建模的外部体现，通过数据建模、数据编目、数据共享、数据服务、数据评价，资源目录是这个流程的主线，个人认为资源目录系统是政府大数据平台的关键点，通过该模块可以将元数据、数据质量、数据接口服务等各功能联系起来。
数据挖掘。通过机器学习算法，实现数据治理过程的智能化，也是数据治理成果的一个亮点，包括自动标签、自动清洗融合等，在这个过程中，可以沉淀出不少的算法、规则等，是产品在政府大数据平台领域的“护城河“。 -

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

政府大数据之数据治理

政府大數據的資源庫建設

對政府大數據的理解

政府大數據之數據治理

政府大數據之數據需求管理

指標管理的需求要點

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結