政府大数据之数据治理

目前项目正处于接入委办局数据并进行治理的阶段。由于大数据能力支撑平台的特点,其主要是对外部其它应用系统提供能力支撑,包括分析能力、可视化能力、数据服务能力等,而数据治理则主要是将接入的数据进行清洗、转换、融合等处理,正在考虑如何将数据治理的成果为项目甲方介绍清楚,将项目进度以可量化的指标表述出来。以下是我想到的一些点:

  • 数据模型。数据建模是数据治理的重要工作,也是数据仓库项目能取得成功的关键。但政府大数据主要是将政务管理和服务过程中的数据进行汇聚,传统意义上的数据建模在这个领域的作用并不是特别明显。在这种情况下,个人认为对信息的分类更加重要,可以借鉴标签化手段,将表、字段、文件等打标签,通过标签让数据使用者可以便捷地检索数据。
  • 数据清洗融合。数据清洗是政府大数据相关标准中经常提到的一个概念,但在实践当中,能经常用到的清洗也就是去重、去空等,更加偏业务化的清洗规则难以应用。因此,个人认为在实践当中,更加可行的是应用“一数一源”原则,将个别问题数据利用主数据的思想进行补正,服务上层的数据分析和应用。比如,基于人的身份证号,实现户籍、婚姻、社保等的打通,为政务服务提供数据支撑。在这个原则下,数据清洗融合的能力,就是从政务数据中提炼出来的数据标准的丰富程度,能在多大程度上界定出“一数一源”。
  • 资源目录。资源目录就是对数据的编目,是数据使用者接触数据的“界面”,个人认为这是政府大数据最值得借鉴的地方。资源目录实际上也是数据建模的外部体现,通过数据建模、数据编目、数据共享、数据服务、数据评价,资源目录是这个流程的主线,个人认为资源目录系统是政府大数据平台的关键点,通过该模块可以将元数据、数据质量、数据接口服务等各功能联系起来。
  • 数据挖掘。通过机器学习算法,实现数据治理过程的智能化,也是数据治理成果的一个亮点,包括自动标签、自动清洗融合等,在这个过程中,可以沉淀出不少的算法、规则等,是产品在政府大数据平台领域的“护城河“。 -
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章