政府大数据之数据需求管理

做政府大数据平台,委办局数据接入与对外数据提供,这两件事正常来讲应该是先接入,然后再供数,但现实情况往往是互相影响,尤其是在大数据平台建设之初,各类应用倒逼着大数据平台去和委办局协调数据。大数据平台往往面对着几十家委办局、成百上个数据目录,不论是从现有目录中挑选应用需要的数据,还是从数据需求中筛选出需要接入的数据,都离不开对多个excel的反复加工处理,数据接入成了一个烦燥、乏味的活。应该开发一个数据需求管理的系统,用于处理这类工作,通过信息化的技术减少人的手工工作量,利用数据分析的技术提高数据接入的效率:

  • 录入(导入)数据需求。数据需求方将数据需求录入或以模板的形式导入系统,包括部门名称、数据项名称、关键字段等。在录入的过程中,数据项的名称要尽量贴近委办局的实际名称。
  • 数据项自动匹配。将系统元数据与数据需求进行自动匹配,标记出已经接入的数据需求及匹配程度。在匹配的过程中,除了常规的逻辑比较之外,也可以引入一些机器学习的算法,能识别出同名不同义、同义不同名、部分匹配等情况,后续由人工进行校正。
  • 数据项人工匹配。对于自动匹配后不能完全匹配的数据需求,则由人工进行核对,确实没有接入的,标记为“待接入需求”,对于有接入但名称不同的数据需求,将其对应到相应的数据项,根据情况决定是否需要修改需求的名称。
  • 数据需求排序。对于数据需求库中的数据需求,根据同类数据需求的提出次数、优先级等因素,进行综合排名,从而指导实际的数据接入工作。在合并数据需求的过程中,同样需要将不同名的数据需求合并为同类需求的情况,也可以用自动合并和手工合并两种处理思路。
  • 数据需求跟踪。录入到数据需求库中的所有数据需求,需要自动或人工跟踪其接入的进度,当数据正式接入后,要更新其接入状态,并与实际的数据资源进行对应。

通过以上几个功能,可以将数据需求的提出与数据需求的跟踪,通过系统管理起来,避免excel文件的传递,既能提升数据接入前需求分析的效率,也可以让各应用方对于数据平台中的数据支撑能力有更好地了解,让数据接入变地更加有序。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章