政府大數據之數據治理

目前項目正處於接入委辦局數據並進行治理的階段。由於大數據能力支撐平臺的特點,其主要是對外部其它應用系統提供能力支撐,包括分析能力、可視化能力、數據服務能力等,而數據治理則主要是將接入的數據進行清洗、轉換、融合等處理,正在考慮如何將數據治理的成果爲項目甲方介紹清楚,將項目進度以可量化的指標表述出來。以下是我想到的一些點:

  • 數據模型。數據建模是數據治理的重要工作,也是數據倉庫項目能取得成功的關鍵。但政府大數據主要是將政務管理和服務過程中的數據進行匯聚,傳統意義上的數據建模在這個領域的作用並不是特別明顯。在這種情況下,個人認爲對信息的分類更加重要,可以借鑑標籤化手段,將表、字段、文件等打標籤,通過標籤讓數據使用者可以便捷地檢索數據。
  • 數據清洗融合。數據清洗是政府大數據相關標準中經常提到的一個概念,但在實踐當中,能經常用到的清洗也就是去重、去空等,更加偏業務化的清洗規則難以應用。因此,個人認爲在實踐當中,更加可行的是應用“一數一源”原則,將個別問題數據利用主數據的思想進行補正,服務上層的數據分析和應用。比如,基於人的身份證號,實現戶籍、婚姻、社保等的打通,爲政務服務提供數據支撐。在這個原則下,數據清洗融合的能力,就是從政務數據中提煉出來的數據標準的豐富程度,能在多大程度上界定出“一數一源”。
  • 資源目錄。資源目錄就是對數據的編目,是數據使用者接觸數據的“界面”,個人認爲這是政府大數據最值得借鑑的地方。資源目錄實際上也是數據建模的外部體現,通過數據建模、數據編目、數據共享、數據服務、數據評價,資源目錄是這個流程的主線,個人認爲資源目錄系統是政府大數據平臺的關鍵點,通過該模塊可以將元數據、數據質量、數據接口服務等各功能聯繫起來。
  • 數據挖掘。通過機器學習算法,實現數據治理過程的智能化,也是數據治理成果的一個亮點,包括自動標籤、自動清洗融合等,在這個過程中,可以沉澱出不少的算法、規則等,是產品在政府大數據平臺領域的“護城河“。 -
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章