政府大數據之數據治理

目前項目正處於接入委辦局數據並進行治理的階段。由於大數據能力支撐平臺的特點，其主要是對外部其它應用系統提供能力支撐，包括分析能力、可視化能力、數據服務能力等，而數據治理則主要是將接入的數據進行清洗、轉換、融合等處理，正在考慮如何將數據治理的成果爲項目甲方介紹清楚，將項目進度以可量化的指標表述出來。以下是我想到的一些點：

數據模型。數據建模是數據治理的重要工作，也是數據倉庫項目能取得成功的關鍵。但政府大數據主要是將政務管理和服務過程中的數據進行匯聚，傳統意義上的數據建模在這個領域的作用並不是特別明顯。在這種情況下，個人認爲對信息的分類更加重要，可以借鑑標籤化手段，將表、字段、文件等打標籤，通過標籤讓數據使用者可以便捷地檢索數據。
數據清洗融合。數據清洗是政府大數據相關標準中經常提到的一個概念，但在實踐當中，能經常用到的清洗也就是去重、去空等，更加偏業務化的清洗規則難以應用。因此，個人認爲在實踐當中，更加可行的是應用“一數一源”原則，將個別問題數據利用主數據的思想進行補正，服務上層的數據分析和應用。比如，基於人的身份證號，實現戶籍、婚姻、社保等的打通，爲政務服務提供數據支撐。在這個原則下，數據清洗融合的能力，就是從政務數據中提煉出來的數據標準的豐富程度，能在多大程度上界定出“一數一源”。
資源目錄。資源目錄就是對數據的編目，是數據使用者接觸數據的“界面”，個人認爲這是政府大數據最值得借鑑的地方。資源目錄實際上也是數據建模的外部體現，通過數據建模、數據編目、數據共享、數據服務、數據評價，資源目錄是這個流程的主線，個人認爲資源目錄系統是政府大數據平臺的關鍵點，通過該模塊可以將元數據、數據質量、數據接口服務等各功能聯繫起來。
數據挖掘。通過機器學習算法，實現數據治理過程的智能化，也是數據治理成果的一個亮點，包括自動標籤、自動清洗融合等，在這個過程中，可以沉澱出不少的算法、規則等，是產品在政府大數據平臺領域的“護城河“。 -

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

政府大數據之數據治理

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

全面系統的AI學習路徑，幫助普通人也能玩轉AI

HTML 00 Tutorial

uni-app實現上拉加載

vue3編譯優化之“靜態提升”

又是一個月-20240513

flask 如何保證返回json有序

linux服務器設置ssh免密

政府大數據的資源庫建設

對政府大數據的理解

政府大數據之數據治理

政府大數據之數據需求管理

指標管理的需求要點

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結