政府大數據的資源庫建設不能等米下鍋

做政府大數據項目,基礎庫的建設是必備的項目,只是基礎庫的內容一直在變化,各家的理解也不一樣,一般會有人口庫、法人庫、電子證照庫、空間地理資源庫等。以人口庫爲例,是按照一數一源原則,將各委辦局的人口數據進行融合,爲各類應用提供共享共用。不過在資源庫建設的過程中,由於各地委辦局信息系統既有自建系統,也有垂管系統(市裏、省裏、部委等),能匯聚的數據情況就有很大差別了。而數據協調的工作往往需要行政推動,不屬於項目建設方的範圍,因此,一般就會忽視了資源庫的設計工作,往往有幾張PPT可以介紹資源庫的設計意圖及參考規範,還有一些歷史項目的ER模型,然後就等着甲方去協調委辦局數據,來了數據就按照經驗將其進行建模。這種方法現在看起來是有些盲目,有點走到哪算哪的感覺,沒有提前規劃和設計,有意識地去引導客戶,有重點地去“找數”,從而建設出預期效果的基礎庫,以及不同來源的數據,建設的基礎庫可以發揮的不同作用。比如,人口數據往往是來源於公安,但若協調不到公安,衛健委的人口數據是否可以替代?替代了哪些應用場景就不能支撐?因此,我認爲基礎庫的建設,也需要有設計文檔,至少包括以下內容:

  • 基礎庫的概念模型和邏輯模型。以人口庫爲例,要有人口涉及的主要實體及其之間的關聯關係,包括出生、教育、社保、個稅等。
  • 數據來源及加工處理規範。按照一數一源原則,給出每個數據項的權威來源部門以及候選來源部門,不同來源對應不同的應用場景類型。
  • 數據融合規範。基礎庫的關鍵是實現不同數據之間的關聯打通,人口通過身份證、護照等編碼可以關聯起不同的數據,設計的時候需要給出關聯的優先級、缺失的處理原則(丟棄、標註等)。
  • 應用場景支撐設計。基礎庫是用來支撐上層應用,政府大數據平臺的應用場景無外乎政務服務的數據查驗、分析挖掘、可視化展現等,不同場景對於數據的權威性和來源有不同的要求,比如,政務服務應用的數據查驗,對於不同數據項有嚴格的來源要求,但分析挖掘則可以使用多個來源的數據進行替代分析。
  • 應用接口設計。針對不同地支撐需求,設計出不同的服務接口,數據查驗是API接口,性能是關鍵。分析挖掘則最好建立維度模型,提供不同的分析模型。提煉出良好的服務接口,是基礎庫發揮應有價值的關鍵,這個過程往往也被忽略,爲了省事,一般都是大數據平臺按需定製供數接口,對於數據的使用者,基礎庫的能力就是一個黑盒。

以上是我在建設基礎庫過程中的一點體會,也正在按照上述的想法逐步推動改善。

發佈了65 篇原創文章 · 獲贊 21 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章