政府大數據平臺需要有一個強大的數據接入工具

建設政府大數據平臺,一個深刻體會是數據匯聚的難度,爲了摸清委辦局的數據家底,先期會花費大量的精力梳理資源目錄,依據三定職責,梳理職責目錄、系統目錄和庫表目錄。從資源目錄中就會發現,除了各類數據庫之外,還有很多的數據是以文件形式存在,包括公文、公告、臺賬等,若不能將這些數據有效利用,則數據價值就會大打折扣。因此,大數據平臺要有一個靈活可配、功能豐富的數據接入系統,既能將各類庫表數據採集入庫,也能將種類繁多的非結構化、半結構化數據解析入庫。以下是初步構想的一個接入框架(暫不考慮圖片、視頻、音頻等):
在這裏插入圖片描述
在上述框架中,重點是將word和excel文件的數據解析爲結構化數據:

  • word文檔,對於表單格式的文檔,支持解析爲key-value形式的數據;對於表格格式的文檔,支持解析爲二維表的數據。此外,對於有目錄結構的數據文檔,可以將目錄結構提取出來,並提取關鍵字段的數值。
  • excel文檔,除了可以支持常規的二維表格式,還需要考慮到固定表單格式的數據,能將其解析成key-value的數據。
發佈了65 篇原創文章 · 獲贊 21 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章