建設政府大數據平臺,一個深刻體會是數據匯聚的難度,爲了摸清委辦局的數據家底,先期會花費大量的精力梳理資源目錄,依據三定職責,梳理職責目錄、系統目錄和庫表目錄。從資源目錄中就會發現,除了各類數據庫之外,還有很多的數據是以文件形式存在,包括公文、公告、臺賬等,若不能將這些數據有效利用,則數據價值就會大打折扣。因此,大數據平臺要有一個靈活可配、功能豐富的數據接入系統,既能將各類庫表數據採集入庫,也能將種類繁多的非結構化、半結構化數據解析入庫。以下是初步構想的一個接入框架(暫不考慮圖片、視頻、音頻等):
在上述框架中,重點是將word和excel文件的數據解析爲結構化數據:
- word文檔,對於表單格式的文檔,支持解析爲key-value形式的數據;對於表格格式的文檔,支持解析爲二維表的數據。此外,對於有目錄結構的數據文檔,可以將目錄結構提取出來,並提取關鍵字段的數值。
- excel文檔,除了可以支持常規的二維表格式,還需要考慮到固定表單格式的數據,能將其解析成key-value的數據。