標題項目的形式
依託第三方數據源,以及公司爬蟲數據、政府合作數據,按甲方的需求字典清洗字段並進行定時推送。
項目的難點
(1)數據清洗,處理
(2)數據更新考慮到外部第三方的數據的問題,做定時輪詢取數據做處理—通過接口;
(3)數據交付的問題 –通過sftp服務交付;
用到的組件與開發技術點
- PG:連接、存取數據、唯一索引
- python:接口取文件,保存文件,讀取文件,原始文件保留入pg庫備份;同時原始文件字段進行清洗後結果數據保留入pg庫,從pg庫導出交付到ftp服務器上,這期間入pg庫需要用到進程池的處理的方式,python多進程處理,保證入庫速度。
- stfp:連接,上傳文件,創建文件目錄,斷點續傳。
定時任務:定時輪詢去第三方接口取數據,如果取過,則不會再取,這裏取過與否是根據數據庫裏面產生的文件名稱記錄來辨別的,文件名稱是根據推送時間及加密規則生成的特定名稱,保證每次輪詢取最新的數據包;處理完之後推送到交付方。 - 郵件通知:推送完畢後會添加郵件服務,推送此次統計報告,以及推送數量的記錄。
非數據交付日,需要推送空包,以表明機制正常運行!