工作中做的一個數據交付項目總結

標題項目的形式

依託第三方數據源,以及公司爬蟲數據、政府合作數據,按甲方的需求字典清洗字段並進行定時推送。

項目的難點

(1)數據清洗,處理
(2)數據更新考慮到外部第三方的數據的問題,做定時輪詢取數據做處理—通過接口;
(3)數據交付的問題 –通過sftp服務交付;

用到的組件與開發技術點

  1. PG:連接、存取數據、唯一索引
  2. python:接口取文件,保存文件,讀取文件,原始文件保留入pg庫備份;同時原始文件字段進行清洗後結果數據保留入pg庫,從pg庫導出交付到ftp服務器上,這期間入pg庫需要用到進程池的處理的方式,python多進程處理,保證入庫速度。
  3. stfp:連接,上傳文件,創建文件目錄,斷點續傳。
    定時任務:定時輪詢去第三方接口取數據,如果取過,則不會再取,這裏取過與否是根據數據庫裏面產生的文件名稱記錄來辨別的,文件名稱是根據推送時間及加密規則生成的特定名稱,保證每次輪詢取最新的數據包;處理完之後推送到交付方。
  4. 郵件通知:推送完畢後會添加郵件服務,推送此次統計報告,以及推送數量的記錄。
    非數據交付日,需要推送空包,以表明機制正常運行!
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章