爬蟲管理平臺Crawlab v0.3.1發佈(Docker鏡像優化)

Crawlab是基於Golang的分佈式爬蟲管理平臺,支持Python、NodeJS、Java、Go、PHP等多種編程語言以及多種爬蟲框架。

項目自今年三月份上線以來受到爬蟲愛好者們和開發者們的好評,不少使用者還表示會用Crawlab搭建公司的爬蟲平臺。現在Github上已經有2k stars,Dockerhub上有1.4k pulls。經過近數月的迭代,我們陸續上線了定時任務、數據分析、可配置爬蟲、自動提取字段、下載結果、上傳爬蟲、Docker部署等功能,將Crawlab打造得更加實用,更加全面,能夠真正幫助用戶解決爬蟲管理困難的問題。

Crawlab主要解決的是大量爬蟲管理困難的問題,例如需要監控上百個網站的參雜scrapyselenium的項目不容易做到同時管理,而且命令行管理的成本非常高,還容易出錯。Crawlab支持任何語言和任何框架,配合任務調度、任務監控,很容易做到對成規模的爬蟲項目進行有效監控管理。

更新內容

本次更新v0.3.1是一次優化更新,主要針對Docker鏡像的優化、前端優化、以及一些Bug修復。

更新內容如下:

功能 / 優化

  • Docker鏡像優化:將Docker鏡像進一步分離成master、worker、frontend以加強生產環境支持,並用alpine鏡像減少體積
  • 單元測試:用單元測試用例覆蓋部分後端Golang代碼
  • 前端優化:登錄頁、按鈕大小、提示等UI優化
  • 更靈活的節點註冊:允許用戶傳一個變量來區分節點,默認是用MAC地址(對於需要多機器部署的用戶,可以查看這個功能)

Bug修復

  • 上傳大爬蟲文件出錯:上傳大爬蟲文件會引起內存溢出. #150
  • 無法同步爬蟲文件:增加寫權限繞開權限不夠導致同步爬蟲失敗的問題. #114
  • 爬蟲頁面問題:移除爬蟲頁面“網站”這個字段來修復. #112
  • 節點展示問題:當多機器用docker運行節點時,只顯示一個節點的問題,通過傳變量作爲標示符來解決. #99

接下來的計劃

  • [ ] 可配置爬蟲
  • [ ] 日誌集中管理
  • [ ] 異常監控報警
  • [ ] RBAC權限控制
  • [ ] JWT權限驗證優化
  • [ ] 界面安裝第三方包

我們正在計劃接下來的安排,包括各個任務的優先級、如何實現等等。如果有朋友對相關功能或其他功能感興趣,請在Github Issues提出來,或者加作者微信tikazyq1告訴我們。

社區

如果您覺得Crawlab對您的日常開發或公司有幫助,請加作者微信 tikazyq1 並註明"Crawlab",作者會將你拉入羣。歡迎在Github上進行star,以及,如果遇到任何問題,請隨時在Github上提issue。另外,歡迎您對Crawlab做開發貢獻。

<p align="center">

<img src="https://user-gold-cdn.xitu.io/2019/7/31/16c48234c8f5b366?w=674&h=896&f=jpeg&s=132795" height="360">

</p>

本文由文章發佈工具ArtiPub自動生成
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章