原创 Scrapyd 改進第一步: Web Interface 添加 charset=UTF-8, 避免查看 log 出現中文亂碼

0.問題現象和原因 如下圖所示,由於 Scrapyd 的 Web Interface 的 log 鏈接直接指向 log 文件,Response Headers 的 Content-Type 又沒有聲明字符集 charset=UTF-8,因此

原创 Scrapy 擴展中間件: 同步/異步提交批量 item 到 MySQL

0.參考 https://doc.scrapy.org/en/latest/topics/item-pipeline.html?highlight=mongo#write-items-to-mongodb  20180721新增:異步版本

原创 索引

 JS分析 !!!!!  js分析 快速定位 js 代碼, 還原被混淆壓縮的 js 代碼 *      js分析 有_道_翻_譯 md5 *      js分析 郵箱地址加密 [email protected] ***  js分析 貓_眼_

原创 SpiderKeeper 添加 Stats 鏈接過濾 log 最新信息

0.參考 https://github.com/DormyMo/SpiderKeeper   1.Job Dashboard 頁面添加 Stats 鏈接 python3.6/site-packages/SpiderKeeper/app/te

原创 Scrapy 擴展中間件: 針對特定響應狀態碼,使用代理重新請求

0.參考 https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#module-scrapy.downloadermiddlewares.redirect htt

原创 Scrapy 隱含 bug: 強制關閉爬蟲後從 requests.queue 讀取的已保存 request 數量可能有誤

問題描述和解決方案已提交至 Scrapy issues: The size of requests.queue may be wrong when resuming crawl from unclean shutdown. #3333

原创 scrapy_redis 相關: 將 jobdir 保存的爬蟲進度轉移到 Redis

0.參考  Scrapy 隱含 bug: 強制關閉爬蟲後從 requests.queue 讀取的已保存 request 數量可能有誤 1.說明 Scrapy 設置 jobdir,停止爬蟲後,保存文件目錄結構: crawl/apps/ ├─

原创 scrapy_redis 相關: 多線程更新 score/request.priority

0.背景 使用 scrapy_redis 爬蟲, 忘記或錯誤設置 request.priority(Rule 也可以通過參數 process_request 設置 request.priority),導致提取 item 的 request

原创 Django DetailView 多重繼承 關係整理

0.參考  https://docs.djangoproject.com/en/2.1/topics/class-based-views/mixins/   1.版本信息 In [157]: import sys In [158]: s

原创 scrapydweb:實現 Scrapyd 服務器集羣監控和交互,Scrapy 日誌分析和可視化

功能特性 Scrapyd 服務器集羣監控和交互 支持通過分組和過濾選中特定服務器節點 一次點擊,批量執行 Scrapy 日誌分析 統計信息展示 爬蟲進度可視化 關鍵日誌分類 支持所有 Scrapyd API Depl