原创 scrapy 通過FormRequest模擬登錄再繼續

1.參考 https://doc.scrapy.org/en/latest/topics/spiders.html#scrapy.spiders.Spider.start_requests 自動提交 login.php 返回表單 https

原创 scrapy_redis 相關: 查看保存的數據

0.參考資料 https://redis.io/topics/data-types-intro  An introduction to Redis data types and abstractions http://redisdoc.co

原创 lxml.etree.HTML(text) 解析HTML文檔

0.參考 http://lxml.de/tutorial.html#the-xml-function There is also a corresponding function HTML() for HTML literals. >>>

原创 nginx 限制併發訪問及請求頻率

0.   1.參考 【工作】Nginx限制IP併發連接數和請求數的研究 Module ngx_http_limit_conn_module Module ngx_http_limit_req_module 漏桶算法和 NGINX 的 lim

原创 MySQl 查詢性能優化相關

0.     1.參考 提升網站訪問速度的 SQL 查詢優化技巧 緩存一切數據,讀取內存而不是硬盤IO 如果你的服務器默認情況下沒有使用MySQL查詢緩存,那麼你應該開啓緩存。開啓緩存意味着MySQL 會把所有的語句和語句執行的結果保存下來

原创 python2 python3 轉換,兼容

0. 1.參考 https://docs.python.org/3/library/urllib.html urllib is a package that collects several modules for working with

原创 CSS/Xpath 選擇器 第幾個子節點/父節點/兄弟節點

0.參考 1.初始化 In [325]: from scrapy import Selector In [326]: text=""" ...: <div> ...: <a>1a</a> ...:

原创 時隔五年,Scrapyd 終於原生支持 basic auth

Issue in 2014 scrapy/scrapyd/issues/43 Pull request in 2019 scrapy/scrapyd/pull/326 試用 安裝:pip install -U git+https://gi

原创 如何免費創建雲端爬蟲集羣

移步 GitHub

原创 如何通過 Scrapyd + ScrapydWeb 簡單高效地部署和監控分佈式爬蟲項目

來自 Scrapy 官方賬號的推薦 需求分析 初級用戶: 只有一臺開發主機 能夠通過 Scrapyd-client 打包和部署 Scrapy 爬蟲項目,以及通過 Scrapyd JSON API 來控制爬蟲,感覺命令行操作太麻煩,希

原创 LogParser:一個用於定期增量式解析 Scrapy 爬蟲日誌的 Python 庫

GitHub 開源 my8100 / logparser 安裝 通過 pip: pip install logparser 通過 git: git clone https://github.com/my8100/logparser.g

原创 LogParser v0.8.0 發佈:一個用於定期增量式解析 Scrapy 爬蟲日誌的 Python 庫,配合 ScrapydWeb 使用可實現爬蟲進度可視化

GitHub 開源 my8100 / logparser   安裝 通過 pip: pip install logparser 通過 git: git clone https://github.com/my8100/logparser

原创 LogParser v0.8.0 發佈:一個用於定期增量式解析 Scrapy 爬蟲日誌的 Python 庫

GitHub 開源 my8100 / logparser 安裝 通過 pip: pip install logparser 通過 git: git clone https://github.com/my8100/logparser.git

原创 如何通過 Scrapyd + ScrapydWeb 簡單高效地部署和監控分佈式爬蟲項目

來自 Scrapy 官方賬號的推薦 需求分析 初級用戶: 只有一臺開發主機 能夠通過 Scrapyd-client 打包和部署 Scrapy 爬蟲項目,以及通過 Scrapyd JSON API 來控制爬蟲,感覺命令行操作太麻煩,希望能

原创 Scrapyd 改進第二步: Web Interface 添加 STOP 和 START 超鏈接, 一鍵調用 Scrapyd API

0.提出問題 Scrapyd 提供的開始和結束項目的API如下,參考 Scrapyd 改進第一步: Web Interface 添加 charset=UTF-8, 避免查看 log 出現中文亂碼,準備繼續在頁面上進一步添加 START 和