原创 Python爬取西刺國內高匿代理ip並驗證
1.抓取ip存入文件 首先,我們訪問西刺首頁 http://www.xicidaili.com/,並點擊國內高匿代理,如下圖: 按 F12 檢查網頁元素或者 ctrl+u查看網頁源代碼: 我們需要提取的是 ip 和端口,這裏我們用正則
原创 Scrapy簡明教程(三)——爬取CSDN博文並寫入文件
本篇博文將介紹 Scrapy 爬取 CSDN 博文詳情頁並寫入文件,這裏以 http://blog.csdn.net/oscer2016/article/details/78007472 這篇博文爲例: 1. 先執行以下幾個命令:
原创 Scrapy簡明教程(一)——簡介與安裝
1. 認識 Scrapy 框架: 中文文檔: http://scrapy-chs.readthedocs.io/zh_CN/0.24/index.html 英文文檔: https://doc.scrapy.org/en/latest
原创 Scrapy簡明教程(四)——爬取CSDN博客專家所有博文並存入MongoDB
首先,我們來看一下CSDN博客專家的鏈接: http://blog.csdn.net/experts.html 上圖爲 CSDN 所有博客專家頁面,點擊下一頁後發現每次 url 都不會改變,但是已經翻頁了,檢查網頁元素如下圖:
原创 Scrapy簡明教程(二)——開啓Scrapy爬蟲項目之旅
1. 啓動項目: 安裝好 Scrapy 以後, 我們可以運行 startproject 命令生成該項目的默認結構。具體步驟爲: 打開終端進入想要存儲 Scrapy 項目的目錄,然後運行 scrapy startproject <pro
原创 新版MySQL修改密碼以及忘記密碼解決
1. 新版MySQL修改密碼的四種方法: (1) 直接設置法: # test爲用戶名,password後面是新密碼,回車後輸入舊密碼即可 [root@pavilion 15:09 hp]# mysqadmin -u test -p pas