原创 【爬蟲解析1】:XPath總結

XPATH教程   1、加載 XML 文檔 所有現代瀏覽器都支持使用 XMLHttpRequest 來加載 XML 文檔的方法。 針對大多數現代瀏覽器的代碼: var xmlhttp=new XMLHttpRequest() 針對古老的

原创 [python基礎] 多進程、多線程

提高爬蟲效率—併發爬取智聯招聘(多進程方式)   多進程的核心代碼: from multiprocessing import Pool #multiprocessing是Python自帶的一個多進程模塊,在此我們使用其Pool方法。

原创 Cookie總結

Cookie Cookie,指某些網站爲了辨別用戶身份、進行session跟蹤而儲存在用戶本地終端上的數據(通常經過加密) 比如說有些網站需要登錄後才能訪問某個頁面,在登錄之前,你想抓取某個頁面內容是不允許的。那麼我們可以利用Urlli

原创 《將博客搬至CSDN》

《將博客搬至CSDN》

原创 [python基礎] SMTP發送郵件

發送郵件教程 語法如下: import smtplib smtpObj = smtplib.SMTP( [host [, port [, local_hostname]]] )   參數說明: host: SMTP 服務器主機。 你可以

原创 Python基礎知識

python字符串的常用操作方法小結   一、基礎 import urllib.request response = urllib.request.urlopen('http://www.baidu.com/') html =

原创 jQuery中map函數

兩種方式: 1、直接jQuery.map //將原數組中每個元素加 4 轉換爲一個新數組。 $.map( [0,1,2], function(n){ return n + 4; }); //結果: [4, 5, 6]   //原數組中

原创 Scrapy爬蟲:模擬瀏覽器和使用代理

採用settings.py的方式進行設置user agent和proxy列表 http://www.tuicool.com/articles/VRfQR3U http://jinbitou.net/2016/12/01/2229.htm

原创 Python爬蟲實戰:Scrapy豆瓣電影爬取

來源:Scrapy安裝、爬蟲入門教程、爬蟲實例(豆瓣電影爬蟲) 該例子中未使用代理和模擬瀏覽器,所以會導致403Forbidden,以下已優化。 代碼放在附件中。   採用settings.py的方式進行設置user agent和pro

原创 [python基礎] 輸入和輸出

如果你希望將輸出的值轉成字符串,可以使用 repr() 或 str() 函數來實現。 str(): 函數返回一個用戶易讀的表達形式。 repr(): 產生一個解釋器易讀的表達形式。   rjust() 方法, 它可以將字符串靠右, 並在

原创 Python驗證IP是否可用

python爬蟲-爬取代理IP並通過多線程快速驗證 scrapy爬蟲代理——利用crawlera神器,無需再尋找代理IP   python爬蟲成長之路(二):抓取代理IP並多線程驗證 在使用爬蟲爬取網絡數據時,如果長時間對一個網站進行抓

原创 Python爬蟲實戰:爬取JS組成的頁面

Python 爬蟲如何獲取 JS 生成的 URL 和網頁內容? 獲取JS動態內容—爬取今日頭條  使用Selenium爬取QQ空間說說 python爬蟲的最佳實踐(五)--selenium+PhantomJS的簡單使用    最粗暴的方

原创 [python基礎] 標準庫

 os模塊-操作系統接口 os模塊提供了不少與操作系統相關聯的函數。 import os   建議使用 "import os" 風格而非 "from os import *"。這樣可以保證隨操作系統不同而有所變化的 os.open()

原创 Python爬蟲實戰:爬取代理IP

python驗證代理IP是否可用 python爬蟲-爬取代理IP並通過多線程快速驗證(這個驗證沒跑通) scrapy爬蟲代理——利用crawlera神器,無需再尋找代理IP   Python驗證IP是否可用 第一個用了Beautiful

原创 【爬蟲解析2】:pyquery總結

使用 pyQuery 解析HTML內容 https://segmentfault.com/a/1190000005182997 http://blog.csdn.net/cnmilan/article/details/8727308