原创 Python爬蟲使用Selenium+PhantomJS抓取Ajax和動態HTML內容

1,引言在Python網絡爬蟲內容提取器一文我們詳細講解了核心部件:可插拔的內容提取器類gsExtractor。本文記錄了確定gsExtractor的技術路線過程中所做的編程實驗。這是第二部分,第一部分實驗了用xslt方式一次性提取靜態網

原创 Python編程規範

1,Python編程規範 > 編碼     所有的 Python 腳本文件都應在文件頭標上 # -*- coding:utf-8 -*-     用於設置編輯器,默認保存爲 utf-8 格式。 > 註釋     業界普

原创 1分鐘快速生成用於網頁內容提取的xslt

1,項目背景 在《Python即時網絡爬蟲項目說明》一文我們說過要做一個通用的網絡爬蟲,而且能節省程序員大半的時間,而焦點問題就是提取器使用的抓取規則需要快速生成。在python使用xslt提取網頁數據一文,我們已經看到這個提取

原创 Python 即時網絡爬蟲項目: 內容提取器的定義

1. 項目背景在python 即時網絡爬蟲項目啓動說明中我們討論一個數字:程序員浪費在調測內容提取規則上的時間,從而我們發起了這個項目,把程序員從繁瑣的調測規則中解放出來,投入到更高端的數據處理工作中。2. 解決方案爲了解決這個問題,我

原创 Python即時網絡爬蟲項目啓動說明

                作爲酷愛編程的老程序員,實在按耐不下這個衝動,Python真的是太火了,不斷撩撥我的心。         我是對Python存有戒備之心的,想當年我基於Drupal做的系統,使用php語言,當語言升級了,推

原创 Python使用xslt提取網頁數據

1,引言 在Python網絡爬蟲內容提取器一文我們詳細講解了核心部件:可插拔的內容提取器類gsExtractor。本文記錄了確定gsExtractor的技術路線過程中所做的編程實驗。這是第一部分,實驗了用xslt方式一次性提取靜態網頁內

原创 python爬蟲:常用瀏覽器的useragent

1,爲什麼需要修改UserAgent在寫python網絡爬蟲程序的時候,經常需要修改UserAgent,有很多原因,羅列幾個如下: 不同Agent下看到的內容不一樣,比如,京東網站上的手機版網頁和pc版網頁上的商品優惠不一樣 爲避免被屏

原创 Python爬蟲實戰(1):爬取Drupal論壇帖子列表

1,引言在《Python即時網絡爬蟲項目: 內容提取器的定義》一文我們定義了一個通用的python網絡爬蟲類,期望通過這個項目節省程序員一半以上的時間。本文將用一個實例講解怎樣使用這個爬蟲類。我們將爬集搜客老版論壇,是一個用Drupal

原创 Python爬蟲:常用瀏覽器的useragent

1,爲什麼需要修改UserAgent在寫python網絡爬蟲程序的時候,經常需要修改UserAgent,有很多原因,羅列幾個如下:不同Agent下看到的內容不一樣,比如,京東網站上的手機版網頁和pc版網頁上的商品優惠不一樣爲避免被屏蔽,爬取

原创 Python爬蟲實戰(2):爬取京東商品列表

1,引言在上一篇《python爬蟲實戰:爬取Drupal論壇帖子列表》,爬取了一個用Drupal做的論壇,是靜態頁面,抓取比較容易,即使直接解析html源文件都可以抓取到需要的內容。相反,JavaScript實現的動態網頁內容,無法從htm

原创 Python編程規範

1,Python編程規範> 編碼    所有的 Python 腳本文件都應在文件頭標上# -*- coding:utf-8 -*-    用於設置編輯器,默認保存爲 utf-8 格式。> 註釋    業界普遍認同 Python 的註釋分爲兩

原创 讓Scrapy的Spider更通用

1,引言《Scrapy的架構初探》一文所講的Spider是整個架構中最定製化的一個部件,Spider負責把網頁內容提取出來,而不同數據採集目標的內容結構不一樣,幾乎需要爲每一類網頁都做定製。我們有個設想:是否能做一個比較通用的Spider,

原创 Python爬蟲實戰(4):豆瓣小組話題數據採集—動態網頁

1, 引言註釋:上一篇《Python爬蟲實戰(3):安居客房產經紀人信息採集》,訪問的網頁是靜態網頁,有朋友模仿那個實戰來採集動態加載豆瓣小組的網頁,結果不成功。本篇是針對動態網頁的數據採集編程實戰。Python開源網絡爬蟲項目啓動之初,我

原创 我的友情鏈接

集搜客GooSeeker博客大管家-蘑菇

原创 Python爬蟲實戰(4):豆瓣小組話題數據採集—動態網頁

1, 引言註釋:上一篇《Python爬蟲實戰(3):安居客房產經紀人信息採集》,訪問的網頁是靜態網頁,有朋友模仿那個實戰來採集動態加載豆瓣小組的網頁,結果不成功。本篇是針對動態網頁的數據採集編程實戰。Python開源網絡爬蟲項目啓動之初,我