1.抓取網頁本身的接口
相比與其他靜態編程語言,如java,c#,C++,python抓取網頁文檔的接口更簡潔;
相比其他動態腳本語言,如perl,shell,python的urllib2包提供了較爲完整的訪問網頁文檔的API。
此外,抓取網頁有時候需要模擬瀏覽器的行爲,很多網站對於生硬的爬蟲抓取都是封殺的。這是我們需要模擬user agent的行爲構造合適的請求,譬如模擬用戶登陸、模擬session/cookie的存儲和設置。在python裏都有非常優秀的第三方包幫你搞定,如Requests,mechanize
2)網頁抓取後的處理
抓取的網頁通常需要處理,比如過濾html標籤,提取文本等。python的beautifulsoap等提供了簡潔的文檔處理功能,能用極短的代碼完成大部分文檔的處理。
其實以上功能很多語言和工具都能做,但是用python能夠幹得最快,最乾淨。