爲什麼python更適合寫爬蟲?

1.抓取網頁本身的接口

相比與其他靜態編程語言,如java,c#,C++,python抓取網頁文檔的接口更簡潔;

相比其他動態腳本語言,如perl,shell,python的urllib2包提供了較爲完整的訪問網頁文檔的API。
此外,抓取網頁有時候需要模擬瀏覽器的行爲,很多網站對於生硬的爬蟲抓取都是封殺的。這是我們需要模擬user agent的行爲構造合適的請求,譬如模擬用戶登陸、模擬session/cookie的存儲和設置。在python裏都有非常優秀的第三方包幫你搞定,如Requestsmechanize

2)網頁抓取後的處理
抓取的網頁通常需要處理,比如過濾html標籤,提取文本等。python的beautifulsoap提供了簡潔的文檔處理功能,能用極短的代碼完成大部分文檔的處理。

其實以上功能很多語言和工具都能做,但是用python能夠幹得最快,最乾淨。

Life is short, I use Python.

人生苦短,我用Python

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章