爬蟲之頁面鏈接獲取

原創

2020-02-21 11:48

大一的時候見到一個研一學姐用C#寫了個網頁鏈接的爬蟲，覺得好高大上，最近又有朋友問我怎麼寫，於是無聊就用python（懶得打開VS）寫了個簡單的單級鏈接獲取

先給代碼：

from selenium import webdriver
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary

## 網頁鏈接獲取
url = '你要趴取的網址'

#你的火狐瀏覽器安裝地址
binary = FirefoxBinary('D:\\program files (x86)\\Mozilla 
Firefox\\firefox.exe')

#你的火狐瀏覽器驅動地址
driver = webdriver.Firefox(firefox_binary=binary,executable_path='G:\webdriver\geckodriver.exe'）

#打開瀏覽器進入目標url
driver.get(url)

#把打開的瀏覽器最大化
driver.maximize_window()

print('進入'+driver.title+'成功')

for link in driver.find_elements_by_tag_name("a"):
    #對獲取的鏈接描述做判定
    if link.text!="":
        print link.text+":"
    else:
        print "未命名鏈接："
    print link.get_attribute("href")

#關閉剛剛打開的所有窗口然後關閉瀏覽器
driver.quit()

要是覺得輸出到控制檯看着不爽的話也可以直接輸入到文件裏面去，這個難度太低了大家就自行百度吧。

這裏我用來測試的瀏覽器是火狐，因爲總的來說爬蟲這種東西雖然現在很多人知道並且在用，但是個人覺得對於一些建網站的和瀏覽器公司來說還是要想辦法防止爬蟲的。說了這麼多其實就是因爲我的selenium版本不支持我用的chrome版本所以我才用的火狐（尷尬）至於對於自動化測試還沒接觸過或者說還不怎麼知道的小夥伴可以去看看我寫的另一篇文章，裏面有一些簡單的自動化測試的動手操作知識。
地址：http://blog.csdn.net/ztzy520/article/details/53940127

另附：

火狐驅動器geckodriver下載地址：
http://download.csdn.net/detail/ztzy520/9725887

谷歌驅動器chromedriver下載地址：
http://download.csdn.net/detail/ztzy520/9725888

火狐45版本安裝包下載地址：
http://download.csdn.net/detail/ztzy520/9725890

嘔心瀝血寫出來的，轉載請一定註明出處