黑板客爬蟲闖關的第一關
附一下網址: http://www.heibanke.com/lesson/crawler_ex00/
自己手動的填了幾個發現太多,填補過來。
只好巧妙地利用了python爬蟲技術,百度了不少資料,最後終於成功了!
具體說一下步驟:
1.安裝python
去官網下載即可。
2.安裝selenium
win鍵 + R 運行 cmd , 在cmd裏輸入 pip install selenium
3.下載chromedriver
把下載好的chromedriver放在python的安裝目錄下
測試一下能不能用,打開idle,新建一個文件:
from selenium import webdriver
browser = webdriver.Chrome()
browser.get('http://www.baidu.com/')
可以成功打開百度說明成功。
4.代碼運行
# coding=utf-8
import requests, re
from selenium import webdriver
url = 'http://www.heibanke.com/lesson/crawler_ex00/'
browser = webdriver.Chrome()
while True:
# download the page
print("Forward to page %s ..." % url)
browser.get(url)
elem = browser.find_element_by_tag_name('h3')
# get the url of the for the next page
print(elem.text)
number = re.findall("\d+", elem.text)
if number == []:
print('The end.')
#browser.quit()
break;
else:
url = 'http://www.heibanke.com/lesson/crawler_ex00/' + number[0] # 拼接新地址
最終成功了,謝謝大家的閱讀。