searchHotel
python抓取去哪網當天的酒店信息
. 主要內容
環境準備
selenium 使用
數據抓取
代碼地址
環境準備
安裝selenium
sudo pip install selenium
selenium2.x 調用高版本瀏覽器會出現不兼容問題,調用低版本瀏覽器正常 selenium3.x 調用瀏覽器必須下載一個類似不定的文件,比如firefox的geckodriver,chrome的chromedriver 各個瀏覽器的補丁下載地址
安裝 BeautifulSoup
sudo pip install BeautifulSoup
selenium 使用
注意事項:
from selenium import webdriver
dr = webdriver.Firefox()
如果運行報錯,提示geckodriver(或者其他瀏覽器對應的補丁)必須在‘PATH’,添加對應的路徑到環境變量中,重啓,如果還報錯,改用下列寫法
dr = webdriver.Firefox(execute_path=r"/Users/software/chromedriver.exe"
數據抓取
- 搜索功能,在搜索框中輸入時間地點,點擊搜索按鈕
- 獲取一頁完整數據。由於去哪網一個頁面數據分爲兩次加載,第一次加載15條,這時需要將頁面拉到底部,完成第二次數據加載
- 獲取一頁完整且經過渲染的HTML文檔,使用BeautifulSoup將其中的酒店信息提取出來進行存儲
- 解析完成,點擊下一頁,繼續抽取數據