python抓取去哪網當天的酒店信息

searchHotel

python抓取去哪網當天的酒店信息

. 主要內容

環境準備 

selenium 使用 

數據抓取

代碼地址


環境準備

安裝selenium 
sudo pip install selenium

selenium2.x 調用高版本瀏覽器會出現不兼容問題,調用低版本瀏覽器正常 selenium3.x 調用瀏覽器必須下載一個類似不定的文件,比如firefox的geckodriver,chrome的chromedriver 各個瀏覽器的補丁下載地址


安裝 BeautifulSoup 
sudo pip install BeautifulSoup

selenium 使用

注意事項:

from selenium import webdriver 
dr = webdriver.Firefox()

如果運行報錯,提示geckodriver(或者其他瀏覽器對應的補丁)必須在‘PATH’,添加對應的路徑到環境變量中,重啓,如果還報錯,改用下列寫法

dr = webdriver.Firefox(execute_path=r"/Users/software/chromedriver.exe"

數據抓取

  1. 搜索功能,在搜索框中輸入時間地點,點擊搜索按鈕
  2. 獲取一頁完整數據。由於去哪網一個頁面數據分爲兩次加載,第一次加載15條,這時需要將頁面拉到底部,完成第二次數據加載
  3. 獲取一頁完整且經過渲染的HTML文檔,使用BeautifulSoup將其中的酒店信息提取出來進行存儲
  4. 解析完成,點擊下一頁,繼續抽取數據



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章