python selenium BeautifulSoup實現手動登錄網站後持續爬取網站內不同頁面內容

#此程序實現了手動登錄網站後可持續爬取網站內不同頁面的效果
from selenium import webdriver
from bs4 import BeautifulSoup
import time
import re
import json

browser=webdriver.Chrome("e:/chromedriver.exe")

browser.get("https://www.tianyancha.com/search?key=%E6%B7%B1%E5%9C%B3%E5%B8%82%E5%A4%A9%E5%81%A5%EF%BC%88%E9%9B%86%E5%9B%A2%EF%BC%89%E8%82%A1%E4%BB%BD%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8")

print("請在30秒之內登錄網站")

time.sleep(30)
#★★★★★此時手動登錄網站後 便可以連續get網頁的內容★★★★★

#獲取網頁源碼
html=browser.page_source
#print(html)

#用靚湯解析網頁
bs=BeautifulSoup(html,"html.parser")
#查找到第一個div
div=bs.find('div',attrs={'class':'header'})

print(div.a.get("href"))
print(div.a.get_text())
    


print("★★★★★★★★★★★★★★★★★★★★★★★★★")

#★★★★★連續獲取網站內的其它網頁源碼★★★★★
browser.get("https://www.tianyancha.com/company/603109979")

print("稍等5秒")
time.sleep(5)

html=browser.page_source

bs = BeautifulSoup(html,"html.parser")
h1=bs.find('h1',attrs={'class':'name'})
print(h1.get_text())


print("★★★★★★★★★★★★★★★★★★★★★★★★★")

table=bs.find('table',attrs={'class':'table -striped-col -border-top-none -breakall'})
print(table)

#print(html)

print("ok")

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章