python selenium BeautifulSoup實現手動登錄網站後持續爬取網站內不同頁面內容

原創

2020-04-14 17:35

#此程序實現了手動登錄網站後可持續爬取網站內不同頁面的效果
from selenium import webdriver
from bs4 import BeautifulSoup
import time
import re
import json

browser=webdriver.Chrome("e:/chromedriver.exe")

browser.get("https://www.tianyancha.com/search?key=%E6%B7%B1%E5%9C%B3%E5%B8%82%E5%A4%A9%E5%81%A5%EF%BC%88%E9%9B%86%E5%9B%A2%EF%BC%89%E8%82%A1%E4%BB%BD%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8")

print("請在30秒之內登錄網站")

time.sleep(30)
#★★★★★此時手動登錄網站後 便可以連續get網頁的內容★★★★★

#獲取網頁源碼
html=browser.page_source
#print(html)

#用靚湯解析網頁
bs=BeautifulSoup(html,"html.parser")
#查找到第一個div
div=bs.find('div',attrs={'class':'header'})

print(div.a.get("href"))
print(div.a.get_text())
    


print("★★★★★★★★★★★★★★★★★★★★★★★★★")

#★★★★★連續獲取網站內的其它網頁源碼★★★★★
browser.get("https://www.tianyancha.com/company/603109979")

print("稍等5秒")
time.sleep(5)

html=browser.page_source

bs = BeautifulSoup(html,"html.parser")
h1=bs.find('h1',attrs={'class':'name'})
print(h1.get_text())


print("★★★★★★★★★★★★★★★★★★★★★★★★★")

table=bs.find('table',attrs={'class':'table -striped-col -border-top-none -breakall'})
print(table)

#print(html)

print("ok")

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python selenium BeautifulSoup實現手動登錄網站後持續爬取網站內不同頁面內容

如何基於surging跨網關跨語言進行緩存降級

2024合集

程序員天天 CURD，怎麼才能成長，職業發展的思考(2)

移位操作搞定兩數之商

教你用Perl實現Smgp協議

如何通過前端表格控件在10分鐘內完成一張分組報表？

win11關閉自動檢測病毒刪文件

通用代碼生成器簡介

lightdb 單機模式下數據庫平移

千兆寬帶實際網速能到達多少？

html css 實現文字豎排模擬古籍排版

blender用視頻做背景渲染動畫節點設置

本地登錄mysql服務器

qrcode.js生成二維碼示例

用windows的遠程桌面連接CentOS

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結