基礎抓取元素

原創

2019-04-07 03:56

import requests
from bs4 import BeautifulSoup
import re

geturl = 'https://sh.lianjia.com/ershoufang/rs/'
head = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36'
headers ={'User-Agent':head};
link = requests.get(url=geturl,headers=headers)
#用瀏覽器頭訪問，否則返回403
#soup = BeautifulSoup(link.text,"lxml")
#sou = soup.find('div',class_ ='unitPrice')
pattern = r'data-price="(.*?)"'
#正則表達式原來要這麼寫，然後傳入findall中
rs = re.findall(pattern,link.text)
for detail in rs:
    print(detail)

注意findall後面是正則的語句，第二個參數應該是字符串。
第一次用的時候將soup傳入了參數中，果斷報錯了。後來大佬幫忙debug發現了這裏不對。

結果即爲第一頁每平方的價格的輸出

訪問網頁的時候必須得傳入參數頭，否則返回403，好像是反爬蟲的機制。
一般第三個參數是可以更改ip

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

基礎抓取元素

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

Spring Boot修改訪問端口號

解決xx is not an annotation type

py學習小記

復旦歷年機試題

MAC 搭建Springboot配置

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結