python 爬蟲 beautifulsoup

原創

2020-06-21 09:17

參考：

https://www.icourse163.org/course/BIT-1001870001

https://blog.csdn.net/u013378306/article/details/54409013

beautifulsoup

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>data</p>', 'html.parser')

print(soup.prettify()) # 友好顯示

下行遍歷：

上行遍歷：

平行遍歷：

提取信息：

<>.find_all(name, attrs, recursive, string, **kwargs) # 返回一個bs4.element.Tag的列表

name可以是關於標籤的列表、正則表達式（？經過編譯的）、函數（對tag進行過濾）

string: <>…</>中字符串區域的檢索字符串（就是隻檢索非屬性字符串）

<tag>(..) 等價於<tag>.find_all(..)
soup(..)  等價於soup.find_all(..)

中文字符的空格填充chr(12288)

bs可以使用類似CSS的語法，tag.select(css)，tag是html中的一個element節點元素

re：正則表達式

match對象屬性：string(待匹配字符串），re（匹配時使用的正則表達式），pos（正則表達式搜索文本的開始位置），endpos

方法：group(0)，start()， end()， span()

默認使用貪婪匹配，即輸出匹配最長的子串

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

python使用requests和loginform模擬登陸網站

代碼如下： import requests from loginform import fill_login_form from bs4 import BeautifulSoup as bs url = 'xxx' user

2020-06-21 09:17:46

win10平臺上安裝與運行scrapy出錯

參考：https://blog.csdn.net/gulang03/article/details/82564402 直接輸入以下命令會報錯： pip install scrapy 錯誤節選： ERROR: Failed buil

2020-06-21 09:17:46

python爬蟲，自動登錄

使用requests模塊使用requests.session()創建一個會話。然後使用會話進行鏈接請求。如果把cookies或headers放進請求參數中，在session進行第一次請求後，這些參數不會自動添加到後續的請求中。因此，爲

2020-06-21 09:17:44

python3 pip 安裝 Pattern出錯

pip3 install Pattern 出現如下錯誤：主要是這一句： OSError: mysql_config not found 原因是centos需要安裝mysql相關的一些依賴包，執行如下命令。然後就可以正常安

2020-06-21 09:17:44

python相關操作

遍歷文件( os.listdir)： def getFiles(path): list = os.listdir(path) #列出文件夾下所有的目錄與文件 for i in range(0,len(l

2020-06-21 09:17:44

scrapy 筆記

Scrapy不是一個函數功能庫，而是一個爬蟲框架。爬蟲框架是實現爬蟲功能的一個軟件結構和功能組件集合。爬蟲框架是一個半成品，需要用戶實現部分代碼。 Engine控制各模塊數據流，不間斷從Scheduler處獲得爬取請求，直至請求爲空。

2020-06-21 09:17:44

python使用requests和loginform模擬登陸網站

代碼如下： import requests from loginform import fill_login_form from bs4 import BeautifulSoup as bs url = 'xxx' user

2020-06-21 09:17:46

win10平臺上安裝與運行scrapy出錯

參考：https://blog.csdn.net/gulang03/article/details/82564402 直接輸入以下命令會報錯： pip install scrapy 錯誤節選： ERROR: Failed buil

2020-06-21 09:17:46

python爬蟲，自動登錄

使用requests模塊使用requests.session()創建一個會話。然後使用會話進行鏈接請求。如果把cookies或headers放進請求參數中，在session進行第一次請求後，這些參數不會自動添加到後續的請求中。因此，爲

2020-06-21 09:17:44

python3 pip 安裝 Pattern出錯

pip3 install Pattern 出現如下錯誤：主要是這一句： OSError: mysql_config not found 原因是centos需要安裝mysql相關的一些依賴包，執行如下命令。然後就可以正常安

2020-06-21 09:17:44

python相關操作

遍歷文件( os.listdir)： def getFiles(path): list = os.listdir(path) #列出文件夾下所有的目錄與文件 for i in range(0,len(l

2020-06-21 09:17:44

scrapy 筆記

Scrapy不是一個函數功能庫，而是一個爬蟲框架。爬蟲框架是實現爬蟲功能的一個軟件結構和功能組件集合。爬蟲框架是一個半成品，需要用戶實現部分代碼。 Engine控制各模塊數據流，不間斷從Scheduler處獲得爬取請求，直至請求爲空。

2020-06-21 09:17:44

24小時熱門文章

最新文章

最新評論文章