Python Selenium 獲取頁面所有文本內容

原創

2020-05-17 11:26

分享知識傳遞快樂

用 Selenium 爬蟲獲取網頁上顯示的文本，首先安裝 lxml 模塊：

pip install lxml

代碼：

driver = webdriver.Chrome()
driver.maximize_window()
driver.get("url")

# 獲取頁面源代碼
html_source = driver.page_source
# 重點
html = lxml.html.fromstring(html_source)
# 獲取標籤下所有文本
items = html.xpath("//div[@id='y_prodsingle']//text()")
# 正則 匹配以下內容 \s+ 首空格 \s+$ 尾空格 \n 換行
pattern = re.compile("^\s+|\s+$|\n")

clause_text = ""
for item in items:
	# 將匹配到的內容用空替換，即去除匹配的內容，只留下文本
	line = re.sub(pattern, "", item)
	if len(line) > 0:
		clause_text += line + "\n"
	#
#
print(clause_text)

參考：

Python lxml 從網頁HTML/XML提取數據

如果您另有獲取頁面文本的方法請留言。

—————————
如有不足請留言指正
相互學習，共同進步

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

百度智能雲千帆AppBuilder重磅升級！工作流編排正式上線！AssistantsAPI開放邀測！

>>【v0.5.3版本】上線時間：2024/4/14 關鍵發版信息：低代碼態：新增工作流，低代碼製作組件自定義組件：支持用戶自定義創建組件，並被Agent自動編排調用工作流框架：組件支持流式編排、調試和發佈工作

2024-04-19 11:29:41

CTF中常見的四種python逆向

說在前面：什麼是pyc文件？ pyc是一種二進制文件，是由py文件經過編譯後，生成的文件，是一種byte code，py文件變成pyc文件後，加載的速度有所提高，pyc 文件是 Python 編譯過的字節碼文件。它是 Python 程

2024-04-19 10:46:19

數據結構筆記淺記（十二）雙向隊列

鏈表或數組作爲底層數據結構雙向鏈表的頭節點和尾節點視爲雙向隊列的隊首和隊尾，同時實現在兩端添加和刪除節點的功能使用環形數組來實現雙向隊列雙向隊列應用雙向隊列兼具棧與隊列的邏輯，因此它可以實現這兩者的所有應用場景，同時提供更高的自由

2024-04-18 23:39:23

數據結構筆記淺記（十一）單向隊列

「隊列 queue」是一種遵循先入先出規則的線性數據結構。顧名思義，隊列模擬了排隊現象，即新來的人不斷加入隊列尾部，而位於隊列頭部的人逐個離開。在 Python 中，我們一般將雙向隊列類 deque 當作隊列使用，雖然 queue.

2024-04-18 23:39:20

在pycharm裏邊怎麼設置代碼背景圖的？

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【Kim】問了一個Python問題，然後他發出來的代碼如下圖所示：可以看到代碼中有背景圖，是不是看上去蠻高大上的？那麼這個背景圖是怎麼加上去的呢？這裏給大家介紹一

2024-04-18 09:48:48

在Python中實現代理服務器的配置和使用方法

在網絡通信中，代理服務器是一種重要的網絡中間件，它可以作爲客戶端和服務器之間的中轉站，增強網絡安全性、提高訪問速度、隱藏真實IP地址等。Python作爲一種強大的編程語言，提供了豐富的庫和模塊，使得實現和配置代理服務器變得非常簡單。本文將介

2024-04-17 23:25:44

這篇 DolphinScheduler on k8s 雲原生部署實踐，值得所有大數據人看！

在當前快速發展的技術格局中，企業尋求創新解決方案來簡化運營並提高效率成爲一種趨勢。 Apache DolphinScheduler作爲一個強大的工具，允許跨分佈式系統進行復雜的工作流任務調度。本文將深入探討如何將Apache Dolphin

2024-04-17 21:18:15

Python中2種常用數據可視化庫：Bokeh和Altair

本文分享自華爲雲社區《探究數據可視化：Bokeh vs. Altair》，作者：檸檬味擁抱。在數據科學和數據分析領域，數據可視化是一種強大的工具，可以幫助我們更好地理解數據、發現模式和趨勢。Python作爲一種流行的數據科學工具，擁有多種

2024-04-17 10:33:56

五一假期暢遊指南：Python技術構建的熱門景點分析系統解讀

導言五一假期即將到來，作爲一名熱愛旅遊的技術達人，我總是希望能夠通過技術手段更好地規劃我的旅行路線。在這篇文章中，我將向大家介紹一款基於Python技術的熱門景點分析系統，幫助您在五一假期中游玩得更加盡興！ 1. 系統概述熱門景點

2024-04-16 23:25:46

Python中兩種網絡編程方式：Socket和HTTP協議

本文分享自華爲雲社區《Python網絡編程實踐從Socket到HTTP協議的探索與實現》，作者：檸檬味擁抱。在當今互聯網時代，網絡編程是程序員不可或缺的一項技能。Python作爲一種高級編程語言，提供了豐富的網絡編程庫，使得開發者能夠輕鬆

2024-04-16 10:33:01

使用urllib和BeautifulSoup解析網頁中的視頻鏈接

一、概述在當今數字化社會中，視頻內容已經成爲互聯網上最受歡迎的形式之一。而抖音作爲全球領先的短視頻平臺，每天都有數以億計的用戶在其中分享各種各樣的視頻內容。對於開發者來說，獲取抖音視頻鏈接並進行進一步的處理和分析是一項有趣且具有挑戰性

2024-04-15 23:27:55

安裝Anaconda使用TensoFlow

1、下載anaconda 運行安裝 https://www.anaconda.com/download-success 2、anacanda powershell prompt conda create -n itmamba_anaco

2024-04-15 12:49:44

實例講解昇騰 CANN YOLOV8 和 YOLOV9 適配

本文分享自華爲雲社區《昇騰 CANN YOLOV8 和 YOLOV9 適配》，作者：jackwangcumt。 1 概述華爲昇騰 CANN YOLOV8 推理示例 C++樣例 , 是基於Ascend CANN Samples官方示例中的

2024-04-11 22:32:35

直觀易用的大模型開發框架LangChain，你會了沒？

目前LangChain框架在集團大模型接入手冊中的學習案例有限，爲了讓大家可以快速系統地瞭解LangChain大模型框架並開發，產出此文章。本文章包含了LangChain的簡介、基本組件和可跑的代碼案例（包含Embedding、Com

2024-04-11 11:15:54

他說遇到了循環導入，但是我怎麼看我的代碼都沒有循環導入

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【Kim】問了一個Python基礎的問題，問題如下：他說遇到了循環導入，但是我怎麼看我的代碼都沒有循環導入。二、實現過程這裏【魏哥】給了一個解答：這個之前搞Py

2024-04-11 09:48:36

24小時熱門文章

最新文章

最新評論文章