獲取標籤全部文本的方式

原創

2018-08-30 00:09

1.獲取最外層標籤，遍歷內部所有的子標籤，獲取標籤文本

選擇貼吧小說吧中的一個爲例鏈接爲 https://tieba.baidu.com/p/5815118868?pn=1

#找到指定類名的div標籤 該標籤內爲貼吧內容和作者的集合體
div_list = response.xpath('//div[@class="l_post l_post_bright j_l_post clearfix  "]')

#遍歷內部所有子標籤
for div in div_list:
    author = div.xpath('.//div[@class="louzhubiaoshi_wrap"]').extract()
    print(author)

2.正則去掉標籤，re.compile.sub()

remove = re.compile('\s')
douhao = re.compile(',')
content = ''
for string in content_list:
    string = re.sub(remove,'',string)
    string = re.sub(douhao,'',string)
    print(string)

3./text()獲取標籤的文本 //text() 獲取標籤以及子標籤的文本

content_list = div.xpath('.//div[@class="d_post_content j_d_post_content "]//text()').extract()

4.使用xpath('string(.)') ,這種方式來獲取所有文本

content = div.xpath('.//div[@class="d_post_content j_d_post_content "]').xpath('string(.)').extract()[0]+'\n'

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Qt/C++音視頻開發75-獲取本地有哪些攝像頭名稱/Qt內置函數方式

一、前言在需要打開本地攝像頭的場景中，有個需求繞不開，那就是如何獲取本地有哪些攝像頭設備名稱，這樣可以提供下拉框給用戶選擇，不然你讓用戶去填設備名，你覺得用戶會知道是啥，他會操作嗎？就算你提供了詳細的查看步驟，估計也很難，如果用戶是程序員

2024-05-27 14:31:48

【BI 可視化插件】怎麼做？手把手教你實現

背景對於現在的用戶來說，插件已經成爲一個熟悉的概念。無論是在使用軟件、 IDE 還是瀏覽器時，插件都是爲了在原有產品基礎上提供更多更便利的操作。在 BI 領域，圖表的豐富性和對接各種場景的自定義是最吸引人的特點。雖然市面上現有的 BI 軟

葡萄城技術團隊

2024-05-27 14:30:48

lightdb 24.1新特性

J.1. 版本發佈 13.8-24.1 J.1.1. Oracle 兼容J.1.2. plorasql 增強J.1.3. MySQL 兼容J.1.4. lightdb 新特性J.1.5. ltjdbc 增強版本發佈日期：.

2024-05-27 14:28:37

sql server 修改表字段長度耗時問題分析

　　產品報了一個bug，保存某個單據時報錯，數據庫錯誤。本地調試後發現是某個表字段長度不夠導致，所以解決起來很簡單，優化下長度即可，通過ALTER TABLE修改表字段長度。　　通常這麼做無可厚非，字段不夠當然是加字段了。不過隨着業務量的

2024-05-27 14:27:07

微服務實踐k8s&dapr開發部署實驗（2）狀態管理

新建webapi項目建項目時取消https支持，勾選docker支持， Program.cs中註釋下面語句，這樣部署後才能訪問Swagger // Configure the HTTP request pipeline. //if

2024-05-27 14:25:07

Azure 知識培訓總結

　　結合之前兩年多對於 Azure 知識的學習，爲了響應公司的數字化轉型的需求，同時我們部門也開展了雲計算的學習大講堂，我作爲 Azure 知識的主講人，特此講這些分享認知整理以下，總結分享於大家。一、培訓目的　　在當今的數字化時代，雲

2024-05-27 14:24:37

Lakehouse 還是 Warehouse？(1/2)

Onehouse 創始人/首席執行官 Vinoth Chandar 於 2022 年 3 月在奧斯汀數據委員會發表了這一重要演講。奧斯汀數據委員會是“世界上最大的獨立全棧數據會議”，這是一個由社區驅動的活動，包括數據科學、數據工程、分析、機

2024-05-27 14:22:46

解密Prompt系列30. LLM Agent之互聯網衝浪智能體

這一章我們介紹能自主瀏覽操作網頁的WebAgent們和相關的評估數據集，包含初級任務MiniWoB++，高級任務MIND2WEB，可交互任務WEBARENA，多模態WebVoyager，多輪對話WebLINX，和複雜任務AutoWebGLM

風雨中的小七

2024-05-27 14:22:15

一個免費、時尚、強大的 Windows GitHub 客戶端

前言今天大姚給大家分享一個.NET開源（MIT License）、免費、時尚、功能強大的 Windows GitHub 客戶端：FluentHub。工具功能多任務標籤頁。上下文菜單擴展。對問題和PR進行評論。用戶/組織/代碼庫

2024-05-27 14:21:55

一文帶你瞭解.NET能做什麼？

前言在DotNetGuide技術社區微信交流羣經常看到有小夥伴問：.NET除了能寫桌面應用和Web應用還能做什麼？今天大姚將通過本篇文章來簡單講講.NET能做哪些開發，對.NET感興趣的小夥伴也可以自行領取文末附帶的.NET相關學習資料。

2024-05-27 14:21:55

委託、事務

委託（普通、多播）delegate OutParm delegateName（InParm1,InParm2,......）類似於函數指針 Delegate int Mydelegate(int a,int b) 用處：回調函數、篩選

2024-05-27 14:18:44

【ESP32】製作 Wi-fi 音箱（HTTP + I2S 協議）

用 Wifi 來傳輸音頻數據，會比藍牙更好。使用藍牙方式，不管你用什麼協議，都會對數據重新編碼，說人話就是有損音質，雖然不至於全損。而使用 Wifi 就可以將 PCM 數據直接傳輸，無需再編碼和壓縮。在 ESP32 開發板上可以通過 I2S

2024-05-27 14:16:44

記一次 .NET某企業數字化平臺崩潰分析

一：背景 1. 講故事前些天羣裏有一個朋友說他們軟件會偶發崩潰，想分析看看是怎麼回事，所幸的是自己會抓dump文件，有了dump就比較好分析了，接下來我們開始吧。二：WinDbg 分析 1. 程序爲什麼會崩潰 windbg 還是非常強大

2024-05-27 14:15:43

jenkins使用大全

部署 jenkins 相關網站 Jenkins官網：https://jenkins.io/Jenkins官網文檔：https://www.jenkins.io/zh/doc/Jenkins學習文檔：https://www.w3cschool

2024-05-27 14:13:52

賽克 1530（環形dp）

賽氪OJ-專注於算法競賽的在線評測系統 (saikr.com) 枚舉第一張卡片是由法力值降低還是法力值上升得到的，一共有4種情況，d[i][j][0]表示第i個卡牌選第j個法力值並且上一個卡牌的法力值大於j的所獲得的前i個卡牌的最大運氣值；

2024-05-27 14:10:21

24小時熱門文章

最新文章

最新評論文章