python之scrapy的使用和獲取標籤內部全部文本的四種方式

在使用爬蟲爬取數據的時候，經常需要獲取標籤內的文本，下面向大家介紹四種獲取文本的方式（以小說吧中的一篇帖子爲例，鏈接爲：https://tieba.baidu.com/p/5806279867）：
第一步：打開終端，在指定文件夾下創建一個新的項目，並且按照提示輸入兩個命令

第一個命令進入tieba這個文件夾

第二個命令創建一個名字爲story的爬蟲文件（爬蟲的名字不能和工程名字一樣），鏈接爲tieba.baidu.com

創建成功的話，在指定目錄下會生成以下文件

spiders：所有創建的爬蟲文件會放在此文件夾下

__init__.py : 初始化文件

Items.py :存放數據模型

middlewares.py: 中間件，負責對內容進行處理

pipelines.py:通常用來控制執行的順序

setttings.py:設置項目的配置信息

因爲我們創建了一個名字爲story的爬蟲文件，所以spiders文件夾下有一個story的py文件

第二步：把代碼內容寫在爬蟲文件中

獲取每層的內容（四種方式獲取標籤內的文本）：

第一種方式：使用正則表達式獲取

在終端中輸入：

運行結果：

第二種方式：獲取外層標籤，遍歷內部所有的子標籤，獲取標籤文本。

運行結果：

第三種方式：獲取標籤以及子標籤的文本，遍歷所有的元素，獲得標籤文本

運行結果：

第四種方式：使用xpath('string(.)')這種方式來獲取所有文本並且拼接

運行結果：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.