在使用爬蟲爬取數據的時候,經常需要獲取標籤內的文本,下面向大家介紹四種獲取文本的方式(以小說吧中的一篇帖子爲例,鏈接爲:https://tieba.baidu.com/p/5806279867):
第一步:打開終端,在指定文件夾下創建一個新的項目,並且按照提示輸入兩個命令
第一個命令進入tieba這個文件夾
第二個命令創建一個名字爲story的爬蟲文件(爬蟲的名字不能和工程名字一樣),鏈接爲tieba.baidu.com
創建成功的話,在指定目錄下會生成以下文件
spiders:所有創建的爬蟲文件會放在此文件夾下
__init__.py : 初始化文件
Items.py :存放數據模型
middlewares.py: 中間件,負責對內容進行處理
pipelines.py:通常用來控制執行的順序
setttings.py:設置項目的配置信息
因爲我們創建了一個名字爲story的爬蟲文件,所以spiders文件夾下有一個story的py文件
第二步:把代碼內容寫在爬蟲文件中
獲取每層的內容(四種方式獲取標籤內的文本):
第一種方式:使用正則表達式獲取
在終端中輸入:
運行結果:
第二種方式:獲取外層標籤,遍歷內部所有的子標籤,獲取標籤文本。
運行結果:
第三種方式:獲取標籤以及子標籤的文本,遍歷所有的元素,獲得標籤文本
運行結果:
第四種方式:使用xpath('string(.)')這種方式來獲取所有文本並且拼接
運行結果: