【Python学习】获取《三国演义》目录

原創

2021-08-22 13:39

因为是初学python，所以遇到了一些问题，但好在一一解决，特此记录一边温故知新。

问题如下：

数据解析方式：可选择的方式有很多，对于选择困难的人员来说是一件比较头疼的事情。层层对比之下最终选择了xpath（仁者见仁，不强求），因为xpath解析是我们在爬虫中最常用也是最通用的一种数据解析方式，由于其高效且简介的解析方式受到了广大程序员的喜爱。
中文乱码处理：获取到的结果是乱码，很头疼，百度了很多方法，不怎么管用，最终请教了老司机，老司机会用不会讲，惆怅！留着以后攻坚吧~
字符串中间多个空格问题：获取到的标题中间的空格数量不等，2、3、4个都有，这个不统一我是受不了，但是看了一下python关于字符串的文档，没有找到解决办法。最终还是度娘给了答案：正则。

import requests
import re
from lxml import etree
headers = {
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
}
data = []
url = 'https://www.shicimingju.com/book/sanguoyanyi.html'
page_text = requests.get(url=url,headers=headers).text

tree = etree.HTML(page_text)
li_list = tree.xpath('//div[@class="book-mulu"]/ul/li')
for li in li_list:
    title=li.xpath('.//a/text()')[0].encode('ISO-8859-1').decode('utf-8')# 中文乱码处理
    title_url = li.xpath('.//a/@href')[0].encode('ISO-8859-1').decode('utf-8')
    dic = {
        "title": re.sub('\s+', ' ',title),# 将有多个空格的地方替换为只有一个空格
        "title_url": 'https://www.shicimingju.com/'+title_url
    }
    data.append(dic)
print(data)

最终数据：

谢谢观看~

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

C#开源的两款功能强大的录屏神器

ScreenToGif ScreenToGif是一款由C#語言開發且開源的操作簡單、免費的屏幕錄製和GIF動畫製作神器。它可以幫助用戶捕捉計算機屏幕上的實時動畫，並將其保存爲高質量的 GIF 圖像格式。該工具不僅適用於技術支持、軟件演示和教

2024-05-03 14:28:27

前端 Vue yarn.lock文件：详解和使用指南

yarn.lock文件：詳解和使用指南 https://www.python100.com/html/38KF796X6BHM.html 一、什麼是yarn.lock文件 yarn.lock文件是一個產生於Yarn 0.22及以後版

2024-05-03 14:15:26

前端 Vue webpack配置之 webpack.config.js 文件配置

Webpack 在執行的時候，除了在命令行傳入參數，還可以通過指定的配置文件來執行。默認情況下，會搜索當前目錄的 webpack.config.js 文件，這個文件是一個 node.js 模塊，返回一個 json 格式的配置信息對象，或

2024-05-03 14:15:26

Vue package-lock.json的作用

package-lock.json的作用 "node_modules/@aashutoshrathi/word-wrap": { "version": "1.2.6", "resolved": "h

2024-05-03 14:15:26

前端 Vue-cli中 vue.config.js 的配置详解

Vue-cli 3 / Vue-cli 4 目錄結構 ├── README.md # 說明 |-- dist # 打包後文件夾 ├── babel.config.js

2024-05-03 14:15:26

druid数据源 xml配置

https://blog.csdn.net/h273979586/article/details/87932220 pom依賴 <dependency> <groupId>com.alibaba</groupId>

2024-05-03 14:14:55

Windows中Redis怎么设置密码

Windows中Redis怎麼設置密碼

2024-05-03 14:11:15

JDK8和JDK17共存以及切换的方法

1、先安裝"jdk-8u381-windows-x64.exe"，再安裝"jdk-17_windows-x64_bin.exe" 2、"系統屬性"-"高級"-"環境變量"-"系統變量"-"Path"-"編輯"，刪除以下2條 C:\Progr

2024-05-03 14:11:15

centos7修改redis密码

檢查Redis配置文件首先，我們需要確保Redis的配置文件中包含了設置密碼的選項。打開Redis的配置文件/etc/redis.conf，查找以下行並確保取消註釋（去掉行首的#）： requirepass your_password 啓

2024-05-03 14:11:15

基于SSM的在线外卖订餐系统毕业设计论文【范文】

摘要隨着互聯網技術的迅猛發展和人們生活節奏的加快，在線外賣訂餐系統因其便捷性和高效率而受到廣泛歡迎。本文圍繞《基於SSM框架的在線外賣訂餐系統》這一課題展開研究，旨在設計並實現一個功能全面、操作簡便且安全可靠的在線外賣訂餐平臺。首先，文

2024-05-03 14:08:24

基于CodeMirror开发在线编辑器时遇到的问题及解决方案

需求：實現json在線編輯並支持校驗，基於此使用了 CodeMirror在線編輯，jsonlint校驗輸入數據 // package.json: "dependencies": { "codemirror": "^5.53.2"

2024-05-03 14:04:44

《软件性能测试、分析与调优实践之路》(第2版) PPT课件流出

掃描圖書前言中的如下圖所示的二維碼，即可進入到下載頁面。如下圖所示即爲課件的下載頁面，免費提供下載

2024-05-03 14:01:24

2024年感想

　　看了一眼之前到博客，最近的一次博客還在一年之前，時間如白駒過隙，飛快流逝。這兩年生活和工作都經歷裏很多，想想是應該在這裏好好梳理總結下。我總是感慨，自己從二十六七歲到現在三十多的年紀，好像經歷別人的半輩子，感悟衆多。　　我以前是個朋友

兜兜有糖的博客

2024-05-03 13:57:53

AWS S3 Lambda Python脚本函数实现图片自动转换为webp并上传至s3

Amazon S3 自動轉換圖片格式 Amazon S3 存儲桶新增文件自動觸發 AWS Lambda。Lambda 取 S3 文件做轉換並存回去 S3 同一個目錄下，並增加相應的後綴名。並且支持通過API Gateway的方式觸發對

2024-05-03 13:51:42

Eclipse Memory Analyzer (MAT)的安装后提示JDK版本不对要升级到jdk_17

背景在啓動MAT分析內存時報錯：Version1.8.0 of the jvm is not suitable for this product，Version17 or greater isrequired。問題原因很明顯，我電腦的J

2024-05-03 13:51:42

24小時熱門文章

最新文章

最新評論文章