【Python學習】獲取《三國演義》目錄

原創

2021-08-22 13:39

因爲是初學python，所以遇到了一些問題，但好在一一解決，特此記錄一邊溫故知新。

問題如下：

數據解析方式：可選擇的方式有很多，對於選擇困難的人員來說是一件比較頭疼的事情。層層對比之下最終選擇了xpath（仁者見仁，不強求），因爲xpath解析是我們在爬蟲中最常用也是最通用的一種數據解析方式，由於其高效且簡介的解析方式受到了廣大程序員的喜愛。
中文亂碼處理：獲取到的結果是亂碼，很頭疼，百度了很多方法，不怎麼管用，最終請教了老司機，老司機會用不會講，惆悵！留着以後攻堅吧~
字符串中間多個空格問題：獲取到的標題中間的空格數量不等，2、3、4個都有，這個不統一我是受不了，但是看了一下python關於字符串的文檔，沒有找到解決辦法。最終還是度娘給了答案：正則。

import requests
import re
from lxml import etree
headers = {
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
}
data = []
url = 'https://www.shicimingju.com/book/sanguoyanyi.html'
page_text = requests.get(url=url,headers=headers).text

tree = etree.HTML(page_text)
li_list = tree.xpath('//div[@class="book-mulu"]/ul/li')
for li in li_list:
    title=li.xpath('.//a/text()')[0].encode('ISO-8859-1').decode('utf-8')# 中文亂碼處理
    title_url = li.xpath('.//a/@href')[0].encode('ISO-8859-1').decode('utf-8')
    dic = {
        "title": re.sub('\s+', ' ',title),# 將有多個空格的地方替換爲只有一個空格
        "title_url": 'https://www.shicimingju.com/'+title_url
    }
    data.append(dic)
print(data)

最終數據：

謝謝觀看~

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

StreamJsonRpc.ConnectionLostException 在請求完成之前, 與遠程方的 JSON-RPC 連接已丟失

今天電腦重啓之後，發現 visual studio 2022 的智能提示與報錯經常性不好用，不光不能在正常時候提示代碼錯誤信息，甚至在編譯過後也不提示錯誤。反覆重啓，剛開始正常，隔一會兒就會提示什麼什麼功能不可用，點開打開詳情，提示：Str

波多爾斯基

2024-04-23 14:32:26

10分鐘本地運行llama3及初體驗

Meta最新推出的開源大模型llama-3,被譽爲目前最強的開源大模型，能力接近於GPT 4.5. 因此在本地搭建一下搶鮮體驗系統環境 CPU: AMD Ryzen 5 3600X 6-Core Processor 4.10 GHz RA

摩羯座先生

2024-04-23 14:32:16

【筆記】動手學深度學習-前言

1、學習深度學習，首先第一點要親自動手。 2、相關anacoda的環境的安裝方法，用來隔絕相關的依賴關係，防止安裝包衝突。 3、機器學習程序不同於一般程序，能夠隨着數據的增加，通過調節內部的參數，展現出一定的智能的想象。 4、機器學習中的核

2024-04-23 14:29:45

手寫協議報文 c語言手法

鑑於絕大部分文件、網絡通信協議、非網絡通信協議都有類似的結構{類型，長度，校驗，不定長數據，結束標誌}，再高級點的會包含多個單層TLV，甚至嵌套TLV，狀態機流轉標誌等等。所以編程語言上也需要採用一定的手法。建立結構結構體和聯合體例如

藍天上的雲℡

2024-04-23 14:22:15

公司新來一個幹練小夥，把 MyBatis 替換成 MyBatis-Plus，上線後哭暈在廁所。。。

作者：青石路來源：https://www.cnblogs.com/youzhibing/p/18019399 MyBatis 替換成 MyBatis-Plus 背景介紹一個老項目，數據庫用的是 MySQL 5.7.36 ， ORM 框

2024-04-23 14:22:15

goweb性能分析 - 遠程分析

gin集成pporf main.go添加 import _ "net/http/pprof" gin路由添加 // r is *gin.Engine pprof.Register(r) 本地電腦鏈接到遠程web服務進行分析然後本地

藍天上的雲℡

2024-04-23 14:22:15

RT-Thread 4.x STM32F107

官方文檔很坑，新舊不分開，文檔缺失/分類很亂有些文檔在IDE RT-STUDIO文檔裏，有些在RTThread標準版文檔裏，逆天坑：不支持STM32CUBEMX的Advanced工程，記得重新保存生成basic工程才能用。不能使用.c/

藍天上的雲℡

2024-04-23 14:22:15

Azure REST API (0) 概述 Windows Azure Platform 系列文章目錄

　　《Windows Azure Platform 系列文章目錄》　　1.概述　　1.我們在使用Azure 雲服務的時候，可以通過Azure Portal: https://portal.azure.com,輸入郵箱地址和密碼，然後

Lei Zhang的博客

2024-04-23 14:21:25

盟軍敢死隊2 108關

可以算是最耐玩的遊戲了. 108關後面自定義的關都非常難. https://bbs.3dmgame.com/thread-6354239-1-1.html 更多的360關: https://www.52pojie.cn/thread-117

張博的博客

2024-04-23 14:20:44

淺談sparse vec檢索工程化實現

前面我們通過兩篇文章: BGE M3-Embedding 模型介紹和 Sparse稀疏檢索介紹與實踐介紹了sparse 稀疏檢索，今天我們來看看如何建立一個工程化的系統來實現sparse vec的檢索。之前提過milvus最新的V

2024-04-23 14:20:04

甲骨文(Oracle)宣佈將以74億美元收購Sun公司

IBM與Sun公司之間的收購風波還未塵埃落定，半路卻殺出了甲骨文公司這個“程咬金”。Oracle甲骨文公司和Sun微系統公司今天共同宣佈，雙方已經達成協議，甲骨文將以每股9.5美元的現金收購Sun公司，交易總價值74億美元。　　就在幾周

2024-04-23 14:18:34

NSS：IE8是最安全的瀏覽器

NSS實驗室近日的一份研究報告指出，IE8在惡意軟件防護方面較其它瀏覽器表現突出，NSS表示，當前有超過50%的惡意軟件都是通過網絡下載傳播的，該實驗室首次對五種主流瀏覽器的惡意網站的攔截性能進行了測試，IE8（RC版本）以69%的攔截率居

2024-04-23 14:18:34

Brian Sun：回覆“爲啥就那麼痛恨IE？”

這位仁兄很有自知之明:) 但是我並不打算罵你，我打算跟你講講道理。首先，在講道理之前，我先要說明一個事實，Mozilla的前身是Netscape Navigator，人類第一個商業瀏覽器，即做了非常成功的產品又做了非常成功的創業企業

2024-04-23 14:18:34

支持非IE瀏覽器真的那麼難嗎？

來源：http://www.kenengba.com/post/774.html 微軟最近推出了IE8正式版。當你知道上網需要的是瀏覽器，而不是那個"e"時，你一定知道，不管IE推出什麼版本，只要它的核心不變，它一直是個“老掉牙”的瀏覽器。

2024-04-23 14:18:34

爲啥就那麼痛恨IE？

　　看了《評論:支持非IE瀏覽器真的那麼難嗎？》一文，我覺得作者的分析太深刻了——一個典型的技術型人才。其實從技術上說，要支持IE根本不是什麼困難的事情，這個大家都很清楚。但是不遵循技術標準，並不代表國人素質低，並不代表國人不思改變、不思進

2024-04-23 14:18:34

24小時熱門文章

最新文章

最新評論文章