小說爬蟲

原創

指尖魔法师

2019-01-16 23:59

爬一本小說的代碼操作：

import requests
from pyquery import PyQuery

# 目標地址
chapter1_url = 'http://www.biquyun.com/14_14055/9194140.html'


def get_one_chapter(chapter_url):
    # 獲取一章內容
    # 使用requests工具 發送請求
    response = requests.get(url=chapter_url)

    # 萬能的解決編碼問題：用內容中的編碼來解析
    response.encoding = response.apparent_encoding
    # print(response.text)

    # 把文字變成網頁格式
    doc = PyQuery(response.text)
    title = doc("h1").text()
    print(title)
    content = doc('#content').text()
    print(content)
    with open(file='三寸人間.txt', encoding='utf-8', mode="a+") as f:
        f.write(title + '\n' + content + '\n\n\n')


# 書本目錄
index_url = 'http://www.biquyun.com/14_14055/'
response = requests.get(url=index_url)
response.encoding = response.apparent_encoding
doc = PyQuery(response.text)
list_dd = doc('#list > dl > dd a')
for dd in list_dd.items():
    get_one_chapter('http://www.biquyun.com'+dd.attr('href'))

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Java開發Spring常見註解

Java開發Spring常見註解前言 Spring的一個核心功能是IOC，就是將Bean初始化加載到容器中，Bean是如何加載到容器的，可以使用Spring註解方式或者Spring XML配置方式。註解本身沒有功能的，

2024-05-21 13:10:25

Kubernetes:kubelet 源碼分析之探針

0. 前言 kubernetes 提供三種探針，配置探針（Liveness），就緒探針（Readiness）和啓動（Startup）探針判斷容器健康狀態。其中，存活探針確定什麼時候重啓容器，就緒探針確定容器何時準備好接受流量請求，啓動探針

2024-05-21 13:08:25

Kubernetes:kubelet 源碼分析之 pod 創建流程

0. 前言 kubelet 是運行在 Kubernetes 節點上的“節點代理”，用來管理節點。 kubelet 主要負責所在節點上的資源對象的管理，例如 Pod 資源對象的創建，刪除，監控，驅逐及生命週期管理等。 1. kubelet

2024-05-21 13:08:25

C#.Net築基-類型系統①基礎

C#.Net的BCL提供了豐富的類型，最基礎的是值類型、引用類型，而他們的共同（隱私）祖先是 System.Object（萬物之源），所以任何類型都可以轉換爲Object。 01、數據類型彙總 C#.NET 類型結構總結如下圖，Obje

/*夢裏花落知多少*/

2024-05-21 13:06:04

[原創]dotnet 命令行工具解決方案 PomeloCli

目錄PomeloCli 是什麼爲什麼實現太多的工具太少的規範基於二進制拷貝分發難以爲繼快速開始1. 引用 PomeloCli 開發命令行應用2. 引用 PomeloCli 開發命令行插件開發命令行插件搭建私有 nuget 服務發佈命令行插件

2024-05-21 13:01:14

Ement-Plus框架的列表table導出excel數據表

1.頁面預覽 2.搜索條件區域 code  <div class="table-container"> <el-form :inline="true" :model="queryForm" c

2024-05-21 13:00:34

【2024-05-20】親子亂調

20:00 調劑陰晴作好年，麥寒豆暖兩週旋。枇杷黃後楊梅紫，正是農家小滿天。

wc的一些事一些情

2024-05-21 12:58:04

【2024-05-19】連嶽摘抄

23:59 假如我說“夏天”，寫下“蜂鳥”這個詞，裝在信封裏，帶下山去投進郵筒。你一打開我的信，就會回想起那些日子，還有我是多麼多麼地，愛你。

wc的一些事一些情

2024-05-21 12:58:04

痞子衡嵌入式：從JLink V7.62開始優化了手動增加新MCU型號支持方法

　　大家好，我是痞子衡，是正經搞技術的痞子。今天痞子衡給大家分享的是JLink 7.62優化了手動增加新MCU型號支持方法。　　JLink 工具可以說是搞單片機開發的必備神器，JLink 包括一個硬件仿真器（分不同用途的 EDU/BAS

2024-05-21 12:58:04

sql server 動態SQL，返回查詢變量

如下： DECLARE @SearchSql NVARCHAR(MAX) DECLARE @Count INT SET @SearchSql = 'SELECT @Count = COUNT(*) FROM t_pl_test ' E

2024-05-21 12:56:23

PROJECT_SOURCE_DIR 和 CMAKE_SOURCE_DIR

PROJECT_SOURCE_DIR 和 CMAKE_SOURCE_DIR對比在 CMake 中，PROJECT_SOURCE_DIR和CMAKE_SOURCE_DIR是兩個非常重要的變量，它們都指向項目的源代碼目錄，但在多項目（子項目或

2024-05-21 12:54:23

快速打開windows控制面板 -->管理工具-->服務

以下是快速打開Windows的控制面板管理工具下的服務的步驟： 1. 按下 "Win + R" 組合鍵打開“運行”對話框。 2. 鍵入 "services.msc"，然後按下 Enter 鍵或單擊“確定”按鈕。 3. 這將立即打開 Wind

2024-05-21 12:54:13

來玩 GitHub 啊，SSH 連接方式

Windows 11 git version 2.32.0.windows.2 GitHub 20240520 -- 今天找回了自己的 GitHub 賬號密碼，繼續玩吧，再次加入藍星的開源軟件基地。使用郵箱註冊的，找回密碼也很方便。

2024-05-21 12:52:53

小米麪試：如何實現優先級線程池？

我們知道，線程池中的所有線程都是由統一的線程工廠來創建的，當我們指定線程工廠時，線程池中的所有線程會使用我們指定的線程工廠來創建線程；但如果沒有指定線程工廠，則會使用默認的線程工廠 DefaultThreadFactory 來創建線程，核心

王磊的博客

2024-05-21 12:52:53

一週開發一個客服工單系統

開發一個客服工單系統在一週內完成，需要詳細的計劃和高效的執行。以下是一個詳細的開發計劃，涵蓋每天的主要任務和技術棧選擇：演示效果：gofly.v1kf.com 技術棧選擇前端：React.js 或 Vue.js 後端：Go (Gin)

2024-05-21 12:51:52

24小時熱門文章

SQL優化-20231016

最新文章

最新評論文章