小说爬虫

原創

指尖魔法师

2019-01-16 23:59

爬一本小说的代码操作：

import requests
from pyquery import PyQuery

# 目标地址
chapter1_url = 'http://www.biquyun.com/14_14055/9194140.html'


def get_one_chapter(chapter_url):
    # 获取一章内容
    # 使用requests工具 发送请求
    response = requests.get(url=chapter_url)

    # 万能的解决编码问题：用内容中的编码来解析
    response.encoding = response.apparent_encoding
    # print(response.text)

    # 把文字变成网页格式
    doc = PyQuery(response.text)
    title = doc("h1").text()
    print(title)
    content = doc('#content').text()
    print(content)
    with open(file='三寸人间.txt', encoding='utf-8', mode="a+") as f:
        f.write(title + '\n' + content + '\n\n\n')


# 书本目录
index_url = 'http://www.biquyun.com/14_14055/'
response = requests.get(url=index_url)
response.encoding = response.apparent_encoding
doc = PyQuery(response.text)
list_dd = doc('#list > dl > dd a')
for dd in list_dd.items():
    get_one_chapter('http://www.biquyun.com'+dd.attr('href'))

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

数据保护技巧揭秘：为导出文件添加防护密码的实用指南

一、前言當涉及到敏感數據的導出和共享時，數據安全是至關重要的。在現代數字化時代，保護個人和機密信息免受未經授權的訪問和竊取是每個組織和個人的首要任務之一。在這種背景下，葡萄城的純前端表格控件 SpreadJS 提供的加密功能爲用戶提供了一

葡萄城技術團隊

2024-06-03 14:30:40

图床软件Minio oss

docker run -p 9000:9000 -p 9001:9001 --name minio -d --restart=always -e "MINIO_ACCESS_KEY=admin" -e "MINIO_SECRET_KEY=a

2024-06-03 14:25:00

一个docker容器暴露多个端口

how to configure multiple domain (virtual host) and multiple virtual port # start the nginx proxy docker run -d -p 80:80

2024-06-03 14:25:00

微软官方开源免费的Blazor UI组件库 - Fluent UI Blazor

前言今天大姚給大家分享一個由微軟官方開源（MIT License）、免費的Blazor UI組件庫：Fluent UI Blazor。全面的ASP.NET Core Blazor簡介和快速入門 Fluent UI Blazor介紹

2024-06-03 14:22:00

再也不用为找.NET相关的项目和框架发愁了

前言最近經常在DotNetGuide技術社區交流羣裏看到有小夥伴問：有什麼好用的.NET定時任務調度框架推薦的？有什麼好的WPF/WinForm/Blazor圖表庫推薦的？.NET好用的後臺管理框架有推薦的嗎？大家平時都是怎麼找.NET

2024-06-03 14:22:00

leetcode 60 排列序列

排列序列已解答困難相關標籤相關企業給出集合 [1,2,3,...,n]，其所有元素共有 n! 種排列。按大小順序列出所有排列情況，並一一標記，當 n = 3 時, 所有排列如下： "123" "132" "213" "231

張博的博客

2024-06-03 14:19:49

k8S的kube-proxy相关ipvs

ipvsadm命令沒想到自己之前二進制部署的，也是ipvs代理模式 node2上沒有裝ipvs，也看不了一些ipvs規則 node1上安裝ipvsadm,然後就可以看的k8s添加的規則了 yum install ipvsadm

2024-06-03 14:13:49

零基础写框架：从零设计一个模块化和自动服务注册框架

關於從零設計 .NET 開發框架作者：癡者工良教程說明：倉庫地址：https://github.com/whuanle/maomi 文檔地址：https://maomi.whuanle.cn 作者博客： https://www.whu

2024-06-03 14:13:38

英语背单词专四词汇 2024年06月 ChatGPT

2024-06-03 index word pronunciation parts of speech explanation translation in Chinese 1 fuss /fʌs/ noun/verb unnec

2024-06-03 14:06:57

背单词首字母 2024年06月

2024-06-302024-06-292024-06-282024-06-272024-06-262024-06-252024-06-242024-06-232024-06-222024-06-212024-06-202024-06-19

2024-06-03 14:06:57

初探富文本之基于虚拟滚动的大型文档性能优化方案

初探富文本之基於虛擬滾動的大型文檔性能優化方案虛擬滾動是一種優化長列表性能的技術，其通過按需渲染列表項來提高瀏覽器運行效率。具體來說，虛擬滾動只渲染用戶瀏覽器視口部分的文檔數據，而不是整個文檔結構，其核心實現根據可見區域高度和容器的滾動位

2024-06-03 14:05:17

.Net 中间件 - 新开源代码生成器 -ReZero

ReZero AP ReZero是一款.NET中間件：一款通過界面操作就能生成API , 可以集成到任何.NET6+ API項目,無破壞性，也可讓非.NET用戶使用exe文件 ReZero生成器功能簡介 1、表文檔導出：支持目錄導航

2024-06-03 14:03:26

Microsoft.Extensions.DependencyInjection会自动释放通过DI（依赖注入）创建的对象

Microsoft.Extensions.DependencyInjection中（下面簡稱DI），在調用ServiceProvider和IServiceScope對象的Dispose()方法時，也會自動調用ServiceProvider和

2024-06-03 14:03:06

为什么以及如何要进行架构设计权衡？

對於“軟件架構”這個詞有很多定義和含義。而且，“軟件開發”、“軟件設計”和“軟件架構”這三個概念之間存在相當大的重疊，它們在許多方面相互交融。從核心上看，可以將軟件架構視爲在構建應用程序時，對不同選擇進行權衡的學科。 1 爲什麼需要權衡以

路人111122233

2024-06-03 14:00:36

如何使用Node.js、TypeScript和Express实现RESTful API服务

Node.js是一個基於 Chrome V8 引擎的 JavaScript 運行環境。Node.js 使用了一個事件驅動、非阻塞式 I/O 的模型,使其輕量又高效。Express是一個保持最小規模的靈活的 Node.js Web應用程序開發

2024-06-03 13:59:46

24小時熱門文章

最新文章

最新評論文章