Python爬虫requests+lxml爬取小说并写入本地txt文件

原創

我爱吃豆芽呀

2020-02-24 22:38

这里选择使用的python包是requests和lxml

requests负责请求页面

lxml负责页面内容的解析和锁定

#导入相关包
import requests
from lxml import etree
import time

然后是几个辅助方法

#定义请求函数
def get_html(url,headers):
    response = requests.get(url , headers)
    return response.content
 
 
#定义解析函数
def resolve_html(content):
    html = etree.HTML(content);
    return html

#写入txt
def save(novel):
    save_path = 'hello.txt'
    fp = open(save_path , 'a',encoding='utf-8',newline='\n')
    fp.write(novel)
    fp.close()

最后是主函数，这里以爬取笔趣阁站点的<<庆余年>>为例

#定义主函数
def main():
   domain = 'http://www.xbiquge.la'#主站
   dirurl = '/1/1690/'#章节列表页面
   headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:61.0) Gecko/20100101 Firefox/61.0'}#自定义header
   content = get_html(domain+dirurl,headers)
   #获取各章节地址
   pages = resolve_html(content).xpath('//*[@id="list"]/dl/dd/a/@href')
   #依次爬取章节内容
   for page in pages:
    page_content = get_html(domain+page,headers)
    time.sleep(1)
    html = resolve_html(page_content)
    title = html.xpath('//*[@class="bookname"]/h1')[0].text
    article = html.xpath('//*[@id="content"]/text()')
    print(title)
    save(title + '\n')
    for part in article:
      save(part)

完整代码：github地址

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python爬虫学习之selenium+ChromeDriver实现爬虫

selenium+ChromeDriver實現爬蟲參考：https://blog.csdn.net/u010986776/article/details/79266448 selenium所做的事情，恰恰是驅動真正的瀏覽器去執行

2020-07-02 00:25:55

Python爬虫学习之API与模拟ajax请求

API的使用 ——通過API向服務器請求數據優點：簡單直接，高效率地批量爬取；解決動態網頁的爬取。缺點：通過API的缺點是有些網站會限制API調用的次數和頻率，用戶需要付費來升級成高級用戶來獲取更靈活的API調用。 HTTP協

2020-07-02 00:25:54

Python爬虫学习之下载源文件与数据存储

下載源文件與數據存儲下載源文件 urlretrieve 多用於非結構化的數據（圖片等），以下載http://www.pythonscraping.com 上的logo.jpg爲例： '''urlretrieve''' from

2020-07-02 00:25:54

2019最牛Python书单，学习Python的小伙伴看这里！

Python 是軍刀型的開源工具，被廣泛應用於Web 開發、爬蟲、數據清洗、自然語言處理、機器學習和人工智能等方面，而且Python 的語法簡潔易讀，這讓許多編程入門者不再望而卻步，因此Python 在最近幾年非常受歡迎，各行各業的技術

2020-06-15 00:57:09

Python 爬虫十六式 - 第七式：RE：用匹配来演绎编程的艺术

RE：用匹配來演繹編程的藝術學習一時爽，一直學習一直爽 Hello，大家好，我是 Connor，一個從無到有的技術小白。上一次我們說到了 pyquery 今天我們將迎來我們數據匹配部分的最後一位重量級人物，也是編程語言中

2020-06-10 10:42:02

Python 爬虫十六式 - 第一式：HTTP协议

HTTP：偉大而又無聞的協議學習一時爽，一直學習一直爽！ Hello，大家好啊，我是Connor，一個從無到有的技術小白。有的人一說什麼是HTTP協議就犯愁，寫東西的時候也沒想過什麼是HTTP協議，只是知道HTTP協議

2020-06-10 10:42:02

Python 爬虫十六式 - 第二式：urllib 与 urllib3

Python請求標準庫 urllib 與 urllib3 學習一時爽，一直學習一直爽！大家好，我是 Connor，一個從無到有的技術小白。上一次我們說到了什麼是HTTP協議，那麼這一次我們就要動手，來真正的瞭解如何使用

2020-06-10 10:42:02

Python 爬虫学习（无聊至极的环境搭建）

黑阔大叔的女友

2020-06-01 10:21:30

Python正则表达式指南

2020-02-23 12:09:42

Python Version 2.7 required which was not found in the registry

2020-02-23 12:09:42

python Scrapy 框架做爬虫 ——很好的教程

2020-02-23 12:09:42

Lubuntu14.04(Ubuntu)安装爬虫框架Scrapy

2020-02-23 12:09:42

64位win7系统下面安装pyOpenSSL一直报错找不到openssl/aes.h解决方法

2020-02-23 12:09:42

简单调试 Python 程序

2020-02-23 12:09:42

[Python]网络爬虫（11）：亮剑！爬虫框架小抓抓Scrapy闪亮登场！

阿三家的海绵

2020-02-21 17:20:10

24小時熱門文章

最新文章

最新評論文章