Python爬蟲requests+lxml爬取小說並寫入本地txt文件

原創

我爱吃豆芽呀

2020-02-24 22:38

這裏選擇使用的python包是requests和lxml

requests負責請求頁面

lxml負責頁面內容的解析和鎖定

#導入相關包
import requests
from lxml import etree
import time

然後是幾個輔助方法

#定義請求函數
def get_html(url,headers):
    response = requests.get(url , headers)
    return response.content
 
 
#定義解析函數
def resolve_html(content):
    html = etree.HTML(content);
    return html

#寫入txt
def save(novel):
    save_path = 'hello.txt'
    fp = open(save_path , 'a',encoding='utf-8',newline='\n')
    fp.write(novel)
    fp.close()

最後是主函數，這裏以爬取筆趣閣站點的<<慶餘年>>爲例

#定義主函數
def main():
   domain = 'http://www.xbiquge.la'#主站
   dirurl = '/1/1690/'#章節列表頁面
   headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:61.0) Gecko/20100101 Firefox/61.0'}#自定義header
   content = get_html(domain+dirurl,headers)
   #獲取各章節地址
   pages = resolve_html(content).xpath('//*[@id="list"]/dl/dd/a/@href')
   #依次爬取章節內容
   for page in pages:
    page_content = get_html(domain+page,headers)
    time.sleep(1)
    html = resolve_html(page_content)
    title = html.xpath('//*[@class="bookname"]/h1')[0].text
    article = html.xpath('//*[@id="content"]/text()')
    print(title)
    save(title + '\n')
    for part in article:
      save(part)

完整代碼：github地址

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python爬蟲學習之selenium+ChromeDriver實現爬蟲

selenium+ChromeDriver實現爬蟲參考：https://blog.csdn.net/u010986776/article/details/79266448 selenium所做的事情，恰恰是驅動真正的瀏覽器去執行

2020-07-02 00:25:55

Python爬蟲學習之API與模擬ajax請求

API的使用 ——通過API向服務器請求數據優點：簡單直接，高效率地批量爬取；解決動態網頁的爬取。缺點：通過API的缺點是有些網站會限制API調用的次數和頻率，用戶需要付費來升級成高級用戶來獲取更靈活的API調用。 HTTP協

2020-07-02 00:25:54

Python爬蟲學習之下載源文件與數據存儲

下載源文件與數據存儲下載源文件 urlretrieve 多用於非結構化的數據（圖片等），以下載http://www.pythonscraping.com 上的logo.jpg爲例： '''urlretrieve''' from

2020-07-02 00:25:54

2019最牛Python書單，學習Python的小夥伴看這裏！

Python 是軍刀型的開源工具，被廣泛應用於Web 開發、爬蟲、數據清洗、自然語言處理、機器學習和人工智能等方面，而且Python 的語法簡潔易讀，這讓許多編程入門者不再望而卻步，因此Python 在最近幾年非常受歡迎，各行各業的技術

2020-06-15 00:57:09

Python 爬蟲十六式 - 第七式：RE：用匹配來演繹編程的藝術

RE：用匹配來演繹編程的藝術學習一時爽，一直學習一直爽 Hello，大家好，我是 Connor，一個從無到有的技術小白。上一次我們說到了 pyquery 今天我們將迎來我們數據匹配部分的最後一位重量級人物，也是編程語言中

2020-06-10 10:42:02

Python 爬蟲十六式 - 第一式：HTTP協議

HTTP：偉大而又無聞的協議學習一時爽，一直學習一直爽！ Hello，大家好啊，我是Connor，一個從無到有的技術小白。有的人一說什麼是HTTP協議就犯愁，寫東西的時候也沒想過什麼是HTTP協議，只是知道HTTP協議

2020-06-10 10:42:02

Python 爬蟲十六式 - 第二式：urllib 與 urllib3

Python請求標準庫 urllib 與 urllib3 學習一時爽，一直學習一直爽！大家好，我是 Connor，一個從無到有的技術小白。上一次我們說到了什麼是HTTP協議，那麼這一次我們就要動手，來真正的瞭解如何使用

2020-06-10 10:42:02

Python 爬蟲學習（無聊至極的環境搭建）

黑阔大叔的女友

2020-06-01 10:21:30

Python正則表達式指南

2020-02-23 12:09:42

Python Version 2.7 required which was not found in the registry

2020-02-23 12:09:42

python Scrapy 框架做爬蟲 ——很好的教程

2020-02-23 12:09:42

Lubuntu14.04(Ubuntu)安裝爬蟲框架Scrapy

2020-02-23 12:09:42

64位win7系統下面安裝pyOpenSSL一直報錯找不到openssl/aes.h解決方法

2020-02-23 12:09:42

簡單調試 Python 程序

2020-02-23 12:09:42

[Python]網絡爬蟲（11）：亮劍！爬蟲框架小抓抓Scrapy閃亮登場！

阿三家的海绵

2020-02-21 17:20:10

24小時熱門文章

最新文章

最新評論文章