書荒閣小說爬取

原創

2020-02-23 23:53

把dir改成書荒閣某本小說目錄，name改爲保存文件名字，就可以爬下來了

from bs4 import BeautifulSoup
import requests

headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}

def download(url, path):
    res = requests.get(url, headers = headers)
    res.encoding = 'gbk'
    bs = BeautifulSoup(res.text, 'html.parser')#.replace('&nbsp;','')
    tag = bs.find('div', {'id':'content'})
    with open(path, 'a', encoding = 'utf-8') as f:
        f.write('\n\n' + bs.title.get_text() + '\n\n')
        f.write(tag.get_text())


def getdir(url, baseurl):
    res = requests.get(url, headers = headers)
    bs = BeautifulSoup(res.text, 'html.parser')
    tags = bs.find('div', {'id':'list'}).findAll(['dd', 'dt'])
    start = 1
    while True:
        if tags[start].name == 'dt':
            break
        start+=1
    for i in range(start+1, len(tags)):
        yield baseurl+tags[i].a['href']





#dir=input()
#name=input()
dir='https://www.shuhuangge.org/0_71/'
baseurl='https://www.shuhuangge.org'
name='我欲封天'
for url in getdir(dir, baseurl):
    download(url,name + '.txt')
    print(url)
    #time.sleep(1)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

安裝筆記本應用商店的pycharm，再安排pandas等模塊，說是沒有打包工具?

大家好，我是Python進階者。一、前言前幾天在Python最強王者交流羣【斌】問了一個Python庫安裝的問題。求教大佬：華爲筆記本，麒麟系統，安裝筆記本應用商店的pycharm，再安排pandas等模塊，說是沒有打包工具，再安裝

2024-05-25 10:02:28

從入門到精通：掌握Scrapy框架的關鍵技巧

在當今信息爆炸的時代，獲取並利用網絡數據成爲了許多行業的核心競爭力之一。而作爲一名數據分析師、網絡研究者或者是信息工作者，要想獲取網絡上的大量數據，離不開網絡爬蟲工具的幫助。而Scrapy框架作爲Python語言中最爲強大的網絡爬蟲框架之

2024-05-25 00:09:06

面向AI的開發：從大模型（LLM）、檢索增強生成（RAG）到智能體（Agent）的應用

引言隨着人工智能技術的飛速發展，大型語言模型（LLM）、檢索增強生成（RAG）和智能體（Agent）已經成爲推動該領域進步的關鍵技術，這些技術不僅改變了我們與機器的交互方式，而且爲各種應用和服務的開發提供了前所未有的可能性。正確理解這三者

2024-05-24 23:57:39

對話阿里云云原生產品負責人李國強：推進可觀測產品與OpenTelemetry開源生態全面融合

5 月 22 日，在最新一期的飛天發佈時刻上，阿里雲宣佈多款可觀測產品全面升級，其中一項是應用實時監控服務 ARMS 在業內率先推進了與 OpenTelemetry 開源生態的全面融合，極大豐富了可觀測的數據類型及規模，大幅增強了 ARMS

2024-05-24 21:13:50

昔日輝煌不再，PHP老矣，尚能飯否？

導語 | 近期 TIOBE 最新指數顯示，PHP 的流行度降至了歷史最低，排在第 17 名，同時，在年度 Stack Overflow 開發者調查報告中，PHP 在開發者中的受歡迎程度已經從之前的約 30% 萎縮至現在的 18%。“P

2024-05-23 23:48:42

一文教你基於LangChain和ChatGLM3搭建本地知識庫問答

本文分享自華爲雲社區《【雲駐共創】LangChain＋ChatGLM3實現本地知識庫，轉華爲雲ModelArts，實現大模型AI應用開發》，作者：葉一一。一、前言本期華爲雲的講師是華爲雲EI開發生態的工程師傑森，分享主題是：基於La

2024-05-23 10:58:28

Python實現大麥網搶票的四大關鍵技術點解析

前言隨着互聯網的普及和發展，線上購票已經成爲人們生活中不可或缺的一部分。然而，在搶購熱門演出門票時，往往會遇到搶票難、搶票快的問題，有時候一秒鐘的延遲就意味着與心儀的演出擦肩而過。爲了解決這個問題，技術愛好者們開始探索利用Python

2024-05-23 00:18:04

用python開發一個類似的交互查詢系統.用什麼庫方便？

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【fashjon】問了一個Python庫的問題，問題如下：用python開發一個類似的交互查詢系統.用什麼庫方便？二、實現過程這裏【啥也不懂】給了一個指導：PY

2024-05-22 10:02:33

Selenium與PhantomJS：自動化測試與網頁爬蟲的完美結合

在當今互聯網時代，自動化測試和網頁爬蟲技術成爲了不可或缺的工具，它們不僅提高了開發效率，也爲數據採集和分析提供了便利。而Selenium與PhantomJS的結合，則爲這兩個領域的應用帶來了全新的可能性。本文將介紹Selenium與Pha

2024-05-22 00:09:17

用好AppBuilder-SDK，每天都能偷偷早下班

本文主要是對這次AppBuilder-SDK直播課程的文字總結，主題是如何在Python中使用AppBuilder-SDK（使用的IDE 爲 PyCharm社區版）感興趣的朋友也可以去看直播課回放。直播課： AppBuil

2024-05-21 12:12:15

Shell/Python中的用戶名獲取

一、幾個基本概念登錄用戶（login user）：通過登錄方式進入系統的用戶，強調登錄身份。當前用戶（current user）：執行一個進程或者命令時所使用的用戶身份，強調執行身份。舉

2024-05-19 00:44:35

網絡爬蟲的祕密：如何高效地抓取JD.com視頻鏈接

在這個數據驅動的時代，信息就是力量。而在這片信息的海洋中，爬蟲技術就像是一艘靈活的潛水艇，讓我們能夠深入海底，探尋那些隱藏的寶藏。今天，我將帶領大家一起踏上一場奇妙的探險之旅，我們將使用Python這把瑞士軍刀，搭配RoboBrowser

2024-05-18 00:07:59

記一次有點抽象的滲透經歷

0x01 獲取webshell 在各種信息蒐集中，發現某個ip的端口掛着一個比較老的服務。首先看到了員工工號和手機號的雙重驗證，也不知道賬號是什麼結構組成的，基本上放棄字典爆破這一條路。於是乎打開之前用燈塔的掃描結果，看看文件泄露是否

2024-05-17 23:16:30

地理數據可視化的神奇組合：Python和Geopandas

本文分享自華爲雲社區《Python與Geopandas：地理數據可視化與分析指南》，作者：檸檬味擁抱。地理數據可視化在許多領域都是至關重要的，無論是研究地理空間分佈、城市規劃、環境保護還是商業決策。Python語言以其強大的數據處理和可視

2024-05-15 10:59:41

Scrapy爬蟲：利用代理服務器爬取熱門網站數據

在當今數字化時代，互聯網上充斥着大量寶貴的數據資源，而爬蟲技術作爲一種高效獲取網絡數據的方式，受到了廣泛的關注和應用。本文將介紹如何使用Scrapy爬蟲框架，結合代理服務器，實現對熱門網站數據的高效爬取，以抖音爲案例進行說明。 1. 簡

2024-05-15 00:08:57

24小時熱門文章

最新文章

最新評論文章