從小說網站爬小說

最近在看《重生之神級學霸》，但是好幾個app都要付費，只能看其他網站上的網頁版，由於閒的蛋疼，就像試試怎麼把網頁上的書轉化成txt格式的。

第一步我直接打開http://www.biqudao.com/bqge1081/2544018.html這個頁面保存成html文件

就是這個東西model.html

接下來就是把

content的裏面的東西給單獨提取出來、

from bs4 import BeautifulSoup
import re
import sys

reload(sys)
sys.setdefaultencoding("utf-8")
soup = BeautifulSoup(open('model.html'))
f = open('model.txt','w')
for k in soup.find('div',id="content"):
# pattern1 = re.sub("<br/>",'',k)
# print(pattern1)
f.write(str(k.string))

我用了這段代碼

剛開始直接寫入不行，發現忘了write接收值有問題得強制轉化

現在小說已經保存在model.txt中了

但是有個問題，就是每段後面都有個None，這是因爲它本身是</br>，所以得把None換成換行，

fin_old = open('model.txt')
fin_new = open('model2.txt','w')
fin_new.write(fin_old.read().replace("None",'\n'))
fin_old.close()
fin_new.close()

我用的上面這段代碼，

確實是成功了，但是有個問題，這種轉化方式非得再新建一個txt文檔，暫時還不知道怎麼在原來txt中改，有沒有大神教教我

從小說網站爬小說

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

Navicat安裝與激活教程

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

Seaborn barplot柱狀圖/條形圖-基於matplotlib的更強力製圖庫

Tensorflow 基礎 logistic regression

從小說網站爬小說

c++總結 1

冒泡排序，快排

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結