最近在看《重生之神級學霸》,但是好幾個app都要付費,只能看其他網站上的網頁版,由於閒的蛋疼,就像試試怎麼把網頁上的書轉化成txt格式的。
第一步我直接打開http://www.biqudao.com/bqge1081/2544018.html這個頁面保存成html文件
就是這個東西model.html
接下來就是把
content的裏面的東西給單獨提取出來、
from bs4 import BeautifulSoup
import re
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
soup = BeautifulSoup(open('model.html'))
f = open('model.txt','w')
for k in soup.find('div',id="content"):
# pattern1 = re.sub("<br/>",'',k)
# print(pattern1)
f.write(str(k.string))
我用了這段代碼
剛開始直接寫入不行,發現忘了write接收值有問題得強制轉化
現在小說已經保存在model.txt中了
但是有個問題,就是每段後面都有個None,這是因爲它本身是</br>,所以得把None換成換行,
fin_old = open('model.txt')
fin_new = open('model2.txt','w')
fin_new.write(fin_old.read().replace("None",'\n'))
fin_old.close()
fin_new.close()
我用的上面這段代碼,
確實是成功了,但是有個問題,這種轉化方式非得再新建一個txt文檔,暫時還不知道怎麼在原來txt中改,有沒有大神教教我