從小說網站爬小說

最近在看《重生之神級學霸》,但是好幾個app都要付費,只能看其他網站上的網頁版,由於閒的蛋疼,就像試試怎麼把網頁上的書轉化成txt格式的。

第一步我直接打開http://www.biqudao.com/bqge1081/2544018.html這個頁面保存成html文件

就是這個東西model.html

接下來就是把

content的裏面的東西給單獨提取出來、

from bs4 import BeautifulSoup
import re
import sys


reload(sys)
sys.setdefaultencoding("utf-8")
soup = BeautifulSoup(open('model.html'))
f = open('model.txt','w')
for k in soup.find('div',id="content"):
# pattern1 = re.sub("<br/>",'',k)
# print(pattern1)
f.write(str(k.string))


我用了這段代碼

剛開始直接寫入不行,發現忘了write接收值有問題得強制轉化


現在小說已經保存在model.txt中了


但是有個問題,就是每段後面都有個None,這是因爲它本身是</br>,所以得把None換成換行,

fin_old = open('model.txt')
fin_new = open('model2.txt','w')
fin_new.write(fin_old.read().replace("None",'\n'))
fin_old.close()
fin_new.close()

我用的上面這段代碼,


確實是成功了,但是有個問題,這種轉化方式非得再新建一個txt文檔,暫時還不知道怎麼在原來txt中改,有沒有大神教教我

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章