爬蟲輸出器
此輸出器的主要作用是從經過篩選的下載中獲取到對應的值,然後轉化成你想要的文件形式來對你所需要的內容進行輸出,你可以對其進行排版轉化爲html的table標籤形式,這樣一般會比較美觀。
實現代碼
#!/usr/bin/env python3
# -*- coding: UTF-8 -*-
__author__ = 'Gary'
# 輸出器
class HtmlOutputer(object):
def __init__(self):
self.datas = []
def collect_data(self, data):
if data is None:
return
self.datas.append(data)
def output_html(self):
fout = open('output.html', 'w', encoding='utf-8')
fout.write("<html>")
fout.write("<body>")
#fout.write("<table>")
fout.write("<a>")
for data in self.datas:
# fout.write("<tr>")
# fout.write("<td>%s</td>" % data['url'])
# fout.write("<td>%s</td>" % data['title'])
# fout.write("<td>%s</td>" % data['summary'])
# fout.write("</tr>")
fout.write('<a href="%s">%s</a>' % (data['url'], data['title']))
fout.write('<p>%s</p>' % data['summary'])
fout.write("</a>")
#fout.write("</table>")
fout.write("</body>")
fout.write("</html>")
fout.close()
至此,我們的爬蟲也就全部寫完了,運行下看看吧。
看到如下繼而成功
然後我們打開output.html文件
這樣就說明你的爬蟲已經成功,如果出現問題,你可以把主文件中的try-catch去掉,根據錯誤提示一步一步解決問題。
下面我將會用Scrapy框架來進一步熟悉爬蟲,請關注後續文章或者關注我的Github https://github.com/Spacider/Spider