Python爬蟲學習(六)---- 爬蟲輸出器

爬蟲輸出器

此輸出器的主要作用是從經過篩選的下載中獲取到對應的值,然後轉化成你想要的文件形式來對你所需要的內容進行輸出,你可以對其進行排版轉化爲html的table標籤形式,這樣一般會比較美觀。

實現代碼

#!/usr/bin/env python3
# -*- coding: UTF-8 -*-
__author__ = 'Gary'

# 輸出器

class HtmlOutputer(object):
    def __init__(self):
        self.datas = []


    def collect_data(self, data):
        if data is None:
            return
        self.datas.append(data)

    def output_html(self):
        fout = open('output.html', 'w', encoding='utf-8')
        fout.write("<html>")
        fout.write("<body>")
        #fout.write("<table>")
        fout.write("<a>")

        for data in self.datas:
            # fout.write("<tr>")
            # fout.write("<td>%s</td>" % data['url'])
            # fout.write("<td>%s</td>" % data['title'])
            # fout.write("<td>%s</td>" % data['summary'])
            # fout.write("</tr>")
            fout.write('<a href="%s">%s</a>' % (data['url'], data['title']))
            fout.write('<p>%s</p>' % data['summary'])

        fout.write("</a>")
        #fout.write("</table>")
        fout.write("</body>")
        fout.write("</html>")
        fout.close()

至此,我們的爬蟲也就全部寫完了,運行下看看吧。

看到如下繼而成功
這裏寫圖片描述

然後我們打開output.html文件
這裏寫圖片描述

這樣就說明你的爬蟲已經成功,如果出現問題,你可以把主文件中的try-catch去掉,根據錯誤提示一步一步解決問題。


下面我將會用Scrapy框架來進一步熟悉爬蟲,請關注後續文章或者關注我的Github https://github.com/Spacider/Spider

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章