Scrapy中的csvfeed爬取CSV源

原創

2018-09-02 07:17

我們可以用csvfeed模版創建的爬蟲爬取CSV文件的數據，CSV文件是一種可以與表格數據相互轉化的文件格式。

一、創建項目和爬蟲文件

#在需要創建項目的文件夾下，打開命令行，運行下面命令
python -m scrapy startproject csvpjt
cd csvpit
python -m scrapy genspider -t csvfeed steve 網站名(例如xxx.com)

二、爬蟲文件格式

# -*- coding: utf-8 -*-
from scrapy.spiders import CSVFeedSpider

from csvpjt.items import CsvpjtItem


class SteveSpider(CSVFeedSpider):
    name = 'steve'
    allowed_domains = ['xxx.com']
    start_urls = ['http://xxx.com/mydata.csv']
    # headers:主要存放在CSV文件中包含的用於提取字段的行信息的列表
    headers = ['name', 'sex', 'addr', 'email']
    # delimiter：主要存放字段之間的間隔符
    delimiter = ','

    # Do any adaptations you need here
    #def adapt_response(self, response):
    #    return response

    #接收一個response對象並進行對應的處理
    def parse_row(self, response, row):
        item = CsvpjtItem()
        item["name"] = row['name'].encode()
        item["sex"] = row['sex'].encode()
        print("名字是：")
        print(item["name"])
        print("性別是：")
        print(item["sex"])
        print("--------------------------------------")
        return item

三、運行程序：

python -m scrapy crawl steve --nolog

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Java第五週總結

Java第五週 lambda表達式思想 “說重點” lambda表達式的核心即在於說重點以線程代碼爲例，他需要的是什麼？最核心的東西是什麼？就是run方法！！！ runnable接口中重寫實現的就一個run方法！！！接口只是

青柠小鱼码字猴

2020-07-08 03:45:43

python爬取琳琅社區整站視頻（一晚6000部）

琳琅社區（傳聞中最受男人喜愛的網站），哼哼，我倒要看看是不是真的該項目用於爬取琳琅社區整站視頻（僅供學習）主要使用：python3.7 + scrapy2.19 + Mysql 8.0 + win10 首先確定需要爬取的內容

我的眼里只有bug

2020-07-03 18:32:28

如何將ts格式文件轉成MP4格式文件

仔細閱讀本文將讓你徹底搞懂：如何在cmd將ts轉換爲mp4 如何用python將衆多ts文件合併爲mp4文件如何定義ts合併爲mp4的順序 TS是什麼讓我們來看看百度百科的狡辯簡而言之ts文件就是一個視頻片段，主要

我的眼里只有bug

2020-07-03 18:32:28

python對接支付寶支付接口

該項目使用django對接支付寶網站支付接口前期準備 1. APPID 2. 支付寶公鑰-應用公鑰-應用私鑰 3. 安裝支付寶平臺python SDK pip install python-alipay-sdk --upgrad

我的眼里只有bug

2020-07-03 18:32:28

python3爬取新浪微博所有評論數據

python3爬取新浪微博所有評論數據該項目主要根據具體某篇微博的網址，得到其下所有評論的信息，包括評論用戶名，評論人的主頁網址，評論時間，內容；然後存儲在csv中（僅供學習）原理：微博的評論數據是通過服務器異步傳輸過來的，並

我的眼里只有bug

2020-07-03 18:32:28

2020 支付寶上傳應用公鑰並獲取支付寶公鑰

本文講解python對接支付寶網站支付的準備工作，以及爲什麼需要APPID、公鑰及私鑰 1、獲取應用私鑰及應用公鑰進入沙箱應用頁點擊設置，選擇公鑰加簽模式，然後下載支付寶密鑰生成器在支付寶密鑰生成器中選擇密鑰格式爲 P

我的眼里只有bug

2020-07-03 18:32:28

c++11中的std::initialzer_list

c++11中的stl容器擁有和未顯示指定長度的數組一樣的初始化能力。其初始化列表長度可以是任意的。 std::initialzer_list這一輕量級類模版提供了上述功能的支持。例如可以使用std::initialzer_list定義自

2020-06-30 20:38:53

hexo博客配置

部署到自己的服務器安裝hexo-deployer-rsync部署工具，需要遠程主機開啓22端口 npm install hexo-deployer-rsync --save 在_config.yml中配置如下： deploy:

2020-06-29 16:40:15

JetBrains系列pycharm等主題配置

主題下載：http://www.themesmap.com/ 選擇喜歡的主題下載選擇剛纔下載的主題，通常是.jar包，導入後重啓IDE就可以了在設置中可以在這個位置找到配置！

2020-06-29 16:40:15

JavaScript中的Date總結

基礎知識日期在我們處理用戶form表單驗證，監測裝置信息等很多方面都有使用。在使用過程中我總結出以下幾點常使用的Date方法：字符串轉換成日期格式、number型轉換成日期格式、日期格式的變化、日期大小的比較、日期的自動刷新注：此小節

厌笔不萧生

2020-06-27 05:16:08

Github使用筆記

Github使用筆記本文只是個人使用過程中的一點總結，留着以後忘了看,所以有寫的亂或者看不懂的地方，請留言，我定當全力解答。先說下工作區和暫存區區別：工作區就是你的工作目錄，暫存區就是一個版本庫和工作區的過渡區

2020-06-21 11:14:22

關於會聲會影導入視頻出現卡頓花屏的解決辦法

作爲一個業餘視頻剪輯者，剛剛入門的我發現：當我們把原始素材直接導入會聲會影的時候，會出現卡頓、花屏等一系列問題，確實是讓人頭疼，找了很多帖子方法才解決問題。解決方法： 1.安裝格式工廠軟件 2. 打開軟件，點擊進入MP4 3

2020-06-21 06:53:21

Git提交代碼步驟

簡單記錄哈，git提交代碼步驟： git init git remote add [email protected]:username\repositoryname.git # 如果是github： git remote add git@

2020-06-21 06:53:21

c語言unsigned int和int

```c #include <stdio.h> #include <stdlib.h> #include <string.h> void main(){ int a=-1; unsigned int b = -1;

2020-06-21 06:02:17

pdf文件去除保護密碼以及編輯

最近有個pdf文件需要編輯一下，但是打開發現有密碼保護，於是網上查了一下，現在記錄一下，方便有相同需求的人！密碼去除 pdf password remover裏面有註冊碼，直接安裝註冊即可！ https://www.zdfans

2020-06-16 12:20:49

24小時熱門文章

最新文章

最新評論文章