Pycharm+Scrapy安裝並且初始化項目

原創

2020-02-20 22:43

前言

Scrapy是一個開源的網絡爬蟲框架，Python編寫的。最初設計用於網頁抓取，也可以用來提取數據使用API或作爲一個通用的網絡爬蟲。是數據採集不可必備的利器。

安裝

pip install scrapy

如果使用上面的命令太慢。國內可以使用豆瓣源進行加速。

pip install -i  https://pypi.douban.com/simple scrapy

注意要寫錯了，是 https://pypi.douban.com/simple 很多包都可以使用這個源進行加速，這也是pip的一個技巧，還可以使用阿里雲進行加速。

安裝完成之後在命令行輸入

scrapy -v

如果出現了相應的版本號就說明安裝成功。

創建項目

目前還沒有IDE 能夠創建scrapy的項目，我們必須手動初始化項目。
1、找一個目錄
輸入命令

scrapy startproject SpiderObject

命令行出現這樣的結果說明創建成果

You can start your first spider with:
    cd SpiderObject
    scrapy genspider example example.com

去文件夾中看看

初始化項目

使用pycharm打開該項目

如果出現這個頁面就說明對了。

下面生成一個模板
打開pycharm的terminal

輸入

scrapy genspider BiduSpider http://www.baidu.com

我們的spider 包下面會多一個文件

這說明我們的spider創建成功。可以在pytharm中使用這個強大的框架了。

發佈了47 篇原創文章 · 獲贊 80 · 訪問量 24萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Qt/C++音視頻開發73-高效濾鏡/文字水印/圖形水印/圖片水印/yolo運算後的結果顯示到畫面中

一、前言視頻監控系統發展到今天，越來越智能，比如這些年流行的人臉識別、物體識別、煙感識別等，都是需要拿到圖片數據去做運算處理，然後將結果顯示到視頻畫面中，或者還有要求將結果保存到視頻錄像文件中，以便打開回放查看。顯示到畫面中一般有兩種方式

2024-05-10 14:33:24

藍橋15屆stema編程題密碼鎖-動態規劃 C++和Python最後一道題

藍橋2024年1月15屆STEMAC++中級真題第六題編程實現：密碼鎖提示信息：密碼鎖：由 n 個從左到右並排的圓環組成，每個圓環上都有 10 個數字（0~9），藍色框內爲密碼顯示區，每個圓環在密碼顯示區只能顯示一個數字，如圖所示。

2024-05-10 14:32:23

Pywinauto的幾個小坑

最近在使用pywinauto寫自動化時遇到幾個問題，總結一下備忘： 1. TextBox的輸入 TextBox的輸入一般使用pywinauto的 set_edit_text，但會出現一個問題：寫完後不生效，不像人工輸入後一樣生效。

2024-05-10 14:25:53

gin-admin-cli配置記錄

--dir value， -d value 生成結構體的項目目錄 --module value， -m value 生成結構體的模塊（如：RBAC） --module-path value 生成結構體的模塊路徑（默認值：internal/

2024-05-10 14:24:02

C#/.NET/.NET Core優秀項目和框架2024年4月簡報

前言公衆號每月定期推廣和分享的C#/.NET/.NET Core優秀項目和框架（每週至少會推薦兩個優秀的項目和框架當然節假日除外），公衆號推文中有項目和框架的介紹、功能特點、使用方式以及部分功能截圖等（打不開或者打開GitHub很慢的同

2024-05-10 14:23:32

LLM生態下爬蟲程序的現狀與未來

最近出現一批與LLM有關的新的爬蟲框架，一類是爲LLM提供內容抓取解析的，比如 Jina Reader 和 FireCrawl ，可以將抓取的網頁解析爲markdown這樣的對LLM友好的內容，例如markdown，這類本質上還是傳統的爬蟲

2024-05-10 14:20:52

Java線程池核心知識詳解

　本文所說的“核心線程”、“非核心線程”是一個虛擬的概念，是爲了方便描述而虛擬出來的概念，在代碼中並沒有哪個線程被標記爲“核心線程”或“非核心線程”，所有線程都是一樣的，只是當線程池中的線程多於指定的核心線程數量時，會將多出來的線程銷燬掉，

2024-05-10 14:17:01

一個簡單的MD5加鹽

雖然都說MD5加密一下密碼比較好，但是如果密碼過於簡單，比如123456，經過MD5加密之後還是不安全，因爲別有用心的人可以使用彩虹表來撞庫得到密碼。因此爲了加大破解難度，需要給MD5算法加鹽。下面是一個簡單的加鹽算法。當然，我不是說加了

2024-05-10 14:17:01

《最新出爐》系列入門篇-Python+Playwright自動化測試-45-鼠標操作-下篇

1.簡介鼠標爲我們使用電腦提供了很多方便，我們看到的東西就可以將鼠標移動過去進行點擊就可以打開或者訪問內容，當頁面內容過長時，我們也可以使用鼠標滾輪來實現對整個頁面內容的查看，其實playwright也有鼠標操作的方法。上一篇文章中已經講

2024-05-10 14:16:11

前端技術選型時有用的網站

npm-compare.com 比如我們想比較 react-query和 swr，可以訪問 https://npm-compare.com/react-query,swr 查看結果，頁面提供了下載量，star 數量，lisense 等的

2024-05-10 14:16:11

apisix~jwt-auth插件

在網關開啓jwt-auth插件之後，你的網關就具有了jwt解析和校驗的功能，主要是校驗jwt token的有效性，包含過期時間和簽名等。 https://apisix.apache.org/docs/apisix/plugins/jwt-

2024-05-10 14:14:11

apisix~helm方式的部署到k8s

什麼是apisix Apache APISIX 是一個高性能、輕量級的開源 API 網關，基於 Nginx 和 OpenResty 構建。APISIX 提供了豐富的功能和靈活的配置，適用於構建現代的微服務架構和雲原生應用。以下是 Apac

2024-05-10 14:14:11

2021看雪SDC議題回顧 | SaTC：一種全新的物聯網設備漏洞自動化挖掘方法

https://zhuanlan.zhihu.com/p/431335767 隨着物聯網技術的日新月異，未來物聯網的應用將越來越廣泛，但它同樣也會帶來大量安全漏洞。而當下IoT漏洞挖掘技術尚未完全成熟，許多人的信息安全意識不夠強，技術革新面

2024-05-10 14:07:40

firmeye - IoT固件漏洞挖掘工具

https://github.com/Vu1nT0tal/firmeye firmeye 是一個 IDA 插件，基於敏感函數參數回溯來輔助漏洞挖掘。我們知道，在固件漏洞挖掘中，從敏感/危險函數出發，尋找其參數來源，是一種很有效的漏洞挖掘方法

2024-05-10 14:07:40

[論文閱讀] 02.清華張超老師Fuzzing總結 - GreyOne: Discover Vulnerabilities with Data Flow Sensitive Fuzzing

https://zhuanlan.zhihu.com/p/446308018 數據流敏感的漏洞挖掘方法Discover Vulnerabilities with Flow Sensitive FuzzingChao Zhang清華大學2nd

2024-05-10 14:07:40

24小時熱門文章

最新文章

最新評論文章