python爬蟲框架scrapy流程

原創

qq_652530495

2020-03-21 17:10

1 創建項目 scrapy startproject project1

2 cd project1

3 創建爬蟲 scrapy genspider spider1 yao.xywy.com

4 改spiders裏的spider1

5 setting robot協議設置爲false

使用管道 items 裏寫想要存儲的字段

在spider裏面導入存完自動到管道里，在setting裏面設置使用管道，

xpath匹配：多個class 匹配不上，br會識別出多個列表，通過string(.)可以解決

all_xpath = "//div[@id='pTop']//div[@class='d-direction']/p"
all_data = response.xpath(all_xpath)
all_data = all_data.xpath('string(.)').extract()

scrapy shell 網址可以在交互模式下測試xpath規則

開始下載

scrapy crawl spider1 -o ret.json -s FEED_EXPORT_ENCODING=UTF-8

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

該如何學好人工智能爲什麼選Python爲起點

　　該如何學好人工智能？爲什麼選Python爲起點？現在人工智能大火，最多的應該是機器學習，也是人工智能最基礎的，要學習人工智能必須要精通一門編程語言。Python語言是人工智能的首選編程語言，所以想學習人工智能，可以選擇Python編程

千锋郑州

2020-07-07 21:48:25

PYQT5+python3.6+QT編寫一個帶ui的加密解密小程序

需要的環境爲python3.6、pyqt5（建議直接安裝Anaconda，因爲安好python後自帶pyqt5），還有QTcreator（用來寫ui界面），還需要一個編輯器（sublime或者notepad++均可，我使用的是PyCha

machong_mc

2020-07-06 22:08:47

人工智能爲什麼這麼火首選Python語言入門嗎

　　人工智能爲什麼這麼火？首選Python語言入門嗎？雖然人工智能可能帶來各種風險，但是人工智能技術有着廣闊應用前景，能夠極大地促進社會經濟發展。因此，騰訊、阿里和百度均設立了人工智能的研究中心，希望佔據技術研發的制高點。可見，中國有巨大

千锋郑州

2020-07-04 05:13:10

人工智能時代如何把握先機 Python未來前景怎樣

　　人工智能時代如何把握先機?Python未來前景怎樣?作爲人工智能時代的最佳編程語言，Python語法簡潔，堅持清晰劃一的設計風格，擁有豐富而強大的庫，是一門易讀、易維護，並且被大量用戶所歡迎的、用途廣泛的語言。AI的時代已經來了，作爲

千锋郑州

2020-07-04 05:13:10

學人工智能首選Python嗎企業有哪些招聘需求

　　學人工智能首選Python嗎？企業有哪些招聘需求？Python誕生時間長，直至人工智能時代的來臨火爆起來。很多人想要學Python，其中絕大多數人會考慮是不是要專業學習一下，真的能學到企業所需的技術嗎?接下來小編就給大家簡單分享一下。

千锋郑州

2020-07-04 05:13:10

學習筆記（5):Python初級入門精講-關鍵字參數

立即學習:https://edu.csdn.net/course/play/6521/126666?utm_source=blogtoedu python的函數、參數例如：函數名稱爲 testFun 參數名稱分別有

萌萌哒的小米糊

2020-07-03 00:01:48

沒有基礎怎麼學人工智能該選擇什麼方式入門

　　沒有基礎怎麼學人工智能？該選擇什麼方式入門？作爲當前最火熱的人工智能，越來越多的人發現這一行業的潛力，很多人開始轉行，進入這一行業。而想要快速進入這一行業，大部分人選擇了專業學習。市場上的機構有很多，各種各樣的機構都在努力宣傳自己，搶

千锋郑州

2020-06-29 11:06:36

學人工智能首選Python嗎從事Python開發累不

　　學人工智能首選Python嗎？從事Python開發累不？受到人工智能、機器學習、大數據等前沿科技的影響，Python排名越來越靠前。大家有沒有發現，跟Python緊密聯繫的人工智能、機器學習，大數據都是熱門話題。學Python開發累嗎

千锋郑州

2020-06-29 11:06:36

爲什麼Python會這麼火 Python能從事哪些崗位

　　爲什麼Python會這麼火？Python能從事哪些崗位？未來是人工智能時代，學Python是人工智能標配。Python最大的優點是開發效率極高，擁有各種豐富的庫，很多開發都是直接使用別人做好的輪子(庫)就行，這就使得開發的週期極短，效

千锋郑州

2020-06-29 11:06:36

runze - word和圓周率

# pip install python-docx from docx import Document # 1。新建1個空白文檔 doc1 = Document() # 2.新建文檔標題 add_heading(內容,幾級標題

少儿编程侯老师

2020-06-26 08:43:30

MongoDB 安裝爲系統服務，並允許外部鏈接設置（WIN10平臺）

網上很多方法，試過後有些問題，外網沒有成功訪問，查詢半天，已解決：請設置以管理員身份運行CMD，下面都是用管理員權限運行CMD，不然會有些不能讀寫bug。 1.卸載相關服務（如果服務中沒有MongDB 可以跳過本部分）： net s

三头六臂的小白

2020-06-24 20:13:00

Python數據處理實戰

一、運行環境 1、python版本 2.7.13 博客代碼均是這個版本 2、系統環境：win7 64位系統二、需求對雜亂文本數據進行處理部分數據截圖如下，第一個字段是原字段，後面3個是清洗出的字段，從數據庫中聚合字段觀察，

敲代码的猴

2020-06-23 18:35:45

Python爬蟲天氣預報（小白入門）

這次要爬的站點是這個：http://www.weather.com.cn/forecast/ 要求是把你所在城市過去一年的歷史數據爬出來。分析網站首先來到目標數據的網頁 http://www.weather.com.cn/w

敲代码的猴

2020-06-23 18:35:45

Python25行代碼人臉識別

OpenCV 技術教程建議先讀一遍本文再跑代碼——你需要理解這些代碼是幹什麼的。成功跑一遍不是目的，能夠舉一反三、在新任務上找出 bug 纔是。請確保用的是 OpenCV v2 你需要一個網絡攝像頭 OpenCV

敲代码的猴

2020-06-23 17:25:47

Python抓取花瓣網高清美圖

一：前言嘀嘀嘀，上車請刷卡。昨天看到了不錯的圖片分享網——花瓣，裏面的圖片質量還不錯，所以利用selenium+xpath我把它的妹子的欄目下爬取了下來，以圖片欄目名稱給文件夾命名分類保存到電腦中。這個妹子主頁http://huab

敲代码的猴

2020-06-23 17:25:44

24小時熱門文章

python爬蟲框架scrapy流程

開源高性能結構化日誌模塊NanoLog

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

python構建二叉樹，遍歷

python爬蟲框架scrapy流程

python連接impala

datetime使用技巧

模塊化編程思想

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結