Python-- scrapy-shell學習筆記

原創

2018-09-06 15:36

目錄

4.練習（自己做的小練習，獲取招聘網站的信息）

scrapy-shell

官方文檔：https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/shell.html

Scrapy終端是一個交互終端，我們可以在未啓動spider的情況下嘗試及調試代碼，也可以用來測試XPath或CSS表達式，查看他們的工作方式，方便我們爬取的網頁中提取的數據。

如果安裝了 IPython ，Scrapy終端將使用 IPython (替代標準Python終端)。 IPython 終端與其他相比更爲強大，提供智能的自動補全，高亮輸出，及其他特性。（推薦安裝IPython）

1.啓動

Linux： ctr+T,打開終端，然後輸入scrapy shell "url:xxxx"
windows: scrapy shell "url:xxx"
啓動後自動下載指定url的網頁
下載完成後，url的內容保存在response的變量中，如果需要，我們需要調用response

Scrapy Shell根據下載的頁面會自動創建一些方便使用的對象，例如 Response 對象，以及 Selector 對象 (對HTML及XML內容)。

當shell載入後，將得到一個包含response數據的本地 response 變量，輸入
response.body將輸出response的包體，輸出 response.headers 可以看到response的包頭。
輸入 response.selector 時，將獲取到一個response 初始化的類 Selector 的對象，此時可以通過使用
response.selector.xpath()或response.selector.css() 來對 response 進行查詢。
Scrapy也提供了一些快捷方式, 例如 response.xpath()或response.css()同樣可以生效（如之前的案例）。

2.response

爬取到的內容保存在response中給
response.body是網頁的代碼
resposne.headers是返回的http的頭信息
response.xpath（）允許使用xpath語法選擇內容
response.css()允許使用css語法選區內容

3.selector

Scrapy Selectors 內置 XPath 和 CSS Selector 表達式機制

Selector有四個基本的方法，最常用的還是xpath:

xpath(): 傳入xpath表達式，返回該表達式所對應的所有節點的selector list列表
extract(): 序列化該節點爲Unicode字符串並返回list
css(): 傳入CSS表達式，返回該表達式所對應的所有節點的selector list列表，語法同 BeautifulSoup4
re(): 根據傳入的正則表達式對數據進行提取，返回Unicode字符串list列表

selector ：

選擇器，允許用戶使用選擇器來選擇自己想要的內容
response.selector.xpath: response.xpath是selector.xpath的快捷方式
response.selector.css: response.css是他的快捷方式
selector.extract:把節點的內容用unicode形式返回
selector.re:允許用戶通過正則選區內容

4.練習（自己做的小練習，獲取招聘網站的信息）

1.首先進入獵聘網，搜索Python，按F12出現如下界面

2.查找崗位的連接所在位置

3.啓動shell

出現如下信息表示成功：

4.根據連接所在位置進行查找（用到xpath的知識，xpath教程http://www.w3schools.com/XPath/default.asp）

輸出查看結果：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

亂序拼圖驗證的識別並還原 puzzle-captcha（開源）

一、前言亂序拼圖驗證是一種較少見的驗證碼防禦，市面上更多的是拖動滑塊，被完美攻克的有不少，都在行爲軌跡上下足了功夫，本文不討論軌跡模擬範疇，就只針對拼圖還原進行研究。找一個市面比較普及的頂像亂序拼圖進行驗證，它號稱的防禦能力4星，

2021-12-01 00:53:28

【轉載】Python處理csv文件

Python處理csv文件 CSV(Comma-Separated Values)即逗號分隔值，可以用Excel打開查看。由於是純文本，任何編輯器也都可打開。與Excel文件不同，CSV文件中：值沒有類型，所有值都是字符串不能指定字

2020-07-18 14:25:30

Error:field larger than field limit(131072)解決方法

從csv文件讀取某一列的數據時，報錯顯示：Error:field larger than field limit(131072) 通過判斷髮現是因爲文件的行數超過csv限制的行數，所以導致結果既無法在控制檯打印，試着轉到df,存成csv文

2020-07-08 12:39:29

啓動Jupyter時, 遇到 sudo: jupyterhub: command not found 問題的解決方案

最近在學習Jupyter, 但是我發現啓動不了多用戶的JupyterHub 官網的教程: sudo jupyterhub 直接輸入就會導致這樣子的結果後面我各種谷歌百度,都好複雜,然後我突然想到,這是沒有Jupyterhub

钢琴线与小刀

2020-07-08 12:39:19

Python小記 —— 文件讀寫操作裏read()方法的深究

** 語法 ** 格式：read(size) 在read()方法裏，size表示要從文件中讀取的數據長度，如果沒有指定size或者指定爲“None”就表示讀取文件裏的全部數據。特別需要注意點： read()的讀取機制因訪問文件

2020-07-08 12:33:27

python使用pip指令安裝並引用第三方模塊及注意事項

python裏有內置模塊、自定義模塊還有第三方模塊。內置模塊就是python自帶的模塊了，我們直接引用就可以了，如：import sys。自定義模塊就是按照我們編程者的需求以方便編寫程序和維護代碼的一些“.py文件”，簡單地說，

2020-07-08 12:33:27

python小記 —— sys.argv

sys.argv到底是什麼? sys.argv是運行在黑屏終端運行python文件獲取的參數。即返回一個包含輸入參數的列表。話不多說了看下面，反手就是一堆代碼： import sys print("list長度：",len(sy

2020-07-08 12:33:16

Django Signals 信號

文章目錄Django Signals 信號入門connect Django Signals 信號入門 # receiver 接收者 def my_callback(sender, **kwargs): print sen

2020-07-08 12:31:35

sorted 在python2和3中的區別

文章目錄sorted 在python2和3中的區別 sorted 在python2和3中的區別 python3中取消了cmp參數 python3中的使用方法如下: from functools import cmp_to_key

2020-07-08 12:31:35

python3 排序 sort sorted

排序穩定性和排序複雜度排序保證是穩定的。這意味着當多個記錄具有相同的鍵值時，將保留其原始順序。 >>> data = [('red', 1), ('blue', 1), ('red', 2), ('blue', 2)] >

2020-07-08 12:31:35

python3 super 用法2

class MetaCls(type): def __new__(cls, *args, **kwargs): print("in MetaCls") # return super(Meta

2020-07-08 12:31:35

meta class 和類裝飾器的執行順序

meta class 和類裝飾器的執行順序先執行decorator,後執行metaclass 程序是從上到下執行,先遇到decorator,後遇到class,創建class 調用metaclass. 同理,裝飾器也是先執行上面的

2020-07-08 12:31:35

弱引用 weakref

弱引用 weakref 對對象的弱引用不能保證對象存活：當對像的引用只剩弱引用時， garbage collection 可以銷燬引用並將其內存重用於其他內容。但是，在實際銷燬對象之前，即使沒有強引用，弱引用也一直能返回該對象。

2020-07-08 12:31:35

python神級數據結構namedtuple

python神級數據結構namedtuple from collections import namedtuple 以前就知道有這個東西,也知道如何使用,但是沒覺得有什麼實際用處. 上次看框架源碼,無意間看到這個,發現非常好用.

2020-07-08 12:31:35

python3 super 用法

python3 super 用法標題黨了. 其實我也不確定這是不是python3的用法. 但是,今天工作的時候遇到了不一樣的寫法,試了一下,運行成功. 剛剛在官網找到了一個例子.以後用的更有底氣了. class C(B):

2020-07-08 12:31:35

24小時熱門文章

最新文章

最新評論文章