不跳步驟的新手python爬蟲教程(一)

   代碼不是看出來的,而是敲出來的,建議關注公衆號,收藏教程,跟着步驟練習爬蟲,成爲真正的Spider Man。

    Python同C、Java一樣都是計算機程序設計語言,python語言作爲高級語言可以寫網站(YouTube)、寫遊戲後臺、做機器學習,當然還可以進行爬蟲。爬蟲是指模擬客戶端瀏覽器(Chrome、Safari等)發送網絡請求獲取響應,按規則提取數據的程序。而我們禿頭程序員的教程將以新手小白的角度從下載IDE(編輯代碼軟件)和配置python環境講起。。。

步驟一:安裝python

    python是跨平臺的,可以運行在Windows、Mac和各種Linux/Unix系統上,Python有兩個版本,一個是2.x版,一個是3.x版目前最穩定的版本是Python3.0以上。根據你的Windows版本(64位還是32位)從Python的官方網站下載Python 3.8對應的64位安裝程序或32位安裝程序(點擊鏈接跳轉下載),然後,運行下載的exe安裝包:

    打開python官網速度和下載python3.8速度會較慢,需耐心等待。特別要注意勾上”Add Python 3.8 to PATH”,然後點“Install Now”即可完成安裝。

步驟二:運行python

    安裝成功後,打開命令提示符窗口(鍵盤win鍵+R鍵,輸入cmd,點擊回車),敲入python後,在顯示當前你的計算機已經安裝python的版本,並出現>>>符號(Python交互式環境中),表明你的python已經安裝成功。

    如果提示:'python' is not recognized as an internal or external command, operable program or batch file. 這就說明Windows會根據一個Path的環境變量設定的路徑去查找python.exe,如果沒找到,就會報錯。如果在安裝時漏掉了勾選Add Python 3.8 to PATH,那就要手動把python.exe所在的路徑添加到Path中。

    進入到Python交互模式以後,我們趕緊輸入兩行代碼,開始你的第一個python程序吧。

>>> 500+21
521

>>> print('hello, bald programmer')
hello, bald programmer

步驟三:下載IDE: Pycharm(代碼編輯器)

    至於python IDE的選擇,禿頭程序員選擇的是pycharm,當然也可以用VS code(Visual Studio Code),甚至有些大神會選擇用python自帶的IDLE,順手就好。瀏覽器我們要選擇Google的Chrome瀏覽器,其功能比較強大,擴展性能好。我們選擇右邊免費的community社區版本,點擊download下載即可。

pycharm下載地址:https://www.jetbrains.com/pycharm/download/

步驟四:瀏覽器的網絡請求

    在chrome瀏覽器中打開京東登錄首頁,“右鍵”→“檢查”點擊選項卡“network”,可以看到

RequestURL:https://passport.jd.com/new/login.aspxReturnUrl=https%3A%2F%2Fwww.jd.com%2F

URL = 請求的協議(http/https)+網站域名+資源的路徑+url地址參數(對方服務器解析)

    URL地址中如果出現百分號,亂碼等,可以用相關工具進行解碼百度搜索url解碼工具,將網頁的url複製粘貼進去進行查看。

    瀏覽器請求URL地址:當前URL的響應+js+css+圖片–>elements中的內容。而爬蟲請求的URL地址:僅包含當前URL的響應。

    elements的內容和爬蟲獲取到的URL地址的響應不同:

1、爬蟲以當前對應的URL地址的響應爲準提取數據。

2、當前URL地址的響應,在network裏Response裏可以查看,也可以打開網頁原碼進行查看。

    以上兩個的區別,比如我們請求一個JS文件的URL,大家都知道,js文件是用來規範網頁顯示格式的一種程序,如果我們用瀏覽器請求,那我們可以看到它正常的顯示效果,但當我們用爬蟲去請求時,只會拿到一堆字符串,無法執行。

關注公衆號【禿頭程序員】,不錯過不跳步驟的新手python爬蟲教程(

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章