外行學 Python 爬蟲 第一篇 介紹

爲什麼標題叫做“外行學 Python 爬蟲”?是因爲本人非 IT 互聯網從業人員,唯一能說得上關係的是本人是一個 C 的開發人員,從事的是與嵌入式相關的工作,即與互聯網無關,也與數據分析無關。那麼爲什麼要學 Python 爬蟲呢?原因一、多一門技能增加自己的職業競爭力。原因二、提升自己的生存「賺錢」能力。

看好人工智能、數據分析等行業未來的發展趨勢,學習 python 來熟悉相關知識,也許未來會從事相關工作。

學習分三個階段,第一階段是看明白,第二階段是做明白,第三階段是講明白。大多數時候能看明白,也可以做的出來,但是當需要講給別人聽的時候,就會發現自己還有很多內容沒弄明白,處於是是而非的狀態。我們平常人想要講給別人聽的機會少之又少,將所學的內容用文字記錄下來,既是一個覆盤的過程,也可以與更多的志同道合者進行交流。

學習 python 爬蟲的第一步肯定是先要學習 python 的基礎知識,我個人在這個過程大概用了兩個月左右吧,每天用於學習 python 的時間有 2 個小時「畢竟還是要上班養家的,當前的工作還是最重要的」。對於 python 基礎知識來說只需要學好 簡明 python 教程廖雪峯的 python 教程 就可以了。開發語言和我們人類的語言一樣,要想熟練的使用,關鍵的關鍵還是在於多使用。開始的時候我就直接照着書上的示例來一段一段的敲出來驗證實現的功能。以下在這個過程中所敲出來的部分文件:

掌握了基本的 python 語法以後,就可以開始自己真正意義上的程序了。我選擇了以爬取 https://www.szlcsc.com/ 這個網站的內容爲目標的爬蟲實現。將爬蟲的實現過程大致分爲以下幾個步驟:

  1. 獲取並解析單個網頁的內容,需要用的 urllib、regex、beautifulSoup 等。
  2. 通過輸入一個網頁解析並獲取與之相關連的網頁的內容,需要解決 url 去重的問題。
  3. 將解析到的網頁內容保存到文件或數據中。

以上就是我從一個外行,到第一個 python 爬蟲正常運行「寫這篇文章的時候它依然在讀取網站的內容」的一個簡單的過程,總的來說 python 是一個非常容易上手的開發語言。

第一篇介紹就到這裏了,後面會把已經實現功能的實現過程記錄下來,同時也會繼續完善軟件的功能。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章