webscraper抓數據必看

《不用寫代碼的爬蟲課》發佈後,有不少朋友來找我抓數據,但是有的朋友對於爬蟲不瞭解,所以造成交流不暢。這篇文章就是分享一些爬蟲的基礎信息。

這篇文章只針對 web scraper

一、爬蟲是什麼?

爬蟲,通俗一點講,就是讓程序幫你統計網頁上的數據。

舉例:你要統計一個公衆號的所有文章標題,如果有 500 篇文章,你手動複製粘貼到 excel 裏面,一個標題 10 秒,大概需要1 個多小時。

但是如果會爬蟲的話,你只需要設置一下抓取規則,然後程序會幫你抓,大概 1 分鐘左右就能做完。如果數據量大,可能需要時間更長一些。

二、爬蟲不是什麼?

爬蟲只能抓 網頁上眼睛能看到的信息(這裏指的是 webscraper 的範圍)。

爬蟲沒有搜索功能,沒有語音功能,沒有數據分析功能,也沒有求和功能,也沒有排序功能。這些操作可以放到抓取後的 excel 裏面操作。

三、怎麼確定自己要抓的東西爬蟲能完成?

注意:這裏只針對《不用寫代碼的爬蟲課》

如果你要抓一個東西

  1. 你必須提供一個 網址(也可以叫鏈接、或者 URL)。

例如:http://www.zsxq100.com/

  1. 你需要在瀏覽器的地址欄裏訪問這個頁面,看一下,你要抓取的信息,能不能用眼睛看到。

如果能看到,那就 99% 能抓,如果看不到,那就抓不了。

四、某某網站能抓不?

看第三點。

五、某某 APP 能抓捕?

自己搜索一下,這個 APP 有沒有網頁版。

如果有,返回看第三點。

六、用 webscraper 抓數據,需要fq不?

抓數據需不需要fq,取決於你要抓的網站,需不需要fq。

如果你訪問的網站,需要fq才能看到內容,那麼抓取的時候也就需要fq。反之不用。

比如,抓 Facebook:因爲訪問Facebook本身就需要fq,所以你抓的時候也需要打開fq軟件。

比如,抓知乎:因爲訪問知乎本身不需要fq,所以你抓的時候也不需要fq。

另:webscraper 安裝的話,可以不用fq,課程裏有講不用fq的安裝方法。

七、只能用谷歌瀏覽器嗎?

對,我只對谷歌瀏覽器負責。

雖然有的其他瀏覽器(QQ瀏覽器,360瀏覽器)也能運行 web scraper,但是在我測試過程中,會有一些兼容性問題,會出現一些莫名其妙的錯誤。

必經不是原生版,出了問題很難分析。

八、能抓微信號、手機號碼?

參看 第三點。

九、學了這個能抓 某某網站嗎?

一句話,網頁上能看到的信息,99% 都能抓到。

我不會說那種絕對正確、類似能抓取一切的話,事實上,即使你找一個頂尖的爬蟲工程師,他也不敢保證,所有的信息都能抓取。

九、如果要別人幫忙抓取數據,你需要提供的信息

必須提供詳細信息,否則不予理會

1、要抓取的網址鏈接。爲什麼要提供這個,參看第三點。
2、要抓取的信息字段,爲了不產生歧義,需要截圖標註清楚
3、如果有多頁,要說明抓多少頁

舉例——
需求概述:小明要抓取淘寶上關於酸奶的商品信息。
需要提供:

  1. 網站鏈接 —— 如何獲取?進入淘寶 www.taobao.com,然後搜索“酸奶”,出現的這個鏈接,就是爬蟲需要的鏈接,結果鏈接如下:
    https://s.taobao.com/search?q=%E9%85%B8%E5%A5%B6&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306
  1. 需要抓取這個頁面的所有商品,每個商品需要抓取的信息:
  • 產品名稱
  • 價格
  • 購買人數

具體截圖如下:

  1. 搜索結果一共有 100頁,只需要抓取前 5 頁即可。

ps:上面是個例子,具體情況,可以根據需求改變。比如抓取的字段不同,或者抓取頁數不一樣等

十、抓取過程中遇到問題,該怎麼解決?

課程裏面不僅講了如何抓取,也講了遇到問題的分析,以及解決思路。

遇到問題,先根據課程裏講的步驟分析,基本是能解決問題的。

十一、爲什麼我抓亞馬遜出錯了?

我在課程裏講第一個例子的時候,就強調了一個重要點:

先不要抓課程之外的網站,等到把課程裏的例子,全部練到不用看教程就能抓取成功的熟練程度,再去抓課程之外的網站

不是我故意爲難大家,也不是故作高深。

爬蟲課,我是按照由淺極深的順序講的,每一節的難度都是慢慢增加,每一節都是針對抓取不同類型的數據,也就是課程裏的例子全部練熟,就相當於全網的數據類型,你都可以在這裏按照方法參照抓取。

每一節課程裏的例子,都是我專門挑選的,是這個類別裏面最簡單的網站。

爲什麼要挑最簡單的,因爲大家都是初學 web scraper,如果一開始就選比較複雜的網站,這樣抓起來容易出錯,出錯的話,人的情緒能會受挫。

等到簡單的例子熟練了,後面學習複雜的例子,就會得心應手。

沒聽完課,就去抓課程之外的網站,就相當於學英語,只學了 ABC,然後去做四級題,不可能正確。

即使有一次正確,也是蒙的,但是給自己一個錯覺,認爲自己已經掌握了全部內容。然後下次蒙錯了,就來提問。這時候,我即使回答,你也是一知半解,因爲你基礎都沒搞清楚。

我自己聽過 xdite 老師的元學習課,所以在「教」方面,有些心得:人在學習新知識的時候,正反饋是很重要的,還有其他一些小技巧,這裏不再贅述。

十二、我的一點個人經驗

學習“技能型”知識的時候,比如webscraper,不要想着練習一次就能學好,學精。

學習任何技能都會有一個從笨拙到熟練的過程,一開始這錯那錯,都很正常,這是每個人的必經之路。

那些熟練操作的人,都是經過了千萬次練習。

如果錯了,也不要慌,刪掉這個 Sitemap,仔細按照步驟,重新開始。

第一遍如果成功,你就會對整體有個瞭解,再練習第二遍,就算是同一個例子,你也需要多練習幾次。

不要着急,慢就是快,慢就是快。

十三、爲什麼要學習 web scraper ?

如果讓我來分享爲什麼要學習 web scraper,我想會有 2 個原因。

1、鍛鍊邏輯、分析問題的能力

我以前寫過一篇文章 沒事別想不開去學編程,裏面的其他觀點我不再贅述,其中有一點:如果你只是想鍛鍊技術思維,學別的東西也可以鍛鍊。

我當時寫文章的時候,沒有想好合適的例子。

這幾天,我就突然想到,爬蟲課就是一個很好鍛鍊邏輯能力,鍛鍊分析問題的能力。

web scraper 是個程序封裝的工具,使用的時候,每個步驟都必須很精確。

如何確定要抓取的網頁用什麼選擇器?
如何確定網頁上的哪些信息是同一個類型?
遇到問題,如何採用「控制變量法」分析原因,找到解決方案?

這些分析問題的能力,不只能用在抓取數據,也可以通用到任何其他領域。

不要把爬蟲課只當成爬蟲課來學。

2、增加一個維度競爭力

你有沒有過這種經歷,一個你很仰慕的大佬,在朋友圈發了一個狀態,尋求某種幫助,而你剛剛好能提供這種幫助,因此和大佬有了交集,之後大佬如果有一些有料的信息,也會告訴你……

如果你掌握了一門大多數人不會的技能,就會給你增加一個很大的競爭力。

我不是說只有 web scraper 可以,寫文案、PS、營銷、設計等等都是。

相比較而言,學 web scraper 性價比最高 ——

  • 會的人少:稀缺度決定價值
  • 學習成本小:容易掌握

點到爲止,不再多說,願者上鉤。

十四、什麼人不適合學?

  • 覺得看一遍就行,不想練習的人
  • 不按照教程走,跳着看的人
  • 課程裏講過的東西,羣裏不再答疑,不能接受的人
  • 不喜歡思考,只喜歡提問的人

十五、爲啥私信不回我

如果有問題,可以現在羣裏交流,幫你解決疑惑的同時,也可以讓其他人受益,否則請先發紅包。

十六、還有什麼要說的嗎?

這不是一篇課程宣傳文章,那些煽動情緒,只強調課程利益點的文案,這裏沒有。我連爬蟲課的入口都不放出來。因爲找到課程入口本身,就是一道門檻。

十七、報了能退費嗎?

加入知識星球,3 天無理由退款。
我建議,可以先看看環境配置那一節,如果看着教程,webscraper 安裝不成功,我建議直接退款,因爲這個是基本操作,如果這個都安裝不成功,後面更復雜的步驟就接受不了了,我也沒時間講解這些基礎操作。

點擊購買 http://www.zsxq100.com/webscraper/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章