《不用寫代碼的爬蟲課》發佈後,有不少朋友來找我抓數據,但是有的朋友對於爬蟲不瞭解,所以造成交流不暢。這篇文章就是分享一些爬蟲的基礎信息。
這篇文章只針對 web scraper
一、爬蟲是什麼?
爬蟲,通俗一點講,就是讓程序幫你統計網頁上的數據。
舉例:你要統計一個公衆號的所有文章標題,如果有 500 篇文章,你手動複製粘貼到 excel 裏面,一個標題 10 秒,大概需要1 個多小時。
但是如果會爬蟲的話,你只需要設置一下抓取規則,然後程序會幫你抓,大概 1 分鐘左右就能做完。如果數據量大,可能需要時間更長一些。
二、爬蟲不是什麼?
爬蟲只能抓 網頁上眼睛能看到的信息(這裏指的是 webscraper 的範圍)。
爬蟲沒有搜索功能,沒有語音功能,沒有數據分析功能,也沒有求和功能,也沒有排序功能。這些操作可以放到抓取後的 excel 裏面操作。
三、怎麼確定自己要抓的東西爬蟲能完成?
注意:這裏只針對《不用寫代碼的爬蟲課》
如果你要抓一個東西
- 你必須提供一個 網址(也可以叫鏈接、或者 URL)。
- 你需要在瀏覽器的地址欄裏訪問這個頁面,看一下,你要抓取的信息,能不能用眼睛看到。
如果能看到,那就 99% 能抓,如果看不到,那就抓不了。
四、某某網站能抓不?
看第三點。
五、某某 APP 能抓捕?
自己搜索一下,這個 APP 有沒有網頁版。
如果有,返回看第三點。
六、用 webscraper 抓數據,需要fq不?
抓數據需不需要fq,取決於你要抓的網站,需不需要fq。
如果你訪問的網站,需要fq才能看到內容,那麼抓取的時候也就需要fq。反之不用。
比如,抓 Facebook:因爲訪問Facebook本身就需要fq,所以你抓的時候也需要打開fq軟件。
比如,抓知乎:因爲訪問知乎本身不需要fq,所以你抓的時候也不需要fq。
另:webscraper 安裝的話,可以不用fq,課程裏有講不用fq的安裝方法。
七、只能用谷歌瀏覽器嗎?
對,我只對谷歌瀏覽器負責。
雖然有的其他瀏覽器(QQ瀏覽器,360瀏覽器)也能運行 web scraper,但是在我測試過程中,會有一些兼容性問題,會出現一些莫名其妙的錯誤。
必經不是原生版,出了問題很難分析。
八、能抓微信號、手機號碼?
參看 第三點。
九、學了這個能抓 某某網站嗎?
一句話,網頁上能看到的信息,99% 都能抓到。
我不會說那種絕對正確、類似能抓取一切的話,事實上,即使你找一個頂尖的爬蟲工程師,他也不敢保證,所有的信息都能抓取。
九、如果要別人幫忙抓取數據,你需要提供的信息
必須提供詳細信息,否則不予理會
1、要抓取的網址鏈接。爲什麼要提供這個,參看第三點。
2、要抓取的信息字段,爲了不產生歧義,需要截圖標註清楚
3、如果有多頁,要說明抓多少頁
舉例——
需求概述:小明要抓取淘寶上關於酸奶的商品信息。
需要提供:
- 網站鏈接 —— 如何獲取?進入淘寶 www.taobao.com,然後搜索“酸奶”,出現的這個鏈接,就是爬蟲需要的鏈接,結果鏈接如下:
https://s.taobao.com/search?q=%E9%85%B8%E5%A5%B6&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306
- 需要抓取這個頁面的所有商品,每個商品需要抓取的信息:
- 產品名稱
- 價格
- 購買人數
具體截圖如下:
- 搜索結果一共有 100頁,只需要抓取前 5 頁即可。
ps:上面是個例子,具體情況,可以根據需求改變。比如抓取的字段不同,或者抓取頁數不一樣等
十、抓取過程中遇到問題,該怎麼解決?
課程裏面不僅講了如何抓取,也講了遇到問題的分析,以及解決思路。
遇到問題,先根據課程裏講的步驟分析,基本是能解決問題的。
十一、爲什麼我抓亞馬遜出錯了?
我在課程裏講第一個例子的時候,就強調了一個重要點:
先不要抓課程之外的網站,等到把課程裏的例子,全部練到不用看教程就能抓取成功的熟練程度,再去抓課程之外的網站
不是我故意爲難大家,也不是故作高深。
爬蟲課,我是按照由淺極深的順序講的,每一節的難度都是慢慢增加,每一節都是針對抓取不同類型的數據,也就是課程裏的例子全部練熟,就相當於全網的數據類型,你都可以在這裏按照方法參照抓取。
每一節課程裏的例子,都是我專門挑選的,是這個類別裏面最簡單的網站。
爲什麼要挑最簡單的,因爲大家都是初學 web scraper,如果一開始就選比較複雜的網站,這樣抓起來容易出錯,出錯的話,人的情緒能會受挫。
等到簡單的例子熟練了,後面學習複雜的例子,就會得心應手。
沒聽完課,就去抓課程之外的網站,就相當於學英語,只學了 ABC,然後去做四級題,不可能正確。
即使有一次正確,也是蒙的,但是給自己一個錯覺,認爲自己已經掌握了全部內容。然後下次蒙錯了,就來提問。這時候,我即使回答,你也是一知半解,因爲你基礎都沒搞清楚。
我自己聽過 xdite 老師的元學習課,所以在「教」方面,有些心得:人在學習新知識的時候,正反饋是很重要的,還有其他一些小技巧,這裏不再贅述。
十二、我的一點個人經驗
學習“技能型”知識的時候,比如webscraper,不要想着練習一次就能學好,學精。
學習任何技能都會有一個從笨拙到熟練的過程,一開始這錯那錯,都很正常,這是每個人的必經之路。
那些熟練操作的人,都是經過了千萬次練習。
如果錯了,也不要慌,刪掉這個 Sitemap,仔細按照步驟,重新開始。
第一遍如果成功,你就會對整體有個瞭解,再練習第二遍,就算是同一個例子,你也需要多練習幾次。
不要着急,慢就是快,慢就是快。
十三、爲什麼要學習 web scraper ?
如果讓我來分享爲什麼要學習 web scraper,我想會有 2 個原因。
1、鍛鍊邏輯、分析問題的能力
我以前寫過一篇文章 沒事別想不開去學編程,裏面的其他觀點我不再贅述,其中有一點:如果你只是想鍛鍊技術思維,學別的東西也可以鍛鍊。
我當時寫文章的時候,沒有想好合適的例子。
這幾天,我就突然想到,爬蟲課就是一個很好鍛鍊邏輯能力,鍛鍊分析問題的能力。
web scraper 是個程序封裝的工具,使用的時候,每個步驟都必須很精確。
如何確定要抓取的網頁用什麼選擇器?
如何確定網頁上的哪些信息是同一個類型?
遇到問題,如何採用「控制變量法」分析原因,找到解決方案?
這些分析問題的能力,不只能用在抓取數據,也可以通用到任何其他領域。
不要把爬蟲課只當成爬蟲課來學。
2、增加一個維度競爭力
你有沒有過這種經歷,一個你很仰慕的大佬,在朋友圈發了一個狀態,尋求某種幫助,而你剛剛好能提供這種幫助,因此和大佬有了交集,之後大佬如果有一些有料的信息,也會告訴你……
如果你掌握了一門大多數人不會的技能,就會給你增加一個很大的競爭力。
我不是說只有 web scraper 可以,寫文案、PS、營銷、設計等等都是。
相比較而言,學 web scraper 性價比最高 ——
- 會的人少:稀缺度決定價值
- 學習成本小:容易掌握
點到爲止,不再多說,願者上鉤。
十四、什麼人不適合學?
- 覺得看一遍就行,不想練習的人
- 不按照教程走,跳着看的人
- 課程裏講過的東西,羣裏不再答疑,不能接受的人
- 不喜歡思考,只喜歡提問的人
十五、爲啥私信不回我
如果有問題,可以現在羣裏交流,幫你解決疑惑的同時,也可以讓其他人受益,否則請先發紅包。
十六、還有什麼要說的嗎?
這不是一篇課程宣傳文章,那些煽動情緒,只強調課程利益點的文案,這裏沒有。我連爬蟲課的入口都不放出來。因爲找到課程入口本身,就是一道門檻。
十七、報了能退費嗎?
加入知識星球,3 天無理由退款。
我建議,可以先看看環境配置那一節,如果看着教程,webscraper 安裝不成功,我建議直接退款,因爲這個是基本操作,如果這個都安裝不成功,後面更復雜的步驟就接受不了了,我也沒時間講解這些基礎操作。