大家好,我是菜鳥哥!今天給大家推薦一些不錯的神器!
網絡信息的時代,想要收集信息,爬蟲是一項必不可少的工具。對於很多小夥伴們來說,只是想利用爬蟲進行快速的內容抓取,而並不想太過深入的學習爬蟲。
利用python編寫爬蟲程序雖然炫酷,但是需要耗費時間和精力去學習。學習成本非常高,有的時候就是爲了幾頁的數據,學了幾個月的爬蟲,實在是傷不起。
有沒有啥好的辦法,既快又省事,當然有!今天菜鳥哥今天就帶領大家來分享五款免費的數據抓取工具,幫你省時又省力。
01.八爪魚
八爪魚是一款較爲流行的爬蟲軟件,即便用戶不會編程,也能夠輕鬆抓取數據。八爪魚對於數據抓取的穩定性較強,並且配備了詳細的使用教程,可以很快的上手使用。
我們以採集名人名言爲例,網址爲:https://www.mingyannet.com/mingyan/234813297
打開八爪魚軟件後,打開網頁,然後點擊單個文本,選擇右側的“選中全部”,軟件會自動識別所有的名言文本。接下來按照操作,選擇採集文本,並啓動軟件進行採集。
採集完成後,選擇文本導出的文件類型,點擊確定,導出數據。
2.集搜客
集搜客針對於一些比較大衆的熱門網站設置了快捷的爬蟲程序,但是學習成本相對於八爪魚較高。傳送門:https://www.jisouke.com/index.html
我們以知乎關鍵詞作爲抓取目標,網址爲:https://www.zhihu.com/search?type=content&q=python 。首先需要按照爬取玩個類別進行分類,然後輸入網址之後,點擊獲取數據,開始抓取。抓取的數據如下圖所示:
可以看到,集搜客抓取信息是非常豐富的,但是數據的下載需要消耗積分,20條數據花費1個積分。集搜客會贈與新用戶20積分。以上介紹的兩款都是非常好用的國產數據抓取軟件,接下來菜鳥哥爲大家介紹的則是chrome瀏覽器下的爬蟲插件。
3.webscraper
Web scraper插件是一款非常好用的簡易爬蟲插件,對於Web scraper的安裝,可以參考菜鳥哥之前分享的文章(牛逼的chrome插件,不用一行代碼,輕鬆爬取各大網站公開信息!(附視頻))。對於簡單的數據抓取,Web scraper可以很好的完成任務。我們同樣以名人名言的網址數據抓取爲例。
通過選中Multiple,來抓取頁面中的所有名言。數據抓取完畢後,通過點擊“Export data as CSV“來導出所有的數據。
4.AnyPapa
將網頁翻到評價部分,然後點擊AnyPapa插件下的”本地數據“,會自動跳轉到AnyPapa的數據頁面。
首先點擊切換數據源,找到”京東商品評論“的數據源,此時界面中會顯示出手機評論頁面中的當前全部評論內容。點擊”導出“,評論數據會以csv文件下載到本地。
5.you-get
you-get是GitHub上的一個非常火爆的爬蟲項目,作者提供了近80個國內外網站的視頻圖片的抓取,收穫了40900個贊!
傳送門:https://github.com/soimort/you-get 。對於you-get的安裝,可以通過pip install you-get
的命令進行安裝。
我們以B站上的視頻爲例,網址爲:https://www.bilibili.com/video/BV1y64y1X7YG?spm_id_from=333.851.b_7265636f6d6d656e64.3
通過命令:
you-get -o ./ 'https://www.bilibili.com/video/BV1y64y1X7YG?spm_id_from=333.851.b_7265636f6d6d656e64.3' --format=flv360
可以實現視頻的下載,其中-o 指的是視頻下載的存放地址,--format是指視頻下載的格式和清晰度。
6.總結
以上就是菜鳥哥今天爲大家帶來的五款自動提取數據的工具,如果對於偶爾一次的爬蟲,或者很低頻率的爬取需求,完全沒有必要去學習爬蟲的技術,因爲學習成本很高。好比如果你只是想P幾張圖,直接用美圖秀秀了,不需要學Photoshop 。
如果是對爬蟲有很多定製的需求,需要對收集的數據進行分析和深度挖掘,而且是高頻的,或者你想通過爬蟲把Python技術運用的更深入,學習的更紮實,這個時候才考慮學爬蟲。
好了,以上幾個工具都是不錯的,有興趣的同學可以試試
【菜鳥學Python】累計原創近400篇趣味乾貨(爬蟲,數據分析,算法,面試指南,原創趣味實戰,Python遊戲,機器學習),歡迎一起學Python,交流指正。