記錄百度圖片抓取過程

原創

2020-06-16 05:25

最近碰到個需求,需要抓取百度圖片,要求得到縮略圖的URL和原圖的URL

1.首先用urllib2連圖片毛都沒抓到,,分析了一下百度圖片的結構,發現圖片的JSON數據是通過ajax加載的.urllib2淚流滿面

2.前段時間用過htmlunit,這玩意是用JAVA做的,先使用htmlunit解析動態加載的網頁,再用thrift進行python和java的連接,可以得到加載後的JSON,這個可以入選了

3.最近又找到了PhantomJS,此物是一個無界面的webkit引擎,使用JSAPI的,試用了一下,感覺比htmlunit更好用,主頁是:http://phantomjs.org/index.html,使用PhantomJS可以得到執行過JS的網頁,並且可以直接得到window的JS變量,返回JSON數據,python可以使用subprocess來進行系統命令行的調用,並返回命令行的結果,這個也可以入選了,另PhantomJS還可以做爲一個webserver,嘗試了一下,發現把大部分邏輯放到js寫着太彆扭,中止嘗試

4.在上面兩種方案中發現想得到更多圖片時模擬翻頁實現太麻煩,嘗試着從AJAX上入手,在chrome上使用chrome://net-internals/對百度圖片進行了抓包,直接抓到了JSON數據的ajax,所以2,3被放棄了,世界也清靜了

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

雜誌參考

中學生物教學生物學教學中學生物學生物學通報生物學雜誌生物技術世界中學教學參考高考考試(高考理科版) 考試周刊考試與評價理科考試研究新課程(中學) 新課程(中) 新課程學習(中) 新課程(下) 新課程導學課程教育研究

2020-07-08 11:31:18

vim使用vundle

果然簡單多了。。。 git clone https://github.com/gmarik/vundle.git ~/.vim/bundle/vundle set nocompatible " be iMpr

2020-07-07 01:57:43

Capture in SuchLazy's Diary

　　最近突發奇想，寫個日記軟件玩玩，小試牛刀，抓圖如下，以作留念。結束！

2020-07-06 05:45:42

[亂七八糟]沉默是金

最近，在某個論壇上，有兩人因爲一個技術問題爭鋒相對，最終演變成了人身攻擊。很湊巧的是，在現實中，筆者也遇到了類似的事情。起因是，有另一棟樓上的鄰居在樓下停車場和兒子打籃球。鄰居打籃球的時候，筆者正在臥牀休息。因爲筆者偶爾會心臟不舒

2020-07-06 01:22:07

項目管理習題及解答

一、單項選擇題　　1.責任分配矩陣是能夠明確表示出項目團隊成員在組織中的（）的一種工具。　　A.責任、權力和義務　　B.職責、權限和利益　　C.關係和作用　　D.關係、責任和地位　　2.責任分配矩陣將人員配備工作與（）聯繫起來

2020-07-05 23:05:58

一個30歲男人的婚姻思考

一個30歲男人的婚姻思考今年30了,結婚4年多了。平心而論，我的婚姻生活很幸福，但是很多時候我似乎並不滿足。因爲，我妻子是一個沒有正式工作的人，現在給別人打工，也不可能有什麼發展。文憑也不高，估計再過幾年，也就會成爲全職

2020-07-05 20:35:31

不成熟不要緊

不成熟不要緊［作者：張傳本更新時間：2004-5-24 文章錄入：］ 8){fontsize_6562.style.fontSize=(--curfontsize_6562)+"pt";fontsize_6562

2020-07-05 20:35:31

下班時間，不談技術；上班時間，等待下班。

下班時間，不要跟我談技術；上班時間，等待下班。俺這隻巨蟹的生活哲學:上班是爲了更好的生活，家庭永遠第一！不用上班的時候，只願陪在我愛和愛我的人身邊，甜蜜密（此處通假）！

2020-07-05 20:35:31

推薦電源：諜影重重2：繼續逃亡

剛看完，不錯，情節緊湊。

2020-07-05 20:35:31

Virtual Box 搭建虛擬機局域網

文章目錄新建以太網卡虛擬機配置以太網卡查看ip地址宿主機連虛擬機虛擬機互聯虛擬機連外網靜態 IP 地址新建以太網卡首先，VB 自己建了一個網絡適配器（網卡），一般安裝好後都能找到：或者進入“管理”、“主機網絡管理器”裏也能

2020-07-05 17:46:29

virtual box 中虛擬機系統顯示界面太小

需要在虛擬機中調整顯示分辨率：

2020-07-05 17:46:29

linux 修改服務器名稱

[root@proxyo ~]#而我要將中間的proxyo改成search 1. vi /etc/hosts [root@proxyo ~]# cat /etc/hosts# Do not remove the following li

2020-07-05 12:34:26

Mac沒聲音了

sudo killall coreaudiod

2020-07-05 02:22:34

亂七八糟: 入職一年的個人總結

入職一年的個人總結 1. 介紹下背景? 今天是2020年下半年的第一天,LZ入職快滿一年了,下班後做個總結吧! LZ是2019年7月8日入職,想寫的很多,確又不知道怎麼寫,看來領悟不夠深… 2. 一點點想法(學校 vs 公司) 方

2020-07-04 17:49:30

Markdown使用小技巧

文章目錄1 頁面內跳轉2 目錄 1 頁面內跳轉先定義一個錨(id) Hello World <span id="jump">Hello World</span> 然後使用markdown的語法: XXXX [XX

蒙牛铁观音

2020-07-04 09:59:06

24小時熱門文章

最新文章

最新評論文章