Python爬蟲_簡單獲取百度貼吧圖片

原創

2020-07-01 11:10

#coding=utf-8
import re
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html


def callbackfunc(blocknum, blocksize, totalsize):
    '''回調函數
    @blocknum: 已經下載的數據塊
    @blocksize: 數據塊的大小
    @totalsize: 遠程文件的大小
    '''
    percent = 100.0 * blocknum * blocksize / totalsize
    if percent > 100:
        percent = 100
    print "%.2f%%"% percent

def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0

    #保存文件到本地，urlretrieve函數的第一個參數是URL，第二個是地址
    for imgurl in imglist:
        print '正在保存第' + str(x+1) + '圖片...'
        urllib.urlretrieve(imgurl,'%s.jpg' % x,callbackfunc)
        x+=1
    return imglist      
   
html = getHtml("http://tieba.baidu.com/p/2460150866")
#print getImg(html)
getImg(html)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【使用技巧】Pycharm需要配置腳本路徑(Script Path)

界面右上角，運行鍵的左邊有個下拉框，正常情況下顯示的是當前編輯的腳本文件(.py)。如果不是的話會無法運行腳本，需要配置腳本路徑讓Pycharm知道你要運行這個腳本。下拉後選Edit Configuration... （黃箭頭）將

2020-07-04 19:57:49

【語句總結】Python的三種列表拷貝方式

在練習列表的操作的時候我發現賦值之後的列表會隨着被賦值的列表改變而改變，就像是C語言中用指向同一實際變量的指針進行操作一樣。這是因爲Python中有三種拷貝方式：淺拷貝、深拷貝和賦值拷貝。賦值拷貝就像是定義新指針並指向了同一內存區域，對

2020-07-04 19:57:49

Python服務器發佈webservice

webservice服務器端實例代碼 # -*- coding utf-8 -*- # import socket import json from spyne import Application, rpc, ServiceBase

OnlyLove_longshao

2020-07-04 16:57:26

Django:快速搭建自己第一個的Blog

參考：https://blog.csdn.net/huangzhiyuan111/article/details/53453032 親測可用，根據情況做少許更改教程：https://code.ziqiangxuetang.co

2020-07-02 06:27:52

Python爬蟲_獲取貼吧內容

參考http://cuiqingcai.com/993.html，寫的第一個比較完整的python爬蟲程序。對正則表達式要有更加深刻的研究，本程序對百度貼吧使用，但是截取不了表情。如果想把所有頁面的內容都獲取下來不難，拓展一下即可。 #

2020-07-01 11:10:43

【Python製作詞雲】改變詞雲字體顏色

Author：AXYZdong 自動化專業工科男有一點思考，有一點想法，有一點理性！定個小小目標，努力成爲習慣！在最美的年華遇見更好的自己！ CSDN@AXYZdong，CSDN首發，AXYZdong原創唯一博客更新的地

2020-07-01 04:23:26

【Python製作詞雲】分析QQ羣聊信息，記錄詞頻並製作詞雲

Author：AXYZdong 自動化專業工科男有一點思考，有一點想法，有一點理性！定個小小目標，努力成爲習慣！在最美的年華遇見更好的自己！ CSDN@AXYZdong，CSDN首發，AXYZdong原創唯一博客更新的地

2020-07-01 04:23:26

揭開「pip不是內部或外部命令，也不是可運行的程序或批處理文件」的神祕面紗

Author：AXYZdong 自動化專業工科男有一點思考，有一點想法，有一點理性！定個小小目標，努力成爲習慣！在最美的年華遇見更好的自己！ CSDN@AXYZdong，CSDN首發，AXYZdong原創唯一博客更新的地

2020-07-01 04:23:26

Python如何查看已安裝的第三方庫路徑

因爲自己電腦上安裝了兩個版本的python版本，所以很多次原本想下載使用的python第三方庫總是下載到另一個python環境中，這個時候就只能找出該第三方庫的安裝路徑，然後將它copy到要使用的python環境對應的路徑中。。

醉裡挑燈看劍

2020-06-30 07:05:33

【Python】三元運算

Python中沒有像C++和Java等語言中的三元運算符，但是可以用if else語句實現相同的功能： >>> condition = True >>> print 'True' if condition else 'False' Tru

2020-06-29 21:16:36

python referenced before assignment問題

一、意思：本地變量var引用前沒定義。二、錯誤原因在於python沒有變量的聲明 , 所以它通過一個簡單的規則找出變量的範圍：如果有一個函數內部的變量賦值，該變量被認爲是本地的，所以如果有修改變量的值就會變成

2020-06-27 22:12:55

利用三十行Python爬取網絡小說

今天同事問我有沒有網站可以下載小說，我說沒有啊你要找哪個小說（心裏有點鄙視他，心想現在什麼小說在網上不是都能找到嗎，自信搜索能力的我準備幫人幫到底）他說，《醫聖之最強狂兵》，我當然沒看過了，搜索了半天只找到了一些人分享的網盤地

远在远方的风比远方更远

2020-06-24 03:01:17

【Python模塊】logging模塊打印日誌

Python模塊 >> logging 一、簡單日誌打印【1】直接使用logging模塊，打印日誌到屏幕默認輸出日誌的格式：日誌級別：Logger名稱：用戶輸出消息【2】默認的日誌級別設置爲WARNING，lo

2020-06-22 03:53:19

用Selenium 爬蟲下載文件，解除Chrome 下載警告（Keep or Discard），設置下載目錄的方法

寫在前面的話我們的描述，運用都是基於Ubuntu 的運行環境 Chrome : Version 77.0.3865.90 (Official Build) (64-bit) OS : Ubuntu 18.04 python :

2020-06-21 07:34:34

Matplotlib 放置legend(bbox_to_anchor)

legend 是放置在我們的座標邊界裏面的一個東西，主要的作用就是解釋一下我們座標軸裏面的圖形的含義（比如說針對x, y 對應的函數表達式，或者是曲線的意義（函數表達式）），legend 在英語裏面的含義就是圖示的說明。就是我們下

2020-06-21 07:34:34

24小時熱門文章

最新文章

最新評論文章