爬取圖片

爬取圖片

原創

2019-02-22 12:57

import requests                   # 模塊導入的倆種方法
from multiprocessing import Pool
import re

def get(url):
    ret=requests.get(url)
    if ret.status_code==200:
        return  ret.content.decode('gbk')

def call_back(arg):
    ret = com.finditer(arg)
    dict_lst=[]
    for i in ret:
        dic = {
            'png': i.group('png'),
            'name': i.group('name'),
            'place': i.group('place')
        }
        dict_lst.append(dic)
    for i in  dict_lst:
        res=subget(i['png'])
        write_func(i['name'],i['place'],res)

    return dict_lst

def subget(url):
    if 'https' in url:
        ret = requests.get(url)
        if ret.status_code == 200:
            return ret.content
        else:
            pass
    else:
        n_url = 'http://www.xiaohuar.com' + url
        ret = requests.get(n_url)
        if ret.status_code == 200:
            return ret.content
        else:
            pass

def write_func(path,place,picture):
    with open(r'E:\text1\爬蟲\text_png\%s-%s.png' %(path,place),'wb') as f:
         f.write(picture)

'''我要爬取的網頁的特徵'''
'''http://www.xiaohuar.com/list-1-0.html'''
'''http://www.xiaohuar.com/list-1-43.html'''

if __name__ =='__main__':
    com = re.compile(
        '<div class="item_t">(?:.*?)src="(?P<png>.*?)"(?:.*?)<span class="price">(?P<name>.*?)</span>(?:.*?)'
        '<a href="http://www.xiaohuar.com/" class="img_album_btn">(?P<place>.*?)</a>', re.S)

    pool=Pool(3)
    res_lst=[]
    for i in range(40):
        pool.apply_async(get,args=('http://www.xiaohuar.com/list-1-%s.html' %i,),callback=call_back)

    pool.close()
    pool.join()

缺點:爬取的速度慢,最多17個網頁(好無奈)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

'str' object has no attribute 'get'

django.core.exceptions.ImproperlyConfigured:

django框架提供的數據庫連接

django項目數據庫中表結構設計和同一表中設置多個聯合唯一存在的問題分析

反射的基本概念及應用

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結