python爬图片的一个实例

原創

2018-08-22 15:42

拜读《python练习手册》之爬日本美女图图片，个人有一点体会：
在对网页打开时，有三种方式；

列表内容

import re,urllib,os

url="http://tieba.baidu.com/p/2166231880"
find=re.compile(r'<img pic_type="0" class="BDE_Image" src="(.*?).jpg"')

data=urllib.urlopen(url).read()
picture_url_list=find.findall(data.decode('utf-8'))

2.直接导入requests，通过get（url）获得网页

import requests,urllib,os
url="http://tieba.baidu.com/p/2166231880"

find=re.compile(r'<img pic_type="0" class="BDE_Image" src="(.*?).jpg"')

html=requests.get(url)
data=html.content.decode('utf-8')
picture_url_list=find.findall(data)#对改url需要加上图片的后缀名“.jpg”

3.通过urllib中的Request请求创建一个Request对象

import re,urllib,os
url="http://tieba.baidu.com/p/2166231880"

find=re.compile(r'<img pic_type="0" class="BDE_Image" src="(.*?).jpg"')

req=urllib.Request(url)
response = urllib2.urlopen(req) 
the_page = response.read()

注意
在对网站爬虫的过程中注意编码的改写，一般来说“utf-8”和“GBK”为常用解码类型

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

华为云发布CodeArts IDE for Python，极致优雅云原生开发体验

近日，華爲雲正式發佈CodeArts IDE for Python，這是一款內置華爲自主創新的Python語言服務，提供智能編程、靈活調試能力的可擴展桌面開發工具，爲華爲雲開發者提供卓越Python編碼體驗。 Python 作爲一種編程語言

中間件小哥

2024-05-11 14:25:35

C#实现多线程的几种方式

前言多線程是C#中一個重要的概念，多線程指的是在同一進程中同時運行多個線程的機制。多線程適用於需要提高系統併發性、吞吐量和響應速度的場景，可以充分利用多核處理器和系統資源，提高應用程序的性能和效率。多線程常用場景 CPU 密集型任務

2024-05-11 14:25:34

RustDesk 自建服务器部署和使用教程

RustDesk 是一個強大的開源遠程桌面軟件，是中國開發者的作品，它使用 Rust 編程語言構建，提供安全、高效、跨平臺的遠程訪問體驗。可以說是目前全球最火的開源遠程桌面軟件了，GitHub 星星數量達到了驚人的 64k！與 Team

米開朗基楊

2024-05-11 14:25:04

第二节：计数服务架构设计与落地

2024-05-11 14:25:04

公司空降一个 CTO：禁止在项目中使用 Date 类，发现立即走人！！！

作者：sum墨來源：https://www.cnblogs.com/wlovet/p/18058514 爲什麼現在連Date類都不建議使用了？一、有什麼問題嗎java.util.Date？ java.util.Date（Date從現在

2024-05-11 14:24:54

纹理是怎样显示在模型上的

看完games101的第8和9章，就會很好理解這些內容。三維世界中的模型是由點組成三角形，進而組成複雜的模型。每個面都有不同的顏色(像素)，可以用紋理來貼上去，最後在形成在屏幕上。立方體例子如何把2d的圖片包到3d的模型上面？把3d

2024-05-11 14:24:04

《最新出炉》系列入门篇-Python+Playwright自动化测试-46-鼠标滚轮操作

1.簡介有些網站爲了節省流量和資源，提高加載效率，採用的是動態加載（懶加載）的，也就是當拖動頁面右側滾動條後會自動加載網頁下面的內容，不拖動就不會加載的或者通過鼠標滾輪操作。 2.wheel模擬鼠標滾動 wheel模擬鼠標滾動，就是通過調

2024-05-11 14:18:03

keycloak~登录皮肤动态切换的尝试

keycloak的登錄皮膚theme，可以設置領域全局的，或者每個客戶端進行單獨設置，這種設計是沒有問題的，但有時，一個客戶端可能有多種主題，這時，你只能再加個客戶端，對應新的主題，但這樣不方便日後的統計，因爲很多統計維度都是以client

2024-05-11 14:16:03

lua~IDEA中调试lua脚本

開發工具 IDE工具：jetbrain IDEA 工具插件：EmmyLua 本機lua項目和調試lua文件添加lua項目模板，安裝完EmmyLua插件就有了添加模板項目後，在項目中添加lua類型的文件爲lua項目添

2024-05-11 14:16:03

lua~基本语法

學習 Lua 的必要性 nginx開發 apisix,kong插件開發語言特點語句結束沒有分號跟 JavaScript 很像默認定義的是全局變量，定義局部變量需要加 local 關鍵字數組索引從1開始沒有 i++ 操作符號

2024-05-11 14:16:03

vs2022编译.netframework4.0工程

從其他機器拷貝一個複製到下面的目錄 C:\Program Files (x86)\Reference Assemblies\Microsoft\Framework\.NETFramework

大俠的哥哥是菜鳥

2024-05-11 14:15:53

sql高级语法

一、mysql 1、on DUPLICATE key update on DUPLICATE key update completed_value=values(completed_value)：這是 MySQL 中的 INSERT ..

2024-05-11 14:15:33

ASP.NET 8 使用 NLog

NLog:https://github.com/NLog/NLog詳細使用可以看官方Wiki：https://github.com/NLog/NLog/wiki首先 Nuget：Install-Package NLog Install-Pa

2024-05-11 14:11:32

sql语句优化的30种方法【转】

1.對查詢進行優化，應儘量避免全表掃描，首先應考慮在 where 及 order by 涉及的列上建立索引。 2.應儘量避免在 where 子句中使用!=或<>操作符，否則將引擎放棄使用索引而進行全表掃描。 3.應儘量避免在 where 子

2024-05-11 14:08:32

Kingbase+sqlsugar 携手助力医疗国产化替换【人大金仓 .NET ORM】

1. 案例成某三甲醫預約系統，該項目在2024年初進行上線測試，在正常運行了兩天後，業務系統報錯：The connection pool has been exhausted, either raise MaxPoolSize

2024-05-11 14:07:02

24小時熱門文章

Spring Cloud 部署时如何使用 Kubernetes 作为注册中心和配置中心

最新文章

最新評論文章