python網絡爬蟲與信息採取之下載存儲數據（一）-----下載儲存媒體文件模板

原創

2020-02-26 05:41

還在爲一張張的點下載圖片而煩惱嗎？請用一個程序員的思路來解決這個問題，下面就是可以節省你大量時間的代碼；

存儲媒體文件有兩種方式：一是隻獲取URL鏈接；二是直接把源文件下載下來

下面這個就是直接把源文件下載下來的實例：

其中，

urlretrieve()函數用於下載文件

 代碼如下：

import os
from urllib.request import urlretrieve
from urllib.request import urlopen
from bs4 import BeautifulSoup

downloadDirectory = "D:\downloaded"
baseUrl = "http://pythonscraping.com"


def getAbsoluteURL(baseUrl, source):
    if source.startswith("http://www."):
        url = "http://" + source[11:]
    elif source.startswith("http://"):
        url = source
    elif source.startswith("www."):
        url = source[4:]
        url = "http://" + source
    else:
        url = baseUrl + "/" + source
    if baseUrl not in url:
        return None
    return url


def getDownloadPath(baseUrl, absoluteUrl, downloadDirectory):
    path = absoluteUrl.replace("www.", "")
    path = path.replace(baseUrl, "")
    path = downloadDirectory + path
    directory = os.path.dirname(path)
    if not os.path.exists(directory):
        os.makedirs(directory)
    return path


html = urlopen("http://www.pythonscraping.com")
bsObj = BeautifulSoup(html)
downloadList = bsObj.findAll(src=True)
for download in downloadList:
    fileUrl = getAbsoluteURL(baseUrl, download["src"])
    if fileUrl is not None:
        print(fileUrl)

urlretrieve(fileUrl, getDownloadPath(baseUrl, fileUrl, downloadDirectory))

代碼來自《python：網絡爬蟲與信息採取》，感覺有用的話就收藏吧

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

python網絡爬蟲與信息採取之解析網頁（三）---- BeautifulSoup庫的導航樹實例

上篇我們講到了通過標籤的名稱和屬性來查找標籤的findAll（),本篇將講解如何通過標籤在文檔中的位置進行查找------導航樹一篇文章，可以將其標籤分爲子標籤，父標籤和兄弟標籤。而導航樹的功能就是先在文檔中找到一個位置，根據網頁源代碼

2020-06-30 08:18:23

python資源下載與各種庫的安裝

俗話說的好，“磨刀不誤砍柴工”。要想學好網絡爬蟲，一個良好的環境配置是離不開的。下面，我將介紹一下python的安裝以及後面將用到的各種庫的安裝一.python的下載與安裝 python分爲2.x版本和3.x版本，基本上差不多，只是有一

2020-06-30 08:18:23

python 網絡爬蟲與信息採取之異常處理

本篇文章轉自Ryan Mitchell 寫的python：網絡數據採集網絡是十分複雜的。網頁數據格式不友好，網站服務器宕機，目標數據的標籤找不到，都是很麻煩的事情。網絡數據採集最痛苦的遭遇之一，就是爬蟲運行的時候你洗洗睡了，夢

2020-06-30 08:18:22

安裝beautifulsoup庫時遇到 ImportError: No module named bs4 錯誤的解決方法

2020-02-26 05:41:38

python網絡爬蟲與信息採取之解析網頁實例---oJ期末成績排名

2020-02-26 05:41:38

python網絡爬蟲與信息採取之解析網頁（二）---BeautifulSoup庫的find()和find_all()

2020-02-26 05:41:38

python爬蟲時 AttributeError: 'NoneType' object has no attribute 'children'錯誤提示

2020-02-26 05:41:37

python 3.6.0 scrapy框架安裝方法及疑難解決

2020-02-26 05:41:37

python網絡爬蟲與信息採取之解析網頁（三）---- BeautifulSoup庫的導航樹實例

上篇我們講到了通過標籤的名稱和屬性來查找標籤的findAll（),本篇將講解如何通過標籤在文檔中的位置進行查找------導航樹一篇文章，可以將其標籤分爲子標籤，父標籤和兄弟標籤。而導航樹的功能就是先在文檔中找到一個位置，根據網頁源代碼

2020-06-30 08:18:23

python資源下載與各種庫的安裝

俗話說的好，“磨刀不誤砍柴工”。要想學好網絡爬蟲，一個良好的環境配置是離不開的。下面，我將介紹一下python的安裝以及後面將用到的各種庫的安裝一.python的下載與安裝 python分爲2.x版本和3.x版本，基本上差不多，只是有一

2020-06-30 08:18:23

python 網絡爬蟲與信息採取之異常處理

本篇文章轉自Ryan Mitchell 寫的python：網絡數據採集網絡是十分複雜的。網頁數據格式不友好，網站服務器宕機，目標數據的標籤找不到，都是很麻煩的事情。網絡數據採集最痛苦的遭遇之一，就是爬蟲運行的時候你洗洗睡了，夢

2020-06-30 08:18:22

安裝beautifulsoup庫時遇到 ImportError: No module named bs4 錯誤的解決方法

2020-02-26 05:41:38

python網絡爬蟲與信息採取之解析網頁實例---oJ期末成績排名

2020-02-26 05:41:38

python網絡爬蟲與信息採取之解析網頁（二）---BeautifulSoup庫的find()和find_all()

2020-02-26 05:41:38

python 3.6.0 scrapy框架安裝方法及疑難解決

2020-02-26 05:41:37

24小時熱門文章

最新文章

最新評論文章