Python的一個僞爬蟲，獲取圖片鏈接後，用於下載網頁圖片

原創

2020-06-29 01:05

import time
import requests
import os

int_path = r"F:\image\dcm"
for root, dirs, files in os.walk(int_path):
    for filename in files:  # 遍歷所有文件
        txt_path = os.path.join(root, filename)
        print(txt_path)
        dcm_name = filename.split(".txt")[0]

        fopen = open(txt_path, 'r')
        lines = str(fopen.readlines())

        all = lines.split(".dcm")
        n=0
        for e in all:
            n+=1
            url = e.split("https")[-1]
            new_url = "https" + url + ".dcm"

            file_name = url.split("/")[-1]+".dcm"
            print(new_url)
            print(file_name)
            if os.path.exists(os.path.join(os.path.join("./test", dcm_name), file_name)):
                print("已存在")
                pass
            else:
                try:
                    res = requests.get(new_url)
                    with open(os.path.join(os.path.join("./test", dcm_name), file_name), 'wb') as f:
                        f.write(res.content)
                    #urlretrieve(new_url, file_name)
                    time.sleep(1)
                except:
                    print("產生異常")

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python的一個僞爬蟲，獲取圖片鏈接後，用於下載網頁圖片

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

python混淆矩陣（confusion_matrix）FP、FN、TP、TN、ROC，精確率(Precision),召回率(Recall),準確率(Accuracy)詳述與實現

Sublime Text--超級好用的代碼和文件編輯器，什麼文本文件都可以打開哦

python os文件夾/文件的那些實用操作

目標檢測中Bounding Box的詳細解讀與XML文件解析

PyTorch、TorchVision、PyQt4/5、OpenCV下載安裝，Windows遠程桌面Ubuntu16.04記錄(實操)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結