爬虫学习_02文件命名

原創

2019-01-01 22:54

1. 采用爬取的网页进行domain命名

	#URL=‘ https://news.x.x.x/c/2018-12-31/doc-ihqfskcn2820495.shtml’
    filename = url[url.rfind('/')+1 :]  #从最右方 ‘/’ 开始查找

    start_pos  = url.find('//') + 2	#起始位置

    end_pos = url.find('/',start_pos)	#结束位置

    domain = url[start_pos:end_pos]

    filename = domain + '_' + filename  #文件名

2. 采用MD5进行命名

    suffix = url[url.rfind('.'):]
    #注意一定要对要编码的字符串encode进行转换否则会报错
    filename = hashlib.md5(url.encode('utf-8')).hexdigest() + suffix

不转码的错误信息

TypeError: Unicode-objects must be encoded before hashing

3. 完整代码

import requests
import hashlib

url = 'https://news.x.x.cn/c/2018-12-31/doc-ihqfskcn2820495.shtml'

response = requests.get(url)

response.encoding = 'utf-8'

naming_mode = input('Please enter the encoding method of your choice(domain or md5):')

if naming_mode == 'domain':

    filename = url[url.rfind('/')+1 :]  #从最右方 ‘/’ 开始查找

    start_pos  = url.find('//') + 2

    end_pos = url.find('/',start_pos)

    domain = url[start_pos:end_pos]

    filename = domain + '_' + filename  #文件名

else:
    suffix = url[url.rfind('.'):]
    #注意一定要对要编码的字符串encode进行转换
    filename = hashlib.md5(url.encode('utf-8')).hexdigest() + suffix

f = open(filename,'w+')

f.write(response.text)

f.close()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

爬虫学习_02文件命名

1. 采用爬取的网页进行domain命名

2. 采用MD5进行命名

不转码的错误信息

3. 完整代码

AI 画图真刺激，手把手教你如何用 ComfyUI 来画出刺激的图

公司刚入职了一名 Java 中级开发，短短 4 行代码居然凑齐了 3 个 bug！我哭了~~

公众号5月C#/.NET热文一览

git 下载大陆镜像地址

一篇文章帶你解決 SpringBoot 中 favicon 失效，不顯示問題

一篇文章帶你搞定 SpringBoot 加載 XML配置

一篇文章帶你搞定 SpringBoot 整合 AOP

一篇文章帶你搞定 SpringBoot 自定義歡迎頁和網頁圖標 favicon

一篇文章帶你搞定 SpringBoot 中的類型轉換器

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結