Python提取sitemap.xml文章鏈接並推送百度

Python提取sitemap.xml文章鏈接並推送百度

#coding=utf-8
import urllib
import urllib.request 
import re
import requests

header_baidu = {
'User-Agent': 'curl/7.12.1',
'Host':'data.zz.baidu.com',
'Content-Type': 'text/plain',
'Content-Length': '83'
}
url='https://hubaoquan.cn/sitemap.xml'
html=urllib.request.urlopen(url).read()
html=html.decode('utf-8')
# 根據你的文章鏈接格式寫正則匹配,可能與我的不一樣
r=re.compile(r'https://hubaoquan.cn/\S*?\/')
big=re.findall(r,html)
# token要寫你自己的
urlPost='http://data.zz.baidu.com/urls?site=https://hubaoquan.cn&token=nXV1hubaoquanPiFZ'
for i in big:
    print(i)
    # 推送百度
    responsePost = requests.post(urlPost,data=i,headers=header_baidu)
    print(responsePost.text)
    op_xml_txt=open('xml.txt','a')
    op_xml_txt.write('%s\n'%i)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章