python3 bs4 requests 騰訊新聞 標題 鏈接獲取 小試牛刀

import requests
from bs4 import BeautifulSoup

url =["http://ent.qq.com/","http://ent.qq.com/",
"http://finance.qq.com/","http://stock.qq.com/hk/",
"http://tech.qq.com/","http://fashion.qq.com/",
"http://mil.qq.com/mil_index.htm",]

for i in url:
wbdata = requests.get(i).text#獲取文本方式的響應體實例,會使用其響應的文本編碼進行解碼

print (wbdata)

soup = BeautifulSoup(wbdata,'lxml')
#通過select選擇器定位指定的元素,返回一個列表
news_titles = soup.select("div.text > em.f14 > a.linkto")
# print (news_titles)
#對返回的列表進行遍歷
for n in news_titles:
#提取出標題和鏈接信息
    title = n.get_text()
    link = n.get("href")
    data = {
    '標題':title,
    '鏈接':link
    }
    print (data['標題'],data['鏈接'])#打印抓取了哪些些內容
    f = open('1.txt', 'a')#追加寫入
    print (data['標題'],data['鏈接'], file=f)
    # f.write(data['標題'])#寫入文件
    f.close()#寫入完成後,關閉文件
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章