9行代碼實現python爬蟲入門

"""
通用爬蟲:靜態
聚焦爬蟲:靜態
增量式爬蟲:實時爬取網站的最新數據。

Http協議:應用層協議
user-Agent 請求載體的信息
connection 請求完畢後,是斷開還是保持連接
Content-type 服務器響應給客戶端的數據類型

Https協議
安全的http協議。數據加密。
對稱密鑰
非對稱密鑰
證書密鑰 :https採用的

URLlib模塊,request模塊是前者的高級版
作用:模擬瀏覽器發請求
1 指定URL
2 發起請求
3 獲取響應數據
4 持久化存儲
"""

import requests
if __name__=="__main__":
    #1 指定URL
    url = 'https://blog.csdn.net/LVGAOYANH'
    #發起請求
    response =  requests.get(url=url)
    #獲取響應數據
    page_text = response.text
    print(page_text)
    #持久化存儲
    with open("h:\\test.txt",'w',encoding='utf-8')as fp:
        fp.write(page_text)
    print("爬取數據完畢")











 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章