9行代碼實現python爬蟲入門

原創

2020-03-02 07:22

"""
通用爬蟲：靜態
聚焦爬蟲：靜態
增量式爬蟲：實時爬取網站的最新數據。

Http協議：應用層協議
user-Agent 請求載體的信息
connection 請求完畢後，是斷開還是保持連接
Content-type 服務器響應給客戶端的數據類型

Https協議
安全的http協議。數據加密。
對稱密鑰
非對稱密鑰
證書密鑰 ：https採用的

URLlib模塊，request模塊是前者的高級版
作用：模擬瀏覽器發請求
1 指定URL
2 發起請求
3 獲取響應數據
4 持久化存儲
"""

import requests
if __name__=="__main__":
    #1 指定URL
    url = 'https://blog.csdn.net/LVGAOYANH'
    #發起請求
    response =  requests.get(url=url)
    #獲取響應數據
    page_text = response.text
    print(page_text)
    #持久化存儲
    with open("h:\\test.txt",'w',encoding='utf-8')as fp:
        fp.write(page_text)
    print("爬取數據完畢")

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

輕便的python

python解釋型語言面嚮對象語言跨平臺語言簡單，使程序員集中精力於解決問題而不是語言本身。對比：Perl只適合小的程序，大的程序就要用python。配置環境Windows下：1 去官網下載合適的python版本下載2 傻瓜式安裝，並配

2020-06-19 19:59:18

bs4解析器——爬取三國演義目錄和內容

''' 爬取三國演義的目錄和內容 ''' import requests from bs4 import BeautifulSoup if __name__ == '__main__': headers = {

2020-06-19 19:59:08

這個python用法太優雅，一定要轉

python數文件行數最簡單的方法是使用enumerate方法，但是如果文件很大的話，這個方法就有點慢了，我們可以逐塊的讀取文件的內容，然後按塊來數塊內的\n數，從而確定行數。如下實現代碼： def blocks(file, si

2020-06-13 08:40:22

python爬取食藥監局企業信息

2020-03-03 09:51:26

python爬蟲，網頁採集器

2020-03-02 07:22:14

優雅的python

2020-02-20 19:19:17

Win下如何安裝numpy

2020-02-20 19:19:17

python 學習筆記

2020-02-20 19:19:17

輕便的python

python解釋型語言面嚮對象語言跨平臺語言簡單，使程序員集中精力於解決問題而不是語言本身。對比：Perl只適合小的程序，大的程序就要用python。配置環境Windows下：1 去官網下載合適的python版本下載2 傻瓜式安裝，並配

2020-06-19 19:59:18

bs4解析器——爬取三國演義目錄和內容

''' 爬取三國演義的目錄和內容 ''' import requests from bs4 import BeautifulSoup if __name__ == '__main__': headers = {

2020-06-19 19:59:08

這個python用法太優雅，一定要轉

python數文件行數最簡單的方法是使用enumerate方法，但是如果文件很大的話，這個方法就有點慢了，我們可以逐塊的讀取文件的內容，然後按塊來數塊內的\n數，從而確定行數。如下實現代碼： def blocks(file, si

2020-06-13 08:40:22

python爬取食藥監局企業信息

2020-03-03 09:51:26

python爬蟲，網頁採集器

2020-03-02 07:22:14

優雅的python

2020-02-20 19:19:17

Win下如何安裝numpy

2020-02-20 19:19:17

24小時熱門文章

最新文章

最新評論文章