Python預備知識

原創

2018-12-12 17:41

Requests庫入門

Requests.requests()

requests.get()

requests.head()

requests.post()

requests.put()

requests.patch()

requests.delete()

作爲爬蟲工具，以上的get()和head()方法是最常用的

一定記住這個拋出異常代碼塊：

try:
    r=requests.get(url,timeout=30)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    return r.text
except:
    return "產生異常"

網絡爬蟲的尺寸：

爬取網頁，玩轉網頁（小規模，數據量小，爬取速度不敏感）。使用工具：Requests 庫（佔比：>90%）
爬取網站，爬起系列網站（中規模，數據規模較大，對速度敏感）。使用工具：Scrapy庫。
爬取全網（全Internet）（大規模，搜索引擎爬取速度關鍵）。使用工具：是定製開發的工具。

限制網絡爬蟲

來源審查：判斷User-Agent進行限制；檢查來訪HTTP協議頭的User-Agent域，只響應瀏覽器或友好爬蟲的訪問。
發佈公告：(通過robots協議發佈公告

robots協議的使用

user_agent

Disallow

網絡爬蟲盜亦有道：理論上，都應該遵守robots協議，不然會存在法律風險

但是當我們編寫爬蟲的訪問模式與人爲訪問網頁類似，並不作爲商業用途時，原則上不用遵守robots協議。

爬取網頁的代碼
import requests url = 'http://growthbox.net/growthhack/category/growthday/' try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_encoding print(r.text[:1000]) except: print('爬取失敗')

向百度或360提供關鍵詞並返回搜索結果

爬取網絡圖片，存儲圖片（用到文件的讀寫操作）

Ip地址歸屬地的查詢（判斷該ip地址來源於北京，上海，還是美國呢）

二、解析HTML頁面信息標記與提取方法

使用Beautiful soup庫

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

LLM2Vec介紹和將Llama 3轉換爲嵌入模型代碼示例

嵌入模型是大型語言模型檢索增強生成(RAG)的關鍵組成部分。它們對知識庫和用戶編寫的查詢進行編碼。使用與LLM相同領域的訓練或微調的嵌入模型可以顯著改進RAG系統。然而，尋找或訓練這樣的嵌入模型往往是一項困難的任務，因爲領域內的數據通常是

2024-05-05 13:04:45

開發Android應用程序，在Android10的系統上提示網絡出錯？

今天維護以前開發的一個Android客戶端程序，發版後，有用戶說自己手機安裝，無法登錄，首屏打開後（有網絡通過接口加載服務器數據並顯示的行爲），提示網絡出錯。但是我在我自己手上的PDA設備（Android 4.4）正常，然後又去找了一臺A

2024-05-05 13:02:54

HTML頁面關於高分屏的設置

記錄一個HTML頁面關於高分屏的踩到的坑。所謂高分屏，就是在同樣大小的屏幕面積上顯示更多的像素點，這樣可以呈現更好的可視效果的屏幕。例如，我的筆記本是15.6寸，理論上它的屏幕分辨率應該是1920 x 1080像素，但實際上我的筆記本屏幕

2024-05-04 14:31:10

DAPPER 事務 TRANSACTION

https://www.cnblogs.com/friend/p/16754184.html\ public async Task<int> Save(long moldProducedProductId, List<MoldStan

2024-05-04 14:29:20

[MDP.AspNetCore] 實作OAuth協定SSO Server/Client專案範例

團隊負責的系統變多的時候，使用SSO Server提供統一身分驗證，讓團隊只需要維護一份用戶資料及一個身分驗證服務。除了減少團隊維護成本之外，也讓使用者不用記憶多個站臺的帳號密碼，提供更好的使用者體驗。本篇文章，介紹使用MDP.AspNe

2024-05-04 14:23:49

Redis官方開源的可視化管理工具 - RedisInsight

前言今天大姚給大家推薦一款Redis官方開源的可視化管理工具：RedisInsight。 Redis介紹 Redis (Remote Dictionary Server) 是一個使用 C 語言編寫的，開源的 (遵守 BSD 協議) 高性

2024-05-04 14:21:49

Python 潮流週刊#49：谷歌裁員 Python 團隊，微軟開源 MS-DOS 4.0

本週刊由 Python貓出品，精心篩選國內外的 250+ 信息源，爲你挑選最值得分享的文章、教程、開源項目、軟件工具、播客和視頻、熱門話題等內容。願景：幫助所有讀者精進 Python 技術，並增長職業和副業的收入。本期週刊分享了 12

豌豆花下貓

2024-05-04 14:19:09

HarmonyOS 垂直方向內容滾動條實現

概述 Swiper組件是一個用戶界面元素，用於在垂直方向上滾動內容。它通過遍歷一個數據集合，爲每一項創建一個可滾動的文本項。代碼實現以下是Swiper組件的實現代碼： Swiper(){ ForEach(searchSwiper,

2024-05-04 14:05:08

基於SSM的倉庫進銷存系統畢業設計論文【範文】

摘要隨着信息技術的不斷髮展，企業對於倉儲管理的要求日益提高。爲了提升倉庫管理的自動化和智能化水平，本研究設計並實現了一個基於Spring、Spring MVC和MyBatis (SSM) 框架的在倉庫進銷存系統。該系統旨在爲企業提供一個高

2024-05-04 14:03:17

基於SSM的在線考試系統畢業設計論文【範文】

摘要隨着信息技術的飛速發展，網絡教學逐漸成爲教育行業的重要組成部分。在線考試系統作爲網絡教學平臺的關鍵模塊之一，其便捷性、高效性和公正性受到廣泛關注，基於SSM框架的在線考試系統旨在提供一個穩定、可靠並且易於維護的在線考試環境，以滿足現代

2024-05-04 14:03:17

CSS & JS Effect – 用 wheel 模擬 scroll

前言在用 JavaScript 實現 position sticky 文章中，我提到了用 wheel 來模擬 scroll 效果。這篇來說說具體怎麼實現，挺簡單的哦。 Preparation table.html <div c

2024-05-04 13:59:16

python包：torchsummary

利用torchsummary觀察每一層的情況 1）按照方式 pip install torchsummary 2）

2024-05-04 13:56:56

Windows使用WSL2及docker(Ubuntu22.04 LTS)

WSL2初始化 1.換源 #1 cp /etc/apt/sources.list /etc/apt/sources.list.bak #2 vim /etc/apt/sources.list # 清空原源並替換成以下源 # deb-src

臨冬城城主

2024-05-04 13:52:56

學習Mysql 你應該懂得

1、日誌系統：平時在設計系統時可以借鑑一下參考下面文章 https://www.cnblogs.com/ScarecrowAnBird/p/18163444 2、索引：提高性能利器 3、鎖：提高併發能力小絕招 https://ww

落葉已歸根

2024-05-04 13:45:25

mysql 鎖，和加鎖機制

背景間隙鎖是MySQL在RR可重複讀隔離級別下用來修復幻讀才引入的一種鎖，間隙鎖也只有在RR可重複讀隔離級別下才會存在，如果是在RC讀已提交隔離級別下，是沒有間隙鎖的存在的。另外，我們也知道，幻讀這種現象也只有在當前讀的時候纔會發生，在一致

落葉已歸根

2024-05-04 13:45:25

24小時熱門文章

DAPPER 事務 TRANSACTION

最新文章

最新評論文章