Python 爬虫学习笔记(1) 爬虫原理及基础知识

原創

2020-06-10 18:28

目录

爬虫原理

爬虫是机器模仿用户操作，并批量获取数据。通常是抓取网页数据。

基础知识

http

HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接。由于这一特性，http很难保存用户信息，比如，用户前面访问的页面，以及用户登录的信息，为了更方便客户端与服务器数据的交互，引入了cookie或者session，去维系客户端与服务器之间的状态同步，cookie存在客户端的硬盘中，session则以sessionID存客户端的硬盘中，session中的数据存在服务器中，cookie的存储容量为4kb，session不限。

HTTP遵循请求(Request)/应答(Response)模型。Web浏览器向Web服务器发送请求，Web服务器处理请求并返回适当的应答。

http请求方式

http请求属于应用层，在http请求之前，要进行TCP连接，即三次握手。客户端和服务器要确保双方都有接受和发送数据的能力，在三次握手的过程中，客服端和服务器相互之前发送的报文都是不带数据的，带数据的报文只能是在建立连接之后的。

HTTP1.0定义了三种请求方法： GET, POST 和 HEAD方法。
HTTP1.1新增了五种请求方法：OPTIONS, PUT, DELETE, TRACE 和 CONNECT 方法。

以下是这八种方法的简介：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

安装笔记本应用商店的pycharm，再安排pandas等模块，说是没有打包工具?

大家好，我是Python進階者。一、前言前幾天在Python最強王者交流羣【斌】問了一個Python庫安裝的問題。求教大佬：華爲筆記本，麒麟系統，安裝筆記本應用商店的pycharm，再安排pandas等模塊，說是沒有打包工具，再安裝

2024-05-25 10:02:28

从入门到精通：掌握Scrapy框架的关键技巧

在當今信息爆炸的時代，獲取並利用網絡數據成爲了許多行業的核心競爭力之一。而作爲一名數據分析師、網絡研究者或者是信息工作者，要想獲取網絡上的大量數據，離不開網絡爬蟲工具的幫助。而Scrapy框架作爲Python語言中最爲強大的網絡爬蟲框架之

2024-05-25 00:09:06

面向AI的开发：从大模型（LLM）、检索增强生成（RAG）到智能体（Agent）的应用

引言隨着人工智能技術的飛速發展，大型語言模型（LLM）、檢索增強生成（RAG）和智能體（Agent）已經成爲推動該領域進步的關鍵技術，這些技術不僅改變了我們與機器的交互方式，而且爲各種應用和服務的開發提供了前所未有的可能性。正確理解這三者

2024-05-24 23:57:39

对话阿里云云原生产品负责人李国强：推进可观测产品与OpenTelemetry开源生态全面融合

5 月 22 日，在最新一期的飛天發佈時刻上，阿里雲宣佈多款可觀測產品全面升級，其中一項是應用實時監控服務 ARMS 在業內率先推進了與 OpenTelemetry 開源生態的全面融合，極大豐富了可觀測的數據類型及規模，大幅增強了 ARMS

2024-05-24 21:13:50

昔日辉煌不再，PHP老矣，尚能饭否？

導語 | 近期 TIOBE 最新指數顯示，PHP 的流行度降至了歷史最低，排在第 17 名，同時，在年度 Stack Overflow 開發者調查報告中，PHP 在開發者中的受歡迎程度已經從之前的約 30% 萎縮至現在的 18%。“P

2024-05-23 23:48:42

一文教你基于LangChain和ChatGLM3搭建本地知识库问答

本文分享自華爲雲社區《【雲駐共創】LangChain＋ChatGLM3實現本地知識庫，轉華爲雲ModelArts，實現大模型AI應用開發》，作者：葉一一。一、前言本期華爲雲的講師是華爲雲EI開發生態的工程師傑森，分享主題是：基於La

2024-05-23 10:58:28

Python实现大麦网抢票的四大关键技术点解析

前言隨着互聯網的普及和發展，線上購票已經成爲人們生活中不可或缺的一部分。然而，在搶購熱門演出門票時，往往會遇到搶票難、搶票快的問題，有時候一秒鐘的延遲就意味着與心儀的演出擦肩而過。爲了解決這個問題，技術愛好者們開始探索利用Python

2024-05-23 00:18:04

用python开发一个类似的交互查询系统.用什么库方便？

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【fashjon】問了一個Python庫的問題，問題如下：用python開發一個類似的交互查詢系統.用什麼庫方便？二、實現過程這裏【啥也不懂】給了一個指導：PY

2024-05-22 10:02:33

Selenium与PhantomJS：自动化测试与网页爬虫的完美结合

在當今互聯網時代，自動化測試和網頁爬蟲技術成爲了不可或缺的工具，它們不僅提高了開發效率，也爲數據採集和分析提供了便利。而Selenium與PhantomJS的結合，則爲這兩個領域的應用帶來了全新的可能性。本文將介紹Selenium與Pha

2024-05-22 00:09:17

用好AppBuilder-SDK，每天都能偷偷早下班

本文主要是對這次AppBuilder-SDK直播課程的文字總結，主題是如何在Python中使用AppBuilder-SDK（使用的IDE 爲 PyCharm社區版）感興趣的朋友也可以去看直播課回放。直播課： AppBuil

2024-05-21 12:12:15

Shell/Python中的用户名获取

一、幾個基本概念登錄用戶（login user）：通過登錄方式進入系統的用戶，強調登錄身份。當前用戶（current user）：執行一個進程或者命令時所使用的用戶身份，強調執行身份。舉

2024-05-19 00:44:35

网络爬虫的秘密：如何高效地抓取JD.com视频链接

在這個數據驅動的時代，信息就是力量。而在這片信息的海洋中，爬蟲技術就像是一艘靈活的潛水艇，讓我們能夠深入海底，探尋那些隱藏的寶藏。今天，我將帶領大家一起踏上一場奇妙的探險之旅，我們將使用Python這把瑞士軍刀，搭配RoboBrowser

2024-05-18 00:07:59

记一次有点抽象的渗透经历

0x01 獲取webshell 在各種信息蒐集中，發現某個ip的端口掛着一個比較老的服務。首先看到了員工工號和手機號的雙重驗證，也不知道賬號是什麼結構組成的，基本上放棄字典爆破這一條路。於是乎打開之前用燈塔的掃描結果，看看文件泄露是否

2024-05-17 23:16:30

地理数据可视化的神奇组合：Python和Geopandas

本文分享自華爲雲社區《Python與Geopandas：地理數據可視化與分析指南》，作者：檸檬味擁抱。地理數據可視化在許多領域都是至關重要的，無論是研究地理空間分佈、城市規劃、環境保護還是商業決策。Python語言以其強大的數據處理和可視

2024-05-15 10:59:41

Scrapy爬虫：利用代理服务器爬取热门网站数据

在當今數字化時代，互聯網上充斥着大量寶貴的數據資源，而爬蟲技術作爲一種高效獲取網絡數據的方式，受到了廣泛的關注和應用。本文將介紹如何使用Scrapy爬蟲框架，結合代理服務器，實現對熱門網站數據的高效爬取，以抖音爲案例進行說明。 1. 簡

2024-05-15 00:08:57

24小時熱門文章

最新文章

最新評論文章