基于python的-反反爬虫手段

原創

2020-07-06 04:33

# -*- coding:utf-8 -*-
import requests

# 抓包工具
# charles
# fiddler

# 参数1: url,填网址
# 参数2: params,网址后需要添加的参数
# 参数3: **kwargs,不定长键值对参数,一般key=value
# 在参数3中,headers={},
#          cookies={} 或者cookieJar
#          timeout=小数或者元祖
response = requests.get("http://www.baidu.com", headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0"})
print("响应头",response.headers)
print("响应数据",response.content)
print("响应行中的状态码",response.status_code)
print("响应行中的短语",response.reason)

# 反爬虫的手段之一:
# 通过请求的User-Agent字段来判断你是不是一个爬虫

# 反反爬虫的手段之一:
# 通过修改请求头的User-Agent字段来突破反爬虫的手段


"""
              爬虫程序                             服务器
编写爬虫代码,发起请求,接收响应,爬取数据------------>监控到某个时间段,访问量突然增大,冰球发起请求的ip地址相同,对User-Agent字段判断
在发起请求时,添加User-Agent字段,模仿用户代理------->检测到某个ip访问速率过高,限制访问频率
在发请求时,使用代理ip,设置请求时间间隔------------->需要登录后才能获取数据
注册网站账号,模拟cookie/token登录,发起请求--------->健全账号体系,只有相互关注的好友才能访问
注册多个账户,进行爬虫----------------------------->发现请求过于频繁,弹出验证码
使用云打码平台进行验证----------------------------->增加动态页面,比较重要的数据,使用Js发起请求动态加载
1.抓取Js骑牛,模拟发送
2.selenium完全模拟用户行为,操作网页----------------> 放弃
    
"""

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

多线程和多进程 - 初窥

一、說明在平常工作中，我們使用top命令查看一臺linux服務器的cpu使用情況時，會發現某個進程的cpu使用率會超過100%，這是爲什麼？二、舉例實驗環境爲 CentOS7.6 + Python2.7 1. 多線程、多進程在操作系統

小豹子加油

2024-05-20 14:36:10

Xming - xmanager的替代方案

一、概述安裝某些數據庫的時候使用圖像化還是比較方便的，但是由於服務器一般不提供圖形化界面。之前一直都是使用Xmanager去導出圖形，但是Xmanager是收費的，公司不讓用，所以找了一款可以完美替代的產品Xming，本文將介紹xming

小豹子加油

2024-05-20 14:36:10

Mysql - 数据库时区是客户端属性还是服务端属性

一、說明同事問我數據庫的時區是客戶端屬性還是服務端屬性，我覺得這個問題十分有意思，之前沒怎麼留意，自己來做下實驗。首先介紹幾個術語。 GMT（Greenwich Mean Time），格林尼治平均時間。 UTC（Coordinated

小豹子加油

2024-05-20 14:36:10

sql求连续值问题

一. 找出表test1中tflag字段連續出現3次及以上爲1的行思路：1. 對行進行編號，2. 對相鄰三行進行求和算出值作爲sumflag，3. 如果值爲3，則該行以及接下來的2行都輸出出來，通過自關聯解決。 WITH tmp AS (

小豹子加油

2024-05-20 14:36:10

SQL优化-20231016

數據結構數據庫的表和索引缺一不可表特點：無序，插入速度快，查找速度慢索引（B+Tree）特點：有序，插入速度慢，查找速度快查找的效率比較，如果按照讀取的數據塊來計算？測試數據 TABLE_OWNER TABLE

小豹子加油

2024-05-20 14:36:10

两台数据库在数据写入时性能的差异

介紹：我有兩臺數據庫，分別稱爲200和203，200和203的服務器性能配置相當，203的配置甚至還要好一點。都是安裝的centos7.7，oracle 19C，均已開日誌歸檔，這兩臺服務器在同一個機房，同一個網段。當我在本地使用JDBC去

小豹子加油

2024-05-20 14:36:10

Linux安装MySQL配置教程

1.使用系統的root賬戶 2.切換到 /use/local 目錄下 3.下載mysql 根據自己需要安裝的版本下載。 wget https://dev.mysql.com/get/Downloads/MySQL-8.0/mysq

2024-05-20 14:34:20

salesforce零基础学习（一百三十七）零碎知识点小总结（九）

本篇參考： https://help.salesforce.com/s/articleView?id=release-notes.rn_lab_conditional_visibiliy_tab.htm&release=250&type=

2024-05-20 14:34:10

sql server sp_executesql 中使用表变量进行查询

示例demo： DECLARE @table IdTableType INSERT INTO @table SELECT Id FROM dbo.t_pl_test DECLARE @SearchSQL NVARCHAR(MAX) SE

2024-05-20 14:32:10

Flink精确消费一次

在大數據計算裏面，計算引擎是處於承上啓下的作用，對上承接數據源，對下承接各種各種數據庫，比如mysql、oracle。對於任何數據計算來說要想精確消費一次，就需要支持事務或者冪等，我們最常見的支持事務的就是單點的oracle、mysql數

人不瘋狂枉一生

2024-05-20 14:27:59

5款.NET开源、免费、功能强大的图表库

LiveCharts2 LiveCharts2是一個.NET開源（MIT License）、簡單、靈活、交互式且功能強大的.NET圖表、地圖和儀表，現在幾乎可以在任何地方運行如：Maui、Uno Platform、Blazor-wasm、W

2024-05-20 14:26:59

终于搞懂了！原来 Vue 3 的 generate 是这样生成 render 函数的

前言在之前的面試官：來說說vue3是怎麼處理內置的v-for、v-model等指令？文章中講了transform階段處理完v-for、v-model等指令後，會生成一棵javascript AST抽象語法樹。這篇文章我們來接着講gen

你假裝沒察覺

2024-05-20 14:26:19

Markdown基础语法2024测试

標題一標題二標題三標題四標題五標題六 hr 加粗字體 b 斜體字體 i 引用內容 code 超鏈接 a blockquote ol > li 有序列表 ul > li 無須列表 pre 代碼塊 p 表格標

2024-05-20 14:26:09

ue5生成vs工程报错-msvc版本太旧

ue生成VS工程報錯右鍵 - uproject ，Generating VisualStudio project files ，報錯信息如下：就是我安裝的msvc版本太舊 Running C:/Program Files/Epic Ga

2024-05-20 14:25:39

vscode 清理远程服务器内存

因網絡中斷或其他原因，有時候服務器上留下較多無用的vscode-server進程，佔用內存資源可以採用如下命令kill進程 ps uxa | grep .vscode-server | awk '{print $2}' | xargs k

張博的博客

2024-05-20 14:24:58

24小時熱門文章

SQL优化-20231016

最新文章

最新評論文章