python爬虫-动态网站爬取

原創

slibra_L

2020-06-29 01:13

对于某些静态网站，只要requests.get(‘url')即可获得页面全部内容，如链家使用pg代表页面、rs代表关键字，https://sh.lianjia.com/ershoufang/pg2rs%E8%99%B9%E5%8F%A3/

但对于一些动态加载的网页，则不可以直接通过get url的方式获取到网页内容

一、Ajax

Ajax 即“Asynchronous Javascript And XML”（异步 JavaScript 和 XML），是指一种创建交互式、快速动态网页应用的网页开发技术，无需重新加载整个网页的情况下，能够更新部分网页的技术。

jax技术的核心是XMLHttpRequest对象(简称XHR)，这是由微软首先引入的一个特性，其他浏览器提供商后来都提供了相同的实现。XHR为向服务器发送请求和解析服务器响应提供了流畅的接口，能够以异步方式从服务器取得更多信息，意味着用户单击后，可以不必刷新页面也能取得新数据

二、查看网页实际信息

点击元素检查-network-XRH（火狐有时候会在JS里）

如，QQ音乐中查看歌名列表，

三、使用爬虫爬取信息

找到的真正的请求信息（请求网址、提交的表单）后，在scrapy中只要如下代码便可实现爬取，请求方式post或者get视网站情况而定

def start_requests(self):
        try:
            ses = requests.session()  # 获取session
            ses.get(url=self.url, headers=self.headers)
            cookie_start = ses.cookies  # 为此次获取的cookies
            cookie_start=requests.utils.dict_from_cookiejar(cookie_start)
            # print("page：{}    首页cookie获取suc...".format(self.pn))
        except:
            print("page：{}    首页cookie获取异常...".format(self.pn ))
        yield scrapy.FormRequest(url=self.url_start
                                 , formdata={'first': 'True', 'pn': str(self.pn), 'kd':self.kd}
                                 , method='Post'
                                 , headers=self.headers
                                 , cookies=cookie_start
                                 , encoding='utf-8'
                                 , dont_filter=True
                                 , meta={'pn': str(self.pn),'kd': self.kd}
                                 , callback=self.parse
                                 )

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python爬虫-动态网站爬取

C语言--右移左移

一个开源且全面的C#算法实战教程

12款高效开源Wiki系统推荐，打造团队知识管理利器

dotnet 基于 DirectML 控制台运行 Phi-3 模型

自定义MyBatis插件

常用的 Git 指令

sm4加密工具类

crontab調度git報錯fatal: could not read Username for url: Device not configured

python爬蟲-動態網站爬取

使用selenium進行網頁爬取

windows10安裝docker的若干坑--無法找到Hyper-V

windows10安裝docker的若干坑--Docker Desktop requires Windows 10 Pro/Enterprise (15063+)

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結