python爬虫网站接口的使用
- 网站任何输入的对话框,都对应着相关的接口
- 找到接口对应的关键字,就可以使用爬虫输入关键字进行操作了
通过ip38网站实现爬虫查询ip归属地
- 登陆相关的网址,随便查询一个项目,通过网址变化,获取对应接口的关键字
- 如上图,就是获取相关的ip38网站的查询ip归属地的接口关键字
- 将关键字包含关键字的网址全部复制,作为url来使用
代码如下
def getIPpalce(value):
url = "https://www.ip38.com/ip.php?ip="
r = requests.get(url,params=value)
r.raise_for_status()
return r.text[1500:]
通过爬虫实现输入字搜索
- 自己打开对应的网站,随便输入关键词,从返回的网址就可直接看出
- 如搜狗的,就是query :关键字
- 百度的,就是 wd:关键字
- bling的,就是q :关键字
在request库中的get函数中的url参数中,根据搜索引擎的关键字接口,添加关键字
- 调用requests库的get函数
- requests.get(url,params = None,**kwargs)
- url:拟获取的页面的url连接
- params:url中的额外的参数,将字典或者是字节流的格式,按照对应的方式加到url后部
- kwargs控制访问参数
代码:
kv = {'wd':'关键字'}
r = requests.get("https://www.baidu.com/",params=kv)
print(r.status_code)
- 注意会将中文转换成别的字符码,不会直接显示中文
分析与总结
- 任何的网站上要求输入的对话框,都会反映在网址变化中。在网址上,早多对应的接口关键字,就可以在网址中直接输入对应的关键字
- 如,百度要求你输入关键字搜索的时候,在网址上的变化是出现wd + 关键字
- 再如:上面举的关于确定ip地址的例子,在网址上加上对应的搜索关键字。