Python抓取搜索引擎联想词

原創

2018-09-02 01:24

众所周知Python可以用来写爬虫抓取数据。而这个例子是我学习写的第一个简单的爬虫--抓取360搜索引擎搜索时的联想词集合。我们在使用搜索引擎搜索东西时，当我们输入一个词之后搜索框下方会出现一系列联想词如图所示。

我们想利用Python代码把这些联想词抓取出来，首先我们在火狐浏览器中，查看该页面的原始html文档，在搜索引擎中输入要查询的关键词如：NBA，我们可以看到Request URL中有一个我们要请求的url：https://sug.so.360.cn/suggest?callback=suggest_so&encodein=utf-8&encodeout=utf-8&format=json&fields=word,obdata&word=NBA。如图所示：

我们将这个URL输入到地址栏中网页返回了联想词的集合如图所示：

因此我们可以利用这个URL，通过替换地址最后“word=”后面的关键词来进行联想词的抓取工作。根据这个思路我们可以来实现我们的Python代码。

#coding utf-8
import urllib2
import urllib
import re
import time
from random import choice
#代理ip地址list
iplist=['1.9.189.65:3128','27.24.158.130.80','27.24.158.154:80']
#要抓取的搜索关键字list
keywords=["NBA","CBA"]
for item in keywords:
	#随机选择代理ip地址
	ip=choice(iplist)
	word=urllib.quote(item)
	url="https://sug.so.360.cn/suggest?callback=suggest_so&encodein=utf-8&encodeout=utf-

8&format=json&fields=word,obdata&word="+word
	headers={
			"GET":url,
			"Host":"sug.so.360.cn",
			"Referer":"https://www.so.com/",
			"User_Agent":" Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:37.0) 

Gecko/20100101 Firefox/37.0"
		}
	#使用随机代理ip地址访问URL
	proxy_support=urllib2.ProxyHandler({'http':'http://'+ip})
	opener=urllib2.build_opener(proxy_support)
	urllib2.install_opener(opener)
	req=urllib2.Request(url)
	for key in headers:
		req.add_header(key,headers[key])
	html=urllib2.urlopen(req).read()
	#提取返回数据
	result=re.findall("\"(.*?)\"",html)
	#去掉集合中的一些无用数据
	r=('query','word','version','result','3.2.1','rec')
	for item in result:
		if item not in r:
			print item
	#抓取一次后休息3秒
	time.sleep(3)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python抓取搜索引擎联想词

如何使用 JS 判断用户是否处于活跃状态

lightdb秒级增加列和删除列（not null带默认值）

lightdb数据库超时相关控制参数

通过HPA+CronHPA组合应对业务复杂弹性伸缩场景

❤️‍🔥 Solon Cloud Event 新的事务特性与应用

lightdb mysql 8.0兼容之不可见主键

使用 JS 实现在浏览器控制台打印图片 console.image()

基于Ubuntu-22.04安装K8s-v1.28.2实验（四）使用域名访问网站应用

面試總結2--美團測試面試

面試總結1--CVTE面試總結

面試總結3--STL問題

Python 模塊導入時名稱衝突引起的錯誤

Linux下重新安裝MySql後出現'MySQL Daemon failed to start‘解決方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結