python爬虫js加密篇—搜狗微信公号文章的爬取

今天这篇文章主要介绍的是关于微信公众号文章的爬取,其中里面主要涉及的反爬机制就是 js加密与cookies的设置


微信公众号的上一个版本中的反爬机制中并没有涉及到js加密,仅通过监控用户ip,单个ip访问太频繁会面临被封的风险;在新的版本中加入了js加密反爬机制,接下来我们来逐步分析一下文章爬取过程

打开搜狗页面搜狗微信页面,在输入框中输入任意关键词例如火车隧道起火,搜出来的都是涉及关键词的公号文章列表

image


这里按照平常套路,直接利用开发者工具的选择工具,查看源码中列表中每篇文章的url,就是下面这个 href属性 标签,
image

看到这个url,按照正常思路的话,就是直接做url拼接:搜狗主域名 + href 就是微信主要内容的url,形式如下

https://weixin.sogou.com/link?url=dn9a_-gY295K0Rci_xozVXfdMkSQTLW6cwJThYulHEtVjXrGTiVgS_yBZajb90fWf-LwgFP7QmnFtbELADqFzFqXa8Fplpd9nrYbnf-BG6fJQmhdTDKRUQC_zVYwjAHQRnKwtfQUOD-aNBz2bhtCuShQywQb837B12cBkYFsYkKXir7Y9WqlRBcZIrhUAYmFlBSVIg7YGFbBdu4rXklGlRslEFpw0lTmIX8pHfpQ9x6clCHaA92qoA9YOaIV2yOyrE-focNFXq7wdVqCwyPdzA..&type=2&query=%E7%81%AB%E8%BD%A6%E9%9A%A7%E9%81%93%E8%B5%B7%E7%81%AB

但是直接点这个链接返回的是402页面,需要输入验证码进行验证,而且验证码通过后依然进不去;很明显这个url并不是文章的访问入口


image

经过测试,这篇文章的真实url是下面这种形式(直接通过点击页面标签打开即可):

https://mp.weixin.qq.com/s?src=11&timestamp=1567073292&ver=1820&signature=z2h7E*HznopGFidmtUA4PmXgi3ioRqV7XiYIqn9asMT3RCMKss6Y2nPUh7RG63nrwmRii77cL9LyDNJIVp1qpo5LHvQ8s754Q9HtCgbp5EPUP9HjosY7HWDwze6A2Qi7&new=1

是不是很很意外;这里开始就需要转变思路:不管怎样最好先抓一下包,这里我利用的工具是Fidder,关于Fidder如何使用,可以参照这篇文章:Fidder工具的使用!

先从搜索页面的文章列表中进入文章的详情页,我们需要通过Fidder来监控一下文章的跳转情况:

image


看到没,惊奇地发现有个 /link?url 开头的url跳转成功了,深入一下,我们再看一下这个链接返回的是什么,点一下response部分的TextView;

在这里插入图片描述
返回的text文本是一串字符串组成的,即使不懂javascript,但里面大概意思就是构造一个url,格式与前面那个真实的url有一些相似呢,经测试之后发现,返回的这个url就是获取文章内容的真实url

把这个访问成功的并且以link?url开头的url完整复制下来,与源码中的那个 link?url 放在一起,发现这个访问成功的url中多了两个参数一个是k一个是h

# 访问成功的:https://weixin.sogou.com/link?url=dn9a_-gY295K0Rci_xozVXfdMkSQTLW6cwJThYulHEtVjXrGTiVgS_yBZajb90fWf-LwgFP7QmnFtbELADqFzFqXa8Fplpd9nrYbnf-BG6fJQmhdTDKRUQC_zVYwjAHQRnKwtfQUOD-aNBz2bhtCuShQywQb837B12cBkYFsYkKXir7Y9WqlRBcZIrhUAYmFlBSVIg7YGFbBdu4rXklGlRslEFpw0lTmIX8pHfpQ9x6clCHaA92qoA9YOaIV2yOyrE-focNFXq7wdVqCwyPdzA..&type=2&query=%E7%81%AB%E8%BD%A6%E9%9A%A7%E9%81%93%E8%B5%B7%E7%81%AB&k=80&h=f 
# 访问失败的:https://weixin.sogou.com/link?url=dn9a_-gY295K0Rci_xozVXfdMkSQTLW6cwJThYulHEtVjXrGTiVgS_yBZajb90fWf-LwgFP7QmnFtbELADqFzFqXa8Fplpd9nrYbnf-BG6fJQmhdTDKRUQC_zVYwjAHQRnKwtfQUOD-aNBz2bhtCuShQywQb837B12cBkYFsYkKXir7Y9WqlRBcZIrhUAYmFlBSVIg7YGFbBdu4rXklGlRslEFpw0lTmIX8pHfpQ9x6clCHaA92qoA9YOaIV2yOyrE-focNFXq7wdVqCwyPdzA..&type=2&query=%E7%81%AB%E8%BD%A6%E9%9A%A7%E9%81%93%E8%B5%B7%E7%81%AB

现在基本爬取核心思路已经知道了,主要就是破解这两个参数k和h,拼接成’真’的url( 以/cl.gif开头的 ),然后获取真url;

关于这两个参数的破解就是涉及到了js加密,需要进行调试,不懂的可以参考这篇文章:Chrome DevTools 中调试 JavaScript 入门;

第一步,回到源码中 link?url 位置的地方,因为后面两个参数的增加是由于我们触发了这个假的url,所以这里需要对假的url进行监听:
开发者工具[Elements] -> 右上角处的[Event Listeners] -> [click] -> 你需要监控的元素标签

image

第二步,按流程浏览完上面所有过程时下面会有个js文件,点进去,并对js代码进行格式化,发现参数k与h的构造方法:


image


其实还有一种参数定位的方法,在Google开发者选项中利用全局搜索**[Search]就能快速定位,但是并不适用于这里,因为这里我们定位的参数都是单个元素,定位的准确度特别低

定位之后,参数
kh**的定义非常清楚,没有过多函数嵌套,就是在一个简单的函数中,一个是生成一个随机数字,另一个在这个href标签的链接中获取其中的某一个字符,这里我们可以直python把这个功能实现:

 url_list11  = pq(res.text)('.news-list li').items()
    for i in url_list11:
        url_list12 = pq(i('.img-box a').attr('href'))
        url_list12 =str(url_list12).replace('<p>','').replace('</p>','').replace('amp;','')
        print(url_list12)
        b = int(random.random() * 100) + 1
        a = url_list12.find("url=")
        result_link = url_list12 + "&k=" + str(b) + "&h=" + url_list12[a + 4 + 21 + b: a + 4 + 21 + b + 1]
        a_url ="https://weixin.sogou.com" +result_link

好了,‘真’url也能够构造成功了,通过访问‘真’url来获取 真url(访问时记得加上headers),然后再获取我们需要的信息;然而结果却是下面这样的:


image


经测试发现,原因是由于Cookie中最为核心的两个参数SUV和SUNID,而这两个参数在不断地发生改变

其中SUNID有固定得访问次数/时间限制,超过了限制直接变为无效,并且当访问网页请求失败后,SUNID与SUV需要更换才能再次正常访问;

SUV参数是在 ‘真’url 过度到 真url 中某个网页中Response里的Set-Cookie中生成的,也就是下面这个网页:

image

需要我们请求这个链接,通过这个链接返回的Cookie,我们拿到这个Cookie放入请求头里面,再访问拼接好的 ** ‘真’ url**

最后就能获取到真url最后请求这个链接,解析出我们想要的数据( 注意用请求头的时候最好不要加Cookies,否则会导致访问失败 )
当解决以上所有问题了,这里再测试一下,已经能够成功地拿到我们想要的数据:


image
上面是部分板块代码,想要获取全部源码,关注微信公众号:Z先生点记 ;后台回复关键词: 搜狗 即可。

def get_suva(sunid):
    '''
    根据sunid来获取suv参数;并添加到cookie众
    :param a: sunid
    :return: 
    '''
    b_data['snuid'] = sunid.split('=')[-1]
    b_data['uuid'] = uuid.uuid1()
    b_data['uigs_t'] = str(int(round(time.time() * 1000)))
    url_link = 'https://pb.sogou.com/pv.gif?' + urlencode(b_data)
    res = requests.get(url_link)
    cookie_s = res.headers['Set-Cookie'].split(',')
    cookie_list_s = []
    for i in cookie_s:
        for j in i.split(','):
            if 'SUV' in j:
                cookie_list_s.append(j)
            else:
                continue
    print(cookie_list_s[0].split(';')[0])
    headers['Cookie'] = cookie_list_s[0].split(';')[0]
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章