python爬蟲 - js+css逆向之猿人學第四題css偏移量

前言

不多說,繼續猿人學的

分析

打開網站:

 

 

然後可以看到,就是一堆圖片:

 

 

然後抓包到的接口如下,還是一如既往的就拿到了:

 

 

再看,請求接口裏沒有請求參數,請求頭裏也沒有奇奇怪怪的參數:

 

 

你以爲這麼簡單?看看返回結果:

 

 

不用說,info的值就是前端展示的字段了,然後字符串有點長,直接點那個【copy】吧:

 

 

放到本地看看,格式化以後如下:

 

 

複製其中一個img標籤看看裏面有啥:

<img
        src=\"\"
        class=\"img_number 9a870b2668709c7b49d3dceb3079e403\" style=\"left:34.5px\">

 

對前端有點了解的應該都知道這個img標籤是啥了,就不多說了,src裏的base64就是圖片了,然後style就是控制顯示樣式的,它這裏的只是控制了位置,然後class就有點和網頁展示的不一樣:

 

 

網頁源碼裏顯示的class類名只有個img_number,而返回的數據裏多了一串9a870b2668709c7b49d3dceb3079e403,這個是啥東西呢?看看接口的調用棧:

 

關鍵點

 

點進去,就看到如下的,

 

 

直譯的意思就是,把有些標籤設置了不展示,再看源碼,確實有不展示的

 

 

注意這一段:

var j_key = '.' + hex_md5(btoa(data.key + data.value).replace(/=/g, ''));
$(j_key).css('display', 'none');

 

看下這個j_key是啥:

 

 

提示沒有data變量,這裏的data就是接口返回的結果,而,data.key和data.value其實就是剛纔我們看到的:

 

 那行,定義了再看下:

 

 補充下

 

btoa和atob是window對象的兩個函數,其中btoa是binary to ascii,用於將binary的數據用ascii碼錶示,即Base64的編碼過程,而atob則是ascii to binary,用於將ascii碼解析成binary數據

 

 

那我們只要把返回的結果裏j_key去掉,剩下的纔是實際的數據就行了,拿着這個去返回結果裏搜下看看,有18個

 

 

 

而總共有68個img標籤

 

 

 

那拿着這個j_key【b41f7c1c3d536b1b9f8afeeff0f7292f】搜有多少個,一個都沒有

 

 

 

 

那就說明,j_key並不是固定的,而是根據返回每次返回的那個key和value生成的那個編碼活動的隱藏了,那麼不出意外一定只有兩個值,一個顯示的,一個不顯示的,一個個查看之後果然就下面兩個:

 

 

 第一個有39個:

 

 

 

第二個有29個:

 

 

 

加起來確實是總數的68,行,這裏完畢了。

 

 

然後的問題的是,這裏的圖片的數字怎麼拿出來呢?

 

 

你可以用ocr提取,但是這個題的規則是你不能使用ocr和ai識別,那還是得從代碼方向下手了,首先觀察可以得知肯定是10進制的:

也就是總共就0-9了,那麼那些base64的值是不是固定的呢?如果不是固定的又怎麼辦呢?

 

先找個0吧,點下調試工具的這個,

 

 

 

然後鼠標放到【0】的位置:

 

 

 

把src裏的數值複製出來:



 

然後找下這個有多少個,一搜,能夠跟展示的數字對上,確實是4個

 

 

 

當然這裏是運氣好,假如有display:none可能就對不上了,不過這個都是小問題。

 

那麼這裏我們可以大膽的猜測每個數字一定是固定的,然後我們只需要找到這個base64的編碼表,對應出1到9即可

 

插一句,如果不是固定的怎麼辦,那得多請求幾次,然後找到一個規律,也就是這個映射表可能大一點而已,但一定也是有一套規律的

 

這裏經過我的發現,搞出了如下的映射表:

number_dict = {
    '': 0,
    '': 1,
    '': 2,
    '': 3,
    '': 4,
    '': 5,
    '': 6,
    '': 7,
    '': 8,
    '': 3
}

 

ok,數字搞定,那麼還有個問題,這個順序怎麼展示的呢?再看源碼,也就是剛纔說的那個style的left:

 

 

 

先補充下,這個left,值越大會靠右,越小會靠左

 

首先,肯定是4個或者3個數一組,注意到的是,一個數字的佔位是11px的橫向距離,也就是寬度

 

 

 

 

加上,它把css設置了relative,即相對定位

 

 

 

 然後看left的值和順序對照着看,這個就是css的偏移量了,就差這一步了,兄弟們

 

 

 


 

首先初始是0px,即以0px作爲參照物,一個img寬度是11px,

第一個23px的8,先方下,左邊預留了2個位置的img 【8】

第二個-11.5px的6,因爲設置了relative,從8的位置開始往左放1個位置,此時 【6,8】

第3個11.5px,從最右邊的8開始往右放一個位置,【6,8,1】

最後一個-23px,從最右邊1開始往左放兩個位置,【6,0,8,1】

排列起來就是,6081

 

 

 

 

再看第二組:

 

從0px開始,

11.5px,先放下,左邊預留一個位置,【9】

23px,從9開始,其實此時,只要它這個值不是負數,就一定在【9】的右邊,因爲relative定位,存放右邊,【9,4】

-23px,從最右邊的4開始往左左邊兩個位置【2,9,4】

-11px,從最右邊的4開始往左邊放一個位置,【2,9,1,4】

 

 

反正就是這個規律,可能我表述得不夠清楚,雖然以前寫過前端代碼,但是並不是專門搞前端的,後面的就不跟着再分析了,直接通過這個規律,寫一個方法

 

 

再代碼確認下,請求第二頁和第三頁是否能正常返回:

 

 

確實沒毛病哈

 

python代碼實現

代碼

 

import requests
from bs4 import BeautifulSoup
from lxml import etree
from hashlib import md5
import base64

url = 'https://match.yuanrenxue.com/api/match/4?page=2'

headers = {
    'accept': 'application/json, text/javascript, */*; q=0.01',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-CN,zh;q=0.9',
    'cache-control': 'no-cache',
    'pragma': 'no-cache',
    'user-agent': 'yuanrenxue.project',
    'x-requested-with': 'XMLHttpRequest',
    'cookie': 'sessionid=換成你的sessionid'
}

number_dict = {
    '': 0,
    '': 1,
    '': 2,
    '': 3,
    '': 4,
    '': 5,
    '': 6,
    '': 7,
    '': 8,
    '': 9
}


def control_css_left(number_style, num_list):
    """
    通過偏移量移位,重新排序
    :param number_style:
    :param num_list:
    :return:
    """
    number_style = [round(__ / 11, 1) for __ in number_style]
    order_list = [None] * len(number_style)
    for index, number in enumerate(number_style):
        flag = int(index + number)
        temp_number = num_list[index]
        if order_list[flag]:  # 如果該索引位置已有,向後移動一位
            order_list[flag + 1] = str(temp_number)
        else:
            order_list[flag] = str(temp_number)
    # print(order_list)
    return order_list


def get_j_key(key, value):
    flag = base64.b64encode((key + value).encode('ascii')).decode('utf-8').replace('=', '')
    m = md5()
    m.update(flag.encode('utf-8'))
    return m.hexdigest()


def parser_info(info, j_key):
    html = etree.HTML(info)
    data = html.xpath('//td')
    cont = []
    for index, item in enumerate(data):
        img_flag = item.xpath('.//img')
        temp_cont = []
        # print('index', index)
        for im in img_flag:
            src = im.xpath('./@src')
            src = ''.join(src) if src else ''
            src_number = number_dict.get(src, None)
            if src_number is None:
                continue
            # print(12312323, src_number)
            if j_key in im.attrib.get('class'):
                continue
            left = im.xpath('./@style')
            left = ''.join(left) if left else ''
            left = left.replace('left:', '').replace('px', '')
            temp_cont.append({float(left): src_number})
        cont.append(temp_cont)
    # print(1111,cont)
    return cont


def fetch(page):
    url = f'https://match.yuanrenxue.com/api/match/4?page={page}'
    req = requests.get(url, headers=headers)
    res = req.json()
    req.close()
    key = res.get('key')
    value = res.get('value')
    info = res.get('info')
    # print(12312313, key, value, info)
    j_key = get_j_key(key, value)
    # print(123123, j_key)
    cont = parser_info(info, j_key)
    # 轉換偏移量
    result = []
    for item in cont:
        left = [list(_.keys())[0] for _ in item]
        number = [list(_.values())[0] for _ in item]
        temp = control_css_left(left, number)
        temp = int(''.join(temp))
        result.append(temp)
    print(1231312, result)
    return result


def get_result():
    sum_res = 0
    for i in range(1, 6):
        result = fetch(i)
        sum_res += sum(result)
    print('答案是:', sum_res)


get_result()

 

 

執行:

 

 

放到平臺提交

 

 

完美

 

結語

這個題實話說不難,主要你可能得懂一點前端的知識才行,有個點要注意的是,在還原實際順序的時候,如果索引位置上已有值,需要向後移一位

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章