python爬蟲 - js逆向之猿人學第一題

前言

由於最近一直沒有一個練手的平臺,苦苦尋找好久,找到了猿人學平臺,其實我很早就知道這個平臺,他們2020年剛還是搞爬蟲大賽的時候我就看到了,只是沒有仔細去研究,都只是大概的看了下,最近有空就特意的分析了下,還真的有點東西,至少我覺得比較有意思

 

分析

先看題:

 

 

 

然後查看翻頁,這個接口不難找:

 

 

 

但是看提交的參數:

 

 

 

 

 

 

 

page就不多說了,看都有個m,而且經過我的測試,每次都是變化的,那麼我們的關鍵點就是去研究這個m參數怎麼生成的了。先看:d150b9b187bfa0fd8977605c0561d6f8丨1631621912,

大概率猜測豎線後面的就是個時間戳,前面的大概率是時間戳經過原生md5或者魔改版md5生成的,經過我的測試,發現至少不是原生md5生成的,那麼就算是魔改版md5,我們也還是得去分析源碼了,還是回到怎麼找這個m變量吧,但是,問題出現了,相信稍微有點接觸的朋友都知道,這個m參數是不是也太大衆化了,要全局搜索肯定是很難搜到的啊,而再看哈,後面有個【丨】,好像有點用,搜索看看:

 

沒戲,沒有,相信以前研究過第一題的朋友看到這裏估計要懵了,因爲以前是可以的,沒錯,因爲我以前就分析過第一題,確實搜豎線是可以搜出來的,但是,此時此刻,不行了,我也不知道爲啥,反正就是不行,怎麼辦,換其他思路了。

 

我最開始的思路是對接口打斷點:

 

 

刷新頁面,它自動斷到這裏:

 

 

 

 

 

也就停頓了一小會兒,它就有個風控檢測:

 

 

這個還有點意思,後面看了下邏輯,大膽猜測它是在後端驗證了時間戳

反正就是走這條路效果不好,後面的思路換成查看調用棧,首先找到接口,然後點這個:

 

 (終於可以光明正大的把地址給出來了,不用每次截圖打碼了)

 

 

我點的是第一頁的接口,然後看到下面的調用棧,補充下,調用棧的調用先後順序是從下到上的

 

 

 

我先點下這個匿名函數的:

 

 

 

 打開看到就是些代碼,暫時沒看出有什麼用,再看倒數第二個:

 

 

 

找到關鍵點

 

 倒數第二個代碼並不多,拷貝一份在本地看下:

 

 

 

這個代碼讀起來有點累啊,這\x開頭是16進制編碼,我們先去轉換一下,我用的這個網站的轉換:https://tool.lu/js/index.html

 

 

 

 

點解密之後它提示是否要解碼,點確定,然後複製解密後的結果放到本地看下,唉,這個豎線出現了,那麼後面的操作基本就跟各位在網上看到的邏輯差不多了

 

那麼,也就是說【\u4e28】= 【丨】,注意,這個豎線還是中文的豎線,不是英文的,在python裏是這樣的,不管它開頭是幾根反斜槓,反正後面的值至少是對上了

 

 

 

 

我估計老手在一開始的時候就會把【丨】轉爲常用的編碼去搜了

 

 

大概的看下邏輯,雖然它這個變量名被混淆了,但是不妨礙我們讀邏輯:

 

 

也就是,m 的值本質上等於

oo0O0(_0x2268f9['toStr' + 'ing']()) + window['f'] + '丨' + Date['parse'](new Date()) + (16798545 + -72936737 + 156138192) / (-1 * 3483 + -9059 + 13542)

 

後面的時間戳相關的,經過我的測試,基本是固定的,是的,那什麼後面的【(16798545 + -72936737 + 156138192) / (-1 * 3483 + -9059 + 13542)】基本是固定的,主要就是看這個oo0O0函數了,插一句,假如後面的時間戳相關的參數是變的,怎麼辦?

那就只有每次在模擬生成m變量之前都要先去請求一次對應網址取獲取實時的數據然後拼接到下面的結果裏即可

 

 

oo0O0這個名字我想應該比較特殊,看能否搜到,一搜果然搜到了:

 

 

 

經過查看之後,實際的定義區域在第二個搜索結果裏,

再插一句,假如這個函數名也被混淆過怎麼辦?

嘗試將名字改成各種編碼然後再去搜,如果還是搜不到那就難搞了

 

打開第二個搜索結果:

 

 

 

哎,這不就是調用棧裏的那個匿名函數嗎,對上了哈,那至少說明我們的思路是沒有問題的,把這整個代碼拷貝存到本地文件,然後直接搜oo0看看:

 

 

 

先把代碼縮一下,看下整體邏輯,最後返回了一個空,有點奇怪

 

 

 

先假設它確實是空的話,那麼我們的代碼就是如下了:

'' + window['f'] + '丨' + Date['parse'](new Date()) + (16798545 + -72936737 + 156138192) / (-1 * 3483 + -9059 + 13542)

 

那就只剩下window['f']了,而搜遍整個代碼,愣是沒有找到有關window['f']的,這可太奇怪了,再回頭看看這個oo0O0函數,說明這個返回空是不成立的,一定做了一些操作,從reurn 返回空往上看,有個eval

 

 

 

這個有點貓膩啊,再看這個atob,它是一個內置的轉爲base64的函數,先啥都不管,先控制檯看下是啥:

 

 

 

唉~,這最後不就是window.f嗎,就是剛纔我們要找的,把這段複製出來,大概瀏覽了下代碼,就是自己魔改了一個md5方法,果然,我上面說對了,魔改的

 

 

 

緊接着看這個mwqqppz又是啥,是一個佔位參數,再回去看剛纔的eval

 

 

 

既然atob(window['b'])是hex_md5(mwqqppz),那麼後面的J('0x0', ']dQW')是啥,不急,先把上面定義的u和J定義到控制檯,看下是啥,

 

 

 

 

 

 

ok,再看:

 

 

 

那麼,

atob(window['b'])[J('0x0', ']dQW')](J('0x1', 'GTu!'), '\x27' + mw + '\x27')

就等於

hex_md5(mwqqppz)['replace']('mwqqppz', '\x27' + mw + '\x27')

而這個mv呢,又是啥:

 

 

 mw就是調用oo0O0時傳進去的參數,那就是前面的_0x2268f9['toStr' + 'ing']()了,而,我們知道_0x2268f9就是個時間戳

 

var _0x2268f9 = Date['parse'](new Date()) + (16798545 + -72936737 + 156138192)

 

 

執行看下:

 

 

先不管這個值對不對,至少看着像那麼回事了,那麼,接着再看,

 

 

那麼\x27也可以省略了

 

好的,最後的驗證了:先把接口那邊的參數複製過來定義到控制檯,方便對應

 

 

 然後,現在我們要把1631621872帶回去看,然後推出的結果能不能對的上豎線左邊的值,如果對的上,那麼我們的逆向就成功了,

 

 

 

 

 

 

 

 

ok了,整個邏輯終於整理清楚了

 

摳出代碼

我們把上面所有用到的js代碼整理到一個js文件裏

var hexcase = 0;
var b64pad = "";
var chrsz = 16;

function hex_md5(a) {
    return binl2hex(core_md5(str2binl(a), a.length * chrsz))
}

function b64_md5(a) {
    return binl2b64(core_md5(str2binl(a), a.length * chrsz))
}

function str_md5(a) {
    return binl2str(core_md5(str2binl(a), a.length * chrsz))
}

function hex_hmac_md5(a, b) {
    return binl2hex(core_hmac_md5(a, b))
}

function b64_hmac_md5(a, b) {
    return binl2b64(core_hmac_md5(a, b))
}

function str_hmac_md5(a, b) {
    return binl2str(core_hmac_md5(a, b))
}

function md5_vm_test() {
    return hex_md5("abc") == "900150983cd24fb0d6963f7d28e17f72"
}

function core_md5(p, k) {
    p[k >> 5] |= 128 << ((k) % 32);
    p[(((k + 64) >>> 9) << 4) + 14] = k;
    var o = 1732584193;
    var n = -271733879;
    var m = -1732584194;
    var l = 271733878;
    for (var g = 0; g < p.length; g += 16) {
        var j = o;
        var h = n;
        var f = m;
        var e = l;
        o = md5_ff(o, n, m, l, p[g + 0], 7, -680976936);
        l = md5_ff(l, o, n, m, p[g + 1], 12, -389564586);
        m = md5_ff(m, l, o, n, p[g + 2], 17, 606105819);
        n = md5_ff(n, m, l, o, p[g + 3], 22, -1044525330);
        o = md5_ff(o, n, m, l, p[g + 4], 7, -176418897);
        l = md5_ff(l, o, n, m, p[g + 5], 12, 1200080426);
        m = md5_ff(m, l, o, n, p[g + 6], 17, -1473231341);
        n = md5_ff(n, m, l, o, p[g + 7], 22, -45705983);
        o = md5_ff(o, n, m, l, p[g + 8], 7, 1770035416);
        l = md5_ff(l, o, n, m, p[g + 9], 12, -1958414417);
        m = md5_ff(m, l, o, n, p[g + 10], 17, -42063);
        n = md5_ff(n, m, l, o, p[g + 11], 22, -1990404162);
        o = md5_ff(o, n, m, l, p[g + 12], 7, 1804660682);
        l = md5_ff(l, o, n, m, p[g + 13], 12, -40341101);
        m = md5_ff(m, l, o, n, p[g + 14], 17, -1502002290);
        n = md5_ff(n, m, l, o, p[g + 15], 22, 1236535329);
        o = md5_gg(o, n, m, l, p[g + 1], 5, -165796510);
        l = md5_gg(l, o, n, m, p[g + 6], 9, -1069501632);
        m = md5_gg(m, l, o, n, p[g + 11], 14, 643717713);
        n = md5_gg(n, m, l, o, p[g + 0], 20, -373897302);
        o = md5_gg(o, n, m, l, p[g + 5], 5, -701558691);
        l = md5_gg(l, o, n, m, p[g + 10], 9, 38016083);
        m = md5_gg(m, l, o, n, p[g + 15], 14, -660478335);
        n = md5_gg(n, m, l, o, p[g + 4], 20, -405537848);
        o = md5_gg(o, n, m, l, p[g + 9], 5, 568446438);
        l = md5_gg(l, o, n, m, p[g + 14], 9, -1019803690);
        m = md5_gg(m, l, o, n, p[g + 3], 14, -187363961);
        n = md5_gg(n, m, l, o, p[g + 8], 20, 1163531501);
        o = md5_gg(o, n, m, l, p[g + 13], 5, -1444681467);
        l = md5_gg(l, o, n, m, p[g + 2], 9, -51403784);
        m = md5_gg(m, l, o, n, p[g + 7], 14, 1735328473);
        n = md5_gg(n, m, l, o, p[g + 12], 20, -1921207734);
        o = md5_hh(o, n, m, l, p[g + 5], 4, -378558);
        l = md5_hh(l, o, n, m, p[g + 8], 11, -2022574463);
        m = md5_hh(m, l, o, n, p[g + 11], 16, 1839030562);
        n = md5_hh(n, m, l, o, p[g + 14], 23, -35309556);
        o = md5_hh(o, n, m, l, p[g + 1], 4, -1530992060);
        l = md5_hh(l, o, n, m, p[g + 4], 11, 1272893353);
        m = md5_hh(m, l, o, n, p[g + 7], 16, -155497632);
        n = md5_hh(n, m, l, o, p[g + 10], 23, -1094730640);
        o = md5_hh(o, n, m, l, p[g + 13], 4, 681279174);
        l = md5_hh(l, o, n, m, p[g + 0], 11, -358537222);
        m = md5_hh(m, l, o, n, p[g + 3], 16, -722881979);
        n = md5_hh(n, m, l, o, p[g + 6], 23, 76029189);
        o = md5_hh(o, n, m, l, p[g + 9], 4, -640364487);
        l = md5_hh(l, o, n, m, p[g + 12], 11, -421815835);
        m = md5_hh(m, l, o, n, p[g + 15], 16, 530742520);
        n = md5_hh(n, m, l, o, p[g + 2], 23, -995338651);
        o = md5_ii(o, n, m, l, p[g + 0], 6, -198630844);
        l = md5_ii(l, o, n, m, p[g + 7], 10, 11261161415);
        m = md5_ii(m, l, o, n, p[g + 14], 15, -1416354905);
        n = md5_ii(n, m, l, o, p[g + 5], 21, -57434055);
        o = md5_ii(o, n, m, l, p[g + 12], 6, 1700485571);
        l = md5_ii(l, o, n, m, p[g + 3], 10, -1894446606);
        m = md5_ii(m, l, o, n, p[g + 10], 15, -1051523);
        n = md5_ii(n, m, l, o, p[g + 1], 21, -2054922799);
        o = md5_ii(o, n, m, l, p[g + 8], 6, 1873313359);
        l = md5_ii(l, o, n, m, p[g + 15], 10, -30611744);
        m = md5_ii(m, l, o, n, p[g + 6], 15, -1560198380);
        n = md5_ii(n, m, l, o, p[g + 13], 21, 1309151649);
        o = md5_ii(o, n, m, l, p[g + 4], 6, -145523070);
        l = md5_ii(l, o, n, m, p[g + 11], 10, -1120210379);
        m = md5_ii(m, l, o, n, p[g + 2], 15, 718787259);
        n = md5_ii(n, m, l, o, p[g + 9], 21, -343485551);
        o = safe_add(o, j);
        n = safe_add(n, h);
        m = safe_add(m, f);
        l = safe_add(l, e)
    }
    return Array(o, n, m, l)
}

function md5_cmn(h, e, d, c, g, f) {
    return safe_add(bit_rol(safe_add(safe_add(e, h), safe_add(c, f)), g), d)
}

function md5_ff(g, f, k, j, e, i, h) {
    return md5_cmn((f & k) | ((~f) & j), g, f, e, i, h)
}

function md5_gg(g, f, k, j, e, i, h) {
    return md5_cmn((f & j) | (k & (~j)), g, f, e, i, h)
}

function md5_hh(g, f, k, j, e, i, h) {
    return md5_cmn(f ^ k ^ j, g, f, e, i, h)
}

function md5_ii(g, f, k, j, e, i, h) {
    return md5_cmn(k ^ (f | (~j)), g, f, e, i, h)
}

function core_hmac_md5(c, f) {
    var e = str2binl(c);
    if (e.length > 16) {
        e = core_md5(e, c.length * chrsz)
    }
    var a = Array(16), d = Array(16);
    for (var b = 0; b < 16; b++) {
        a[b] = e[b] ^ 909522486;
        d[b] = e[b] ^ 1549556828
    }
    var g = core_md5(a.concat(str2binl(f)), 512 + f.length * chrsz);
    return core_md5(d.concat(g), 512 + 128)
}

function safe_add(a, d) {
    var c = (a & 65535) + (d & 65535);
    var b = (a >> 16) + (d >> 16) + (c >> 16);
    return (b << 16) | (c & 65535)
}

function bit_rol(a, b) {
    return (a << b) | (a >>> (32 - b))
}

function str2binl(d) {
    var c = Array();
    var a = (1 << chrsz) - 1;
    for (var b = 0; b < d.length * chrsz; b += chrsz) {
        c[b >> 5] |= (d.charCodeAt(b / chrsz) & a) << (b % 32)
    }
    return c
}

function binl2str(c) {
    var d = "";
    var a = (1 << chrsz) - 1;
    for (var b = 0; b < c.length * 32; b += chrsz) {
        d += String.fromCharCode((c[b >> 5] >>> (b % 32)) & a)
    }
    return d
}

function binl2hex(c) {
    var b = hexcase ? "0123456789ABCDEF" : "0123456789abcdef";
    var d = "";
    for (var a = 0; a < c.length * 4; a++) {
        d += b.charAt((c[a >> 2] >> ((a % 4) * 8 + 4)) & 15) + b.charAt((c[a >> 2] >> ((a % 4) * 8)) & 15)
    }
    return d
}

function binl2b64(d) {
    var c = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/";
    var f = "";
    for (var b = 0; b < d.length * 4; b += 3) {
        var e = (((d[b >> 2] >> 8 * (b % 4)) & 255) << 16) | (((d[b + 1 >> 2] >> 8 * ((b + 1) % 4)) & 255) << 8) | ((d[b + 2 >> 2] >> 8 * ((b + 2) % 4)) & 255);
        for (var a = 0; a < 4; a++) {
            if (b * 8 + a * 6 > d.length * 32) {
                f += b64pad
            } else {
                f += c.charAt((e >> 6 * (3 - a)) & 63)
            }
        }
    }
    return f
};


request = function () {
    var t = Date['parse'](new Date()) + (16798545 + -72936737 + 156138192),
        f = hex_md5(''+t),
        timestemp = t / (-1 * 3483 + -9059 + 13542),
        url = f + '丨' + timestemp;
    return [f, timestemp, url]
}

 

 

用python實現

 

 

 

看似沒有問題,現在開始完整的翻頁和數據處理:

 

import requests
import execjs


def get_m():
    f = open('vm_decode.js', encoding='utf-8') # 文件名就是剛纔摳出來的那段代碼
    js = f.read()
    f.close()
    js_dom = execjs.compile(js)
    result = js_dom.call('request')
    if result:
        params = result.pop()
        print(f'當前params: {params}')
        return result


headers = {
    'accept': 'application/json, text/javascript, */*; q=0.01',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-CN,zh;q=0.9',
    'cache-control': 'no-cache',
    'cookie': 'Hm_lvt_9bcbda9cbf86757998a2339a0437208e=1631182393; Hm_lvt_c99546cf032aaa5a679230de9a95c7db=1631182393; no-alert3=true; vaptchaNetway=cn; tk=9019357195599414472; Hm_lvt_0362c7a08a9a04ccf3a8463c590e1e2f=1631240634; Hm_lpvt_0362c7a08a9a04ccf3a8463c590e1e2f=1631240669; sessionid=換成你的id; Hm_lpvt_9bcbda9cbf86757998a2339a0437208e=1631528163; Hm_lpvt_c99546cf032aaa5a679230de9a95c7db=1631528665', # 這裏如果不帶sessionid沒法對第4頁和第5翻頁
    'pragma': 'no-cache',
    'referer': 'https://match.yuanrenxue.com/match/1',
    'sec-ch-ua': '"Google Chrome";v="93", " Not;A Brand";v="99", "Chromium";v="93"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"macOS"',
    'sec-fetch-dest': 'empty',
    'sec-fetch-mode': 'cors',
    'sec-fetch-site': 'same-origin',
    'user-agent': 'yuanrenxue.project',
    'x-requested-with': 'XMLHttpRequest',
}


def fecth(m, t, i=0):
    if i:
        url = f'https://match.yuanrenxue.com/api/match/1?page={i}&m={m}%E4%B8%A8{t}'
    else:
        url = f'https://match.yuanrenxue.com/api/match/1?m={m}%E4%B8%A8{t}'
    req = requests.get(url, headers=headers)
    res = req.json()
    if res:
        data = res.get('data')
        data = [temp.get('value') for temp in data]
        print('temp', data)
        return data


def get_answer():
    sum_number = 0
    index = 0

    for i in range(1, 6):
        m, t = get_m()
        cont = fecth(m, t, i)
        sum_number += sum(cont)
        index += len(cont)
    print('答案:', sum_number / index)


get_answer()

 

執行:

 

 

 

把這個答案拿去網站提交:

 

 

補充

補充下,爲啥我對接口打斷點的時候,停頓了一會兒再放開斷點就有個風控檢測,由上面分析,那個加密參數其實就是時間戳的md5,那麼它在後端接收到這個參數,再轉回時間戳,發現距離此時此刻已經過去很久了,那就多半有人在調試了,因爲你想,正常發起請求,在send之前都已經生成好了,如果不是網絡原因請求再返回數據,也就幾秒鐘時間,那麼我就用這幾秒來判斷你是否超過了正常的請求時間,超過則被檢測到

 

總結

 

其實這個題,你說難嗎?不難,但是考察很多知識,確實可以練練手的

另外感謝猿人學這個平臺,讓大家可以光明正大的爬別人網站,哈哈哈哈

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章