破解58同城字體反爬

1. 前言

最近接了一個私活,破解58同城的css反爬。(被鴿了)現在決定把它開源出來,以便大家參考學習。

2. 主題

首先,打開頁面,瞭解到這部分信息是有字體加密的。如下圖:
在這裏插入圖片描述
這部分信息包含 性別 年齡 學歷 還有工作經驗。 這部分信息需要經過轉換,才能達到我們想要的數據。
可以看到它數據加密部分,都引用了一個叫stonefont的class,我們觀察一下這個class
在這裏插入圖片描述
經過觀察發現 這裏引用了woff的一個字體文件, 我們把其中的base64編碼部分提取出來,保存爲一個.woff的文件。
python代碼示例:

# -*- coding: utf-8 -*-
import base64

font_face = ''

b = base64.b64decode(font_face)
with open('zt01.woff', 'wb')as f:
    f.write(b)

然後使用網站http://fontstore.baidu.com/static/editor/index.html 打開這個woff文件,如下圖所示
在這裏插入圖片描述
可以看到每一個字都有對應的一個編碼, 通過觀察我們發現,這個編碼後4位,跟在網頁源代碼中的編碼是一致的。
我們可以用fontTools這個庫去解析這個woff文件

# -*- coding: utf-8 -*-

from fontTools.ttLib import TTFont

font1 = TTFont('zt01.woff')  # 打開本地字體文件01.ttf
uni_list = font1.getGlyphOrder()[2:]  # 前兩個不算
print(uni_list)
# 輸出信息如下
# ['uniE0D1', 'uniE0EB', 'uniE165', 'uniE39A', 'uniE3CD', 'uniE3DC', 'uniE4E6', 'uniE559', 'uniE5CE', 'uniE6FE', 'uniE74A', 'uniE811', 'uniE822', 'uniE90F', 'uniE925', 'uniE9A9', 'uniE9EB', 'uniEB2C', 'uniEC43', 'uniEC4C', 'uniEC7A', 'uniED1F', 'uniED8C', 'uniEDDB', 'uniEE02', 'uniEE6F', 'uniEF0E', 'uniEF58', 'uniEFD2', 'uniF0EB', 'uniF129', 'uniF1A3', 'uniF31A', 'uniF373', 'uniF3A5', 'uniF403', 'uniF459', 'uniF52A', 'uniF547', 'uniF56E', 'uniF58B', 'uniF5DB', 'uniF625', 'uniF832', 'uniF88E']


這樣我們就得到了網頁中看到的編碼。然後我們自己手動做個映射關係就行了。一共45個,花不了多長時間。網頁中看到的前兩個不算。
你以爲到這裏就結束了? Too Young Too Sample! 如果單純是這樣,那就太簡單了。
後來觀察發現(其實早就發現了[小聲BB]),每刷新一次,woff對應的文件都不一樣,源代碼中的編碼也會變化。那我們前面做的都沒用了? 不是這樣的。

重點來了:

我們任意保存兩次請求網頁的woff文件,然後保存爲xml格式,靜態分析一波。
保存爲xml的代碼:

from fontTools.ttLib import TTFont

font= TTFont("zt01.woff")
font.saveXML('zt01.xml')

xml文件展示:
在這裏插入圖片描述
注意了,前方高能!
我們在網頁上打開這兩個woff文件, 找到兩個相同的文字,這裏拿性別來舉例,也就是 “男” 這個字。
在woff 1文件中,它的編碼爲
在這裏插入圖片描述
在woff 2文件中, 它的編碼爲
在這裏插入圖片描述
我們打開這兩個woff文件對應的xml文件。分別根據編碼找到這個字的具體描述部分

woff1對應的 ‘男’ :
在這裏插入圖片描述
woff 2 對應的男:
在這裏插入圖片描述
通過觀察圖中的pt值發現, 後一個pt標籤中的x,y值 分別減去前一個pt標籤的x,y值是一個固定值,就算切換woff文件,再去計算,仍滿足這樣的規律。 這裏woff1的“男” 前兩個pt的x,y值相減得到
(1786-198,1575-1575) => (1788,0). woff2的計算結果(1822-234,1611-1611)=>(1788,0)。
通過這個規律,我們就可以製作映射關係的字典啦。 用計算結果當成key,對應的漢字當作value。

# -*- coding: utf-8 -*-
from fontTools.ttLib import TTFont


zt1 = TTFont("zt01.woff")

# wods列表中網頁上按順序打出來
words = ['B', '男', '王', '大', '專', 'M', '女', '吳', '碩', '趙', '黃', '李', '1', '8', '經', '2', '下', '本', '屆', '5', '應', '科', '7', '中', '生', '6', 'E', '陳', '3', '以', '楊', 'A', '張', '4', '無', '0', '9', '驗', '博', '技', '士', '校', '高', '劉', '周']

uni_list = zt1.getGlyphNames()[1:-1]

data_map = dict()
for index, i in enumerate(uni_list):
    temp = zt1["glyf"][i].coordinates
    x1, y1 = temp[0]
    x2, y2 = temp[1]
    new = (x2-x1, y2-y1)
    data_map[new] = words[index]
print(data_map)

ok, 到這裏字典制作完畢。
後面抓取數據過程中 我們只需要 抽取抓取網頁的woff文件, 計算每個以uni開頭的值所對應的key值,根據key值到data_map裏再取到文字。就可以製作當前抓取頁面的 字體字典啦。

驗證

在這裏插入圖片描述
完整代碼: 傳送門

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章