聲明:本帖子僅是用於學習用途,請勿與用於惡意破壞別人網站,本人不承擔法律責任。
來繼續學爬蟲呀!
很開心,竟然上榜某爬蟲練習網站了!!!
來看一下榜單
超激動的!!但是還有兩道目前個人解決不了,希望哪個大佬看到了,教教我,感謝感謝!
前言
簡單描述一下這種手段,html源碼的數字跟頁面展示的數字是不一致的!當時就一臉黑人問號,嗯???
經過分析,當前這種字體反爬機制是:通過獲取指定鏈接的woff字體文件,然後根據html源碼的數字
去woff字體文件裏面查找真正的數字,講到底就是一個映射關係/查找字典。如html源碼是123,去woff文件裏面
查找出來的是:623。好了,看到這裏,你一定想說:廢話講那麼多幹嘛?趕緊上教程啊!!
那先來看一下大致流程唄:
分析目標網站頁面(在這裏我不打算貼出網站地址,請大家自己找網站練習),這裏看到html源碼和頁面展示的數字是不一致的,如下圖:
tips:
一開始不知道是怎麼下手,只能谷歌搜索字體反爬,一搜果然很多說法,有說woff文件的、有說CSS的、還有說svg曲線啥的,
然後我就去查看Network裏面的All,就發現關鍵字眼woff,就開始猜測可能是屬於這種類型的反爬手段,接着開始幹活。
混淆前字體:
混淆後的字體:
找了一會,發現.woff2文件和woff文件前後不一樣,然後開始着手解決
如需下載woff文件,請點擊這裏, 提取碼: ghnx
但是本地打不開woff字體文件,需要藉助的軟件是fontcreator,這個你自己去找一下,很多破解的
但是這好像看不出什麼,然後我們接着需要從另外一方面下手,重點來了》將woff文件轉換爲xml文件
如下:
import os
import requests
from fontTools.ttLib import TTFont
base_dir = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
url = "http://xxxxxx.xxx.woff"
woff_dir = os.path.join(base_dir, "statics/woffs/")
file_name = url.split("/")[-1]
xml_name = file_name.replace(file_name.split(".")[-1], "xml")
save_woff = os.path.join(woff_dir, file_name)
save_xml = os.path.join(woff_dir, xml_name)
resp = requests.get(url="xxx")
with open(save_woff, "wb") as f:
f.write(resp.content)
f.close()
font = TTFont(save_woff)
font.saveXML(save_xml) # 轉換爲xml文件
然後打開xml文件看,先來查看一下縮略的內容,紅色圈圈的那兩個是本次重點破解的分析的內容:
然後先查看cmap,發現線索,裏面註釋的地方有標註了。然後我們大膽猜測:NINE對應的name=cid00018,code=0x39,這翻譯過來就是9對應的name=cid00018,其id標記爲0x39:
接着來看一下code=0x39,其對應的name=cid00018,然後我們拿這個cid00018去搜索,發現在部分裏面看到:
<GlyphID id="3" name="cid00018"/>
,這表明什麼呢?結合前後兩個映射關係,然後連起來再大膽猜測一下,可能是9對應3?
爲了驗證這個猜想,繼續再找一下其他例子,我使用已經轉換爲如下格式,方便你們對比,你們也可以從三張截圖來對比,哪三張截圖呢?分別是:①是前面包含“code=0x39,name=cid00018”的截圖;②是包含“id=3,name=cid00018”的截圖;③是文章的第二張截圖。
你們可以①②截圖來一個個列出映射關係,建議先列出①的映射關係,再列出②的映射關係,然後再將①、②的映射關係組合起來,得出一個新的映射關係,這個新的映射關係就是我們所需的,下面來給你們看一下我提取的①、②的映射關係:
①的映射關係,在這裏我定義爲before_code_id
②的映射關係,在這裏我定義爲affter_code_id,結果如下:
before_code_id = {
"0": "cid00019",
"1": "cid00020",
"2": "cid00017",
"3": "cid00021",
"4": "cid00022",
"5": "cid00024",
"6": "cid00026",
"7": "cid00025",
"8": "cid00023",
"9": "cid00018"
}
affter_code_id = {
"cid00017": 2,
"cid00018": 3,
"cid00019": 4,
"cid00020": 5,
"cid00021": 6,
"cid00022": 7,
"cid00023": 8,
"cid00024": 9,
"cid00025": 10,
"cid00026": 11
}
然後從html源碼到before_code_id, affter_code_id應用起來就是如下:
前端數字—中間人code—最終的數字,即:
"0"——"cid00019"——4
"1"——"cid00020"——5
"2"——"cid00017"——2
"3"——"cid00021"——6
"4"——"cid00022"——7
"5"——"cid00024"——9
"6"——"cid00026"——11
"7"——"cid00025"——10
"8"——"cid00023"——8
"9"——"cid00018——3
我們再簡化一步,直接從html源碼數字到最終的數字映射爲如下(即直接省去中間的cidxxxxx這串):
"0"——4
"1"——5
"2"——2
"3"——6
"4"——7
"5"——9
"6"——11
"7"——10
"8"——8
"9"——3
但是你們發現這映射後的數字很奇怪嗎,比如"6"、"7"映射之後分別爲11和10,
但是在我們的正常邏輯之中不對呀,要不我們再列一下html源碼跟前端的肉眼看到的數字的映射關係唄:
"0"——2
"1"——3
"2"——0
"3"——4
"4"——5
"5"——7
"6"——9
"7"——8
"8"——6
"9"——1
哇,這列出來之後不是很相似嗎,跟前面的結果,要不我再放在一起給你們好對比一下唄:
xml提取的映射 html源碼跟網頁展示的,提取的映射
"0"——4 "0"——2
"1"——5 "1"——3
"2"——2 "2"——0
"3"——6 "3"——4
"4"——7 "4"——5
"5"——9 "5"——7
"6"——11 "6"——9
"7"——10 "7"——8
"8"——8 "8"——6
"9"——3 "9"——1
到此,我們發現從xml提取的映射跟html源碼跟網頁展示的提取的映射數值都是相差2,所以我們大膽猜測:網頁上看到的數值是可以從xml提取的映射關係裏面每個數字減去2所得的,即:
"0"——4-2=2
"1"——5--2=3
"2"——2-2=0
"3"——6-2=4
"4"——7-2=5
"5"——9-2=7
"6"——11-2=9
"7"——10-2=8
"8"——8-2=6
"9"——3-2=1
所以這就是破解了嘛,到此,這個教程總可以理解吧,寫得辣麼辛苦、改的辣麼辛苦,趕快評論點贊收藏一套走起來
好了,別嗨了,實操纔是王道,下面來看一下核心代碼,如下:
#!/usr/bin/python3
# -*- coding: utf-8 -*-
# @Time : 2019/8/19 13:08
# @Author : qizai
# @File : crawl_woff.py
# @Software: PyCharm
# 先安裝:pip3 install fontTools
import os
import requests
from fake_useragent import UserAgent
from fontTools.ttLib import TTFont # 對字體文件進行格式轉換
base_dir = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
ua = UserAgent()
header = {
"user-agent": ua.chrome,
}
def parse_woff(url=""):
"""這裏是下載字體並且解析對應的值"""
global cookie
global header
woff_dir = os.path.join(base_dir, "statics/woffs/")
file_name = url.split("/")[-1]
xml_name = file_name.replace(file_name.split(".")[-1], "xml")
save_woff = os.path.join(woff_dir, file_name)
save_xml = os.path.join(woff_dir, xml_name)
if os.path.exists(save_woff): # 存在本地的話直接提取本地的文件去解析即可省去下載,避免浪費資源
font = TTFont(save_woff)
else:
resp = requests.get(url=url, cookies=cookie, headers=header)
with open(save_woff, "wb") as f:
f.write(resp.content)
f.close()
font = TTFont(save_woff)
font.saveXML(save_xml) # 轉換爲xml文件
cmap = font.getBestCmap() # 這個是xml源碼裏面的【數值-中間人code】映射,數值還不一定是html源碼裏面的數值,而是每位數經過加上一定的數值之後的
tmp = { # 這個是對應的纔是我們需要的值,或者你也可以在每次獲取的時候,將這個值對應減去48即可,就可以省去這這個映射
48: 0, # html源碼裏面的0對應xml源碼裏面的48
49: 1, # html源碼裏面的1對應xml源碼裏面的49
50: 2, # html源碼裏面的2對應xml源碼裏面的50
51: 3, # html源碼裏面的3對應xml源碼裏面的51
52: 4, # html源碼裏面的4對應xml源碼裏面的52
53: 5, # html源碼裏面的5對應xml源碼裏面的53
54: 6, # html源碼裏面的6對應xml源碼裏面的54
55: 7, # html源碼裏面的7對應xml源碼裏面的55
56: 8, # html源碼裏面的8對應xml源碼裏面的56
57: 9, # html源碼裏面的9對應xml源碼裏面的57
} # 注意:個人猜測以上這個tmp字典,xml源碼的數字跟html源碼數字的映射關係可能會定期改變的
before_code_id = {} # 轉換之後before_code_id爲:1:cid00019 key就是html源碼數字,value就是用來查詢的中間人code
for k, v in cmap.items():
if k not in set(range(48, 58)):
continue
before_code_id[tmp.get(k)] = v # 這一步其實是將49:cid00019的映射格式轉換爲好理解的1:cid00019映射關係
code_id_list = font.getGlyphOrder()[2:] # 這個返回的值有11個,但是我這裏只是取了第三個到最後一個,是用來取計算前端看到的真正的數值
affter_code_id = {k:v for k,v in zip(code_id_list, range(2, 12))} # 將每一個按照順序映射爲cid00562:2這種
return before_code_id, affter_code_id
if __name__ == '__main__':
"""使用如下"""
before_code_id, affter_code_id = parse_woff(url="xxxx")
# html源碼數字:假設爲0
html_number = 0
tmp_code = before_code_id.get(html_number) # 先匹配中間人code
real_number = affter_code_id.get(tmp_code) - 2 # 再提取中間人code對應的真正的數字,記得要減去2,因爲本來是每位數字已經多了2
print("當前html源碼數字html_number:{} 真正的數字爲real_number:{}".format(html_number, real_number))
當前的woff字體反爬已經破解了,如果有不妥的地方請指出,大家一起學習。
至此本文教程寫完了,希望能夠幫助到各位在爬蟲路上的小夥伴們,覺得不錯點個讚唄
感謝認真讀完這篇教程的您
先別走唄,這裏有可能有你需要的文章:
CSS字體反爬實戰,10分鐘就能學會;
爬蟲:js逆向目前遇到的知識點集合;
woff字體反爬實戰,10分鐘就能學會;
爬蟲js解密分析:某某貓小說;
爬蟲js解密分析:某某雲文學;
個人總結-js逆向解析思路;