♚
作者:志穎 ,一個狂熱的python爬蟲熱愛者
GitHub:github.com/zyingzhou
用過網易雲音樂聽歌的朋友都知道,網易雲音樂每首歌曲後面都有很多評論,熱門歌曲的評論更是接近百萬或者是超過百萬條.現在我就來分享一下如何爬取網易雲音樂歌曲的全部評論,由於網易雲音樂的評論都做了混淆加密處理,因此我們需要深入瞭解它的加密過程之後才能爬取到網易雲音樂歌曲的全部評論.
一、首先分析數據的請求方式
網易雲音樂歌曲頁面的URL形式爲https://music.163.com/#/song?id=歌曲id號
,這裏我用Delacey的Dream it possible 爲例進行講解,它的URL爲https://music.163.com/#/song?id=38592976
.接下來開始分析數據的請求方式.
由於網易雲音樂的評論是通過Ajax傳輸,我們打開瀏覽器的開發者工具(檢查元素),選中控制面板中的Network,再點擊XHR(捕獲ajax數據),然後點擊左上角的重新加載,會看到下面圖片中的數據請求列表
點擊R_SO_4_38592976?csrf_token=cdee144903c5a32e6752f50180329fc9
這一行,再點擊Preview
發現我們所需要的數據就在這json格式的數據中,其中comments中是第一頁的全部評論,一共20條,hotcomments是精彩評論一共有15條,每首歌曲只有第一頁評論纔有精彩評論.接着看一下它的請求頭,點擊Headers
我們發現的它是個post請求,向下滑你會發現這個post請求還帶有數據
這些數據都是經過加密處理的,因此我們需要分析它的加密過程來生成相應的參數,然後把加密後的參數加到post請求中才能獲取到我們需要的評論數據.
二、分析加密過程
通過斷點調試發現params和encSecKey是由js腳本中的window.asrsea()
函數生成的.
我們發現window.asrsea()
函數有4個參數,在瀏覽器的js控制檯分別對這四個參數進行調試:
後面三個參數是定值,只有第一個參數是控制評論頁面偏移量的參數,它是一個變量.筆者經過分析發現第一個參數的形式是:
{"rid":"R_SO_4_38592976","offset":"0","total":"True","limit":"20","csrf_token":""}
下面我來詳細講解這個變量的發現過程:
首先找到core_dfe56728795d119e4d476fd09ea2dc51.js
這個js腳本,然後將斷點打在第12973行,點擊第一頁評論,頁面加載到斷點處便停止了
然後按下電腦的Esc鍵打開js控制檯,輸入i1x,查看第一個變量:
這是第一頁的i1x的值,接下來看第二頁的(需要點擊第2頁,然後輸入i1x的值):
再看第3頁:
再看第4頁:
通過這幾頁的分析,我們可以得到i1x值的變化規律,且可以得到它的一般形式:
{"rid":"R_SO_4_38592976","offset":"0","total":"True","limit":"20","csrf_token":""}
offset和limit是必選參數,其他參數是可選的,其他參數不影響data數據的生成,offset (頁面偏移量) = (頁數-1) * 20, 注意limit最大值爲100,當設爲100時,獲取第二頁時,默認前一頁是20個評論,也就是說第二頁最新評論有80個,有20個是第一頁顯示的.因此我們可以構造第一個參數爲:
# 偏移量,page是頁數 offset = (page-1) * 20 msg = '{"offset":' + str(offset) + ',"total":"True","limit":"20","csrf_token":""}'
接下來,我們來看一下window.asrsea()函數的整個加密過程:
!function() { // 函數a生成長度爲16的隨機字符串 function a(a) { var d, e, b = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789", c = ""; for (d = 0; a > d; d += 1) e = Math.random() * b.length, e = Math.floor(e), c += b.charAt(e); return c } // 函數b實現AES加密 function b(a, b) { var c = CryptoJS.enc.Utf8.parse(b) , d = CryptoJS.enc.Utf8.parse("0102030405060708") , e = CryptoJS.enc.Utf8.parse(a) , f = CryptoJS.AES.encrypt(e, c, { iv: d, mode: CryptoJS.mode.CBC }); return f.toString() } // 函數c實現RSA加密 function c(a, b, c) { var d, e; return setMaxDigits(131), d = new RSAKeyPair(b,"",c), e = encryptedString(d, a) } function d(d, e, f, g) { var h = {} , i = a(16); return h.encText = b(d, g), h.encText = b(h.encText, i), h.encSecKey = c(i, e, f), h } function e(a, b, d, e) { var f = {}; return f.encText = c(a + e, b, d), f } window.asrsea = d, window.ecnonasr = e }();
window.asrsea()
函數就是上面的d函數,現在我們來看函數d:
function d(d, e, f, g) { var h = {} , i = a(16); return h.encText = b(d, g), // 第一次AES加密 h.encText = b(h.encText, i), // 第二次AES加密 h.encSecKey = c(i, e, f), // RSA加密 h }
參數h.encText
是經過兩次AES加密得到的,h.encSecKey是經過一次RSA加密得到的,其中i是隨機生成的長度爲16的隨機字符串.
三、生成加密參數
首先我們需要生成長度爲16的隨機字符串,這裏我們仿照上面的javascript的實現,用Python生成16位長的隨機字符串:
# 生成隨機字符串 def generate_random_strs(length): string = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789" # 控制次數參數i i = 0 # 初始化隨機字符串 random_strs = "" while i < length: e = random.random() * len(string) # 向下取整 e = math.floor(e) random_strs = random_strs + list(string)[e] i = i + 1 return random_strs
接着用Python實現AES加密,這裏要用到pycrypto庫,先安裝好這個庫:
pip install pycrypto
然後導入加密模塊:
from Crypto.Cipher import AES
由於AES加密的明文長度必須是16的倍數,因此我們需要對明文進行必要的填充,以滿足它的長度是16的倍數:
# msg是需要加密的明文,如果不是16的倍數則進行填充(paddiing) padding = 16 - len(msg) % 16 # 這裏使用padding對應的單字符進行填充 msg = msg + padding * chr(padding)
AES加密的模式是AES.MODE_CBC,初始化向量iv=’0102030405060708′
,具體的AES加密:
# AES加密 def AESencrypt(msg, key): # 如果不是16的倍數則進行填充(paddiing) padding = 16 - len(msg) % 16 # 這裏使用padding對應的單字符進行填充 msg = msg + padding * chr(padding) # 用來加密或者解密的初始向量(必須是16位) iv = '0102030405060708' cipher = AES.new(key, AES.MODE_CBC, iv) # 加密後得到的是bytes類型的數據 encryptedbytes = cipher.encrypt(msg) # 使用Base64進行編碼,返回byte字符串 encodestrs = base64.b64encode(encryptedbytes) # 對byte字符串按utf-8進行解碼 enctext = encodestrs.decode('utf-8') return enctext
然後是RSA加密.首先我簡單介紹一下RSA的加密過程.在RSA中,明文,密鑰和密文都是數字.RSA的加密過程可以用下列的公式來表達,這個公式非常的重要,你只有理解了這個公式,才能用Python實現RSA加密.
密文 = 明文E mod N (RSA加密)
RSA的密文是對代表明文的數字的E次方求mod N 的結果, 通俗的講就是將明文和自己做E次乘法,然後將其結果除以N 求餘數,這個餘數就是密文.
下面來看具體的RSA加密代碼實現:
# RSA加密 def RSAencrypt(randomstrs, key, f): # 隨機字符串逆序排列 string = randomstrs[::-1] # 將隨機字符串轉換成byte類型數據 text = bytes(string, 'utf-8') seckey = int(codecs.encode(text, encoding='hex'), 16)**int(key, 16) % int(f, 16) # 返回整數的小寫十六進制形式 return format(seckey, 'x').zfill(256)
RSA加密後得到的字符串長爲256,如果不夠長則進行填充(不足部分在左側添0).
最後就是獲取那兩個加密參數:
# 獲取參數 def get_params(page): # msg也可以寫成msg = {"offset":"頁面偏移量=(頁數-1) * 20", "limit":"20"},offset和limit這兩個參數必須有(js) # limit最大值爲100,當設爲100時,獲取第二頁時,默認前一頁是20個評論,也就是說第二頁最新評論有80個,有20個是第一頁顯示的 # 偏移量 offset = (page-1) * 20 # offset和limit是必選參數,其他參數是可選的,其他參數不影響data數據的生成,最好還是保留 msg = '{"offset":' + str(offset) + ',"total":"True","limit":"20","csrf_token":""}' key = '0CoJUm6Qyw8W8jud' f = '00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7' e = '010001' enctext = AESencrypt(msg, key) # 生成長度爲16的隨機字符串 i = generate_random_strs(16) # 兩次AES加密之後得到params的值 encText = AESencrypt(enctext, i) # RSA加密之後得到encSecKey的值 encSecKey = RSAencrypt(i, e, f) return encText, encSecKey
四、獲取全部評論
上面我們獲取到了兩個參數encText和encSecKey,利用這兩個參數來構造post表單數據(Form Data),即data的值:
params, encSecKey = get_params(page) data = {'params': params, 'encSecKey': encSecKey}
歌曲評論的URL爲:
url = 'https://music.163.com/weapi/v1/resource/comments/R_SO_4_' + str(songid) + '?csrf_token='
然後把data加到post的參數中去就能獲取到json格式的評論數據.
html = requests.post(url, headers=headers, data=data)
至此,獲取網易雲音樂全部評論的Python爬蟲實現原理分析全部完成!