算法推歌20年:從Pandora、Spotify到QQ音樂、網易雲音樂 算法推歌20年 國內平臺是怎麼做算法推歌的? 算法之外,推歌路在何方?

作者 | 魯修修          編輯 | 範志輝


從雜誌、報紙上的樂評專欄,到音樂流媒體上的用戶評論、算法推薦,人們聽歌的選擇方式一直處於私人化和公開化之間。


近期,音樂軟件Plexamp又進行了一次大規模的升級,其中最受關注的,當屬新功能“Super Sonic”的上線。據Plex介紹,這款只針對會員用戶的新功能將利用龐大的神經網絡,從“聲音”上對用戶歌單中的歌曲進行分析,完成新內容的個性化推薦。不過,這一功能“更新需要佔用大量的CPU,可能要花費您數小時甚至數天的時間。但一旦更新完成,將帶給您全新的音樂體驗。”


其實,以歌曲本身的要素作爲標籤,並對歌曲進行分類,“Super Sonic”的個性化推薦思路似乎沒有創新,利用人工智能對歌曲進行分析也並不新鮮。而從Pandora、Spotify到QQ音樂、網易雲音樂,國內外音樂流媒體平臺的推薦系統已發展了20年。


長期以來,“國內推薦系統的體驗不如國外”的聲音一直層出不窮,如今“Super Sonic”橫空出世,又掀起了新一輪關於個性化推薦的討論。時至今日,“國外的推薦系統好在哪裏”這個老問題,是否有了新的答案?


算法推歌20年


互聯網音樂電臺Pandora推出的“音樂基因組計劃”,是最早向用戶個性化推薦歌曲的系統。


2000年,Pandora把一羣音樂家和音樂技術人員聚在一起,他們從流派、節奏、風格等多方面來給歌曲貼“標籤”,然後過濾這些標籤,以達到分類的效果,最後把不同類型的歌曲推送給自己的用戶。彼時,Pandora給歌曲貼的標籤,基本上取決於音樂家的個人理解,而人工分析一首歌,往往需要15~30分鐘的時間。

如今,Pandora的推薦系統已相當強大,它能從超過450個角度理解歌曲——包括流派、歌手、旋律、和聲等,甚至是歌手的鼻音。歌曲的每個特性被賦予0~5之間的值,通過對特性的描述,推薦系統描繪出了歌曲的DNA圖譜。


同時,構建DNA圖譜的過程也在逐漸智能化。目前,Pandora採用人工+人工智能的組合來爲歌曲貼“標籤”,對於一些“簡單”的特性,例如和聲、吉他效果等,人工智能已完全可以勝任。而對於一些“複雜”的特性,例如歌詞表達的情感、微妙的旋律變化等,目前仍由音樂工作者來進行判斷。


Spotify的個性化推薦之路則開始得晚一些。2015年,在收購了音樂個性化數據提供商The Echo Nest後,Spotify的推薦系統纔開始“登堂入室”。Discover Weekly是Spotify的首個個性化推薦功能,可以根據用戶的喜好,每週爲用戶推薦30首歌曲。

與The Echo Nest早先的設計相似,Spotify的推薦系統主要採用協同過濾、自然語言處理、音頻分析三種推薦模型。


協同過濾模型主要分析用戶間的關聯,在其中,Spotify的曲庫與用戶構成了一個龐大的二維矩陣,通過對這個矩陣的拆解,得到相似的用戶向量和歌曲向量,以向用戶推薦其他有着相似口味的用戶喜愛的歌曲。


自然語言處理模型則是從人們對歌曲的評價中來提煉每首歌曲被提及時常用的形容表達、句子、名詞等“關鍵詞”,並給這些關鍵詞設定不同的權重,以量化在人們眼中哪些歌曲是相似的。


由於新歌的播放數據和用戶評價都較少,協同過濾模型和自然語言處理模型難以起到很好的效果。爲此,Spotify在推薦系統中加入了音頻分析模型。其通過分析原始音軌文件來進行分類過濾,在卷積神經網絡的幫助下,歌曲時間內的特徵統計量(拍子記號、音調、調式、速度等)得以形象化,並被用來分析歌曲間本質上的相似性。

要實現對用戶的個性化推薦,除了對內容的精準描述外,精準的用戶畫像也同樣重要。


2018年,Spotify申請的一項專利被視爲其推薦系統2.0版本到來的標誌。據悉,這項專利是一項音頻信號處理技術,能夠對用戶的語音內容和背景噪音進行處理,以得到用戶的情緒狀態數據。再加上對年齡、性別、地區等傳統數據的綜合分析,Spotify將爲用戶提供更爲精準的推薦內容,“把推薦技術提升到一個新的水平”。


與Spotify和Pandora試圖去深刻理解用戶不同,剛剛上線的“Super Sonic”並沒有在用戶畫像上下功夫——這款僅針對Plex付費用戶推出的功能,只是爲了推薦用戶可能喜歡的歌曲。“Super Sonic”將一首歌曲的“聲音”從旋律、節拍等50多個維度進行分解,根據分析結果,歌曲們被放進了一個以歌曲特性爲座標軸的N維空間中,並用不同的點表示。在N維空間中,兩個點越接近,它們代表的歌曲就越“相似”。


50維空間中的計算需要極大的計算量,這或許是在安裝“Super Sonic”時需要耗費數小時甚至數天時間的原因。

儘管運作系統十分龐大,但“Super Sonic”並未帶來多少新意。對歌曲本身進行分析,這與Spotify的音頻分析模型的想法不謀而合;而通過尋找兩個相近的“點”來召回歌曲,則是協同過濾模型中常用的求解思路。


不過,與各位“前輩”相比,“Super Sonic”也有着自己的亮點——它完全擺脫了對元數據的依賴。儘管Spotify的音頻分析模型也只對歌曲本身進行分析,但最終被端上用戶餐桌的,是由多個模型共同決定的內容。直觀來看,“Super Sonic”這種“不加以辨別”的推薦方式,意味着獨立音樂人有更多被聽見的可能,也給聽衆帶來了更多新的探索。


國內平臺是怎麼做算法推歌的?


衆所周知,用戶對音樂的反饋越多,個性化推薦的內容越精準。其實這是一種雙向互動的過程——推薦系統學習到用戶喜好,用戶也藉助算法工具實現了對自己潛在音樂喜好的探索。


在這種推薦系統與用戶的雙向互動中,“標籤”是推薦歌曲最重要的依據。無論是Pandora“音樂基因組計劃”還是Spotify的三種算法模型,核心目的都在於給一首歌曲貼上足量且準確的“標籤”。

在標籤的解讀上,QQ音樂的推薦系統給出了一些新的思路:在標籤系統中加入了視覺元素,從音視頻和藝人的角度對歌曲進行拆解;流派方面,QQ音樂綜合國情,開發出了諸多中國獨有的“標籤”。例如例如通行的“電音”“說唱”等流派劃分外,還加入了“國風”、“城市民謠”、“大衆流行”等中國特有的“標籤”,以照顧到不同受衆的口味與感受。


QQ音樂推薦系統的另一個創新點則是建立了歌曲的知識圖譜。在採訪中,QQ音樂數據算法負責人Toro對音樂先聲表示,知識圖譜是由歌曲豐富的知識信息組成的網絡結構,在這個網絡中,每首歌曲就是一個點,具有相同特徵(例如專輯、歌手、音色等)的所有歌曲連成線,所有線交織在一起,則構成了一張蘊含着歌曲關聯信息的網狀知識圖譜。


知識圖譜的應用,無疑給分析歌曲之間的相關性提供了更多的角度。作爲可讀性較高的外部知識載體,歌曲的知識圖譜提供的信息也應用到了QQ音樂的個性化推薦板塊(個性電臺、每日30首等)。

在用戶分析方面,QQ音樂主要採用行爲序列和語義分析兩種模型。用戶對每首歌曲的搜索、播放、收藏、切歌等在APP中的所有行爲構成的行爲序列,再結合從語義分析出的用戶音樂個性,幫助QQ音樂爲每位用戶刻畫出了獨有的“音樂肖像”。


可見,在歌曲角度和用戶角度,QQ音樂的算法推薦系統儘可能做到多樣化的數據融合和本土化,在新熱歌曲的推薦上表現也比較突出。


而作爲國內第一個以歌單爲底層架構的在線音樂平臺,網易雲音樂對推薦系統有着自己的理解。除了用戶對一首歌曲的播放、收藏、轉發等常見的反饋外,社交功能強大的網易雲音樂還擁有評論區這一豐富的“資源”。爲此,網易雲音樂專門上線了針對評論語義分析功能,以從評論的語義中判斷用戶對歌曲的偏好程度。

隨着推薦系統近年來的飛速發展,用戶的要求也在水漲船高,不少用戶表示推薦系統很少給自己帶來“驚喜感”。這是由於在已有的推薦系統中,用戶畫像方法大都沒有考慮用戶屬性標籤的時效性,因此很難刻畫用戶的動態變化。


網易雲音樂對於深度時序網格的引入,在一定程度上解決了這個問題——深度時序網格對用戶過去一段時間及當前的聽歌習慣進行分析,通過對用戶興趣點的快速更新,不僅實現了對用戶的實時建模推薦,還能幫助用戶發現潛在喜歡的歌單類型。網易雲音樂相關負責人對音樂先聲表示,這在一定程度上帶來了用戶使用中的”驚喜感”。


但由於深度時序網絡較爲複雜,推薦系統的可解釋性在一定程度上也會受影響。可解釋性主要分爲兩個方面,一方面是算法的可解釋性,算法的可解釋性差意味着在推薦系統出現偏差時,算法工程師更難找到問題所在;另一方面則是推薦結果的可解釋性,如果一個推薦系統能夠給出推薦這些內容的原因,則說明其具有較好的可解釋性。

清華大學張敏教授在某購物平臺上進行的一項實驗表明:當推薦結果的可解釋性增強時,用戶對其的點擊率也會有所提升。這就說明,良好的可解釋性意味着更高的用戶接受度。算法推歌也是同樣的道理。


也就是說,在給出精準推薦的同時,還能給出可靠的解釋,這樣的推薦系統往往能收到更好的推薦效果。這也是目前國內外音樂平臺在個性化推薦系統領域的努力方向——不僅要提高用戶選擇推薦內容概率及用戶滿意度,還要提高用戶對系統的信任與接受程度。


算法之外,推歌路在何方?


長期以來,國內音樂平臺的推薦系統一直被拿來同國外作比較,不少用戶表示,目前國外音樂平臺推薦系統的使用體驗較好,甚至認爲這種差距主要來自於推薦技術上的落後。


但其實,在世界一流的技術團隊的努力下,從算法到模型,在技術層面,國內的推薦系統並不比國外差。Toro認爲:“相比於國外,國內的推薦技術並不處於劣勢,國外的創作者生態和數據結構發展得比較成熟,這是他們的優勢所在。我們處於不同的發展時代,而時代的發展是每個音樂產業都要經歷的。”

以起步較早的Pandora爲例,“音樂基因組計劃”在推薦系統領域已深耕超20年,得益於8000萬用戶的龐大基數,截止目前,Pandora已處理了超1000億條用戶反饋。在豐富數據的“投餵”下,國外音樂平臺的推薦系統起點更高。正如Toro所說:“國外音樂平臺長時間搭建起的數據體系是最寶貴的財富,而這些東西是算法層面無法解決的”。


同樣無法短時間解決的,還有國內音樂創作生態的問題。在音樂市場尚未成熟的背景下,仍存在不少蹭熱度、濫竽充數的創作現象,當這些歌曲流入推薦歌單中時,無疑會使用戶體驗大打折扣。


當然,由於當下受衆市場音樂審美的“參差”,確實給了一批“以次充好”的歌曲以生存空間,但並不意味着用戶永遠只能沉迷在“神曲”之中。當被問及音樂平臺是否應該肩負起引導用戶審美的責任時,Toro認爲:“毫無疑問是需要的,這是每個平臺都應該達到的效果”。算法其實也是有價值觀的,科技向善不應該只是一句口號,我們也樂見於更多不同類型的好音樂被聽到。


與此同時,隨着個性化推薦系統的飛速發展,不少隱形問題也開始被放上桌面。比如,推薦系統帶來的“信息繭房”效應就一直飽受詬病——如果一直被推送同一種類型的內容,用戶的興趣可能會被限制在其中。有網友曾指出,Spotify推薦音樂類型和風格範圍會隨時間推移而逐漸收窄,這意味着如果不去主動尋找其他音樂,Spotify的推薦算法只會強化已推薦音樂的類型。


而在今年4月,Spotify的研發中心開發了一種新的動態模型——用戶喜好過渡模型(Preference Transition Model,PTM),通過在音樂流媒體、飯館推薦、電影推薦三個領域的試驗,發現PTM能夠“揭示一些用戶偏好隨時間變化的顯著規律”,在一定程度上可以預測用戶喜好的變化趨勢。

國內的推薦系統也上線了深度時序網格來探知用戶興趣的變化,但真實準確地反映用戶的興趣遷移還很難。目前,推薦系統更多的是引導用戶進行興趣與品味的探索——基於一定的價值觀,推薦系統會給偏好老歌的用戶推薦一些較新的歌曲,給偏保守的用戶推薦一些較爲“先鋒”的歌曲等。


不過,個性化推薦帶來的用戶隱私問題也被重視起來。自今年1月Spotify獲批從用戶語音來推測情緒的專利以來,這項技術一直飽受爭議,不少人擔心自己的“私密信息”在應用軟件的過程中被泄露。這樣的擔心並非無中生有,有心之人利用推薦系統侵犯用戶隱私的事件並不少見。

2016年,劍橋分析公司通過小測試的形式獲取了5000萬Facebook用戶的個人信息,進行心理學分析後,其通過社交媒體向這些用戶“個性化推薦”有利於特朗普競選的內容。據統計, 在民衆沒有察覺的情況下,這些推薦內容潛移默化地影響了全美至少四分之一的潛在選民。


由於在面對不同的互聯網產品時,用戶有着不同的行爲表現,因此整合不同平臺推薦系統刻畫出的用戶畫像,必然會使用戶畫像更爲形象立體。但這同樣就會帶來侵犯用戶隱私的問題——不同平臺的合作勢必要對用戶身份進行關聯,打破利用用戶信息與侵犯用戶隱私間微妙的平衡。

而如果不能解決“推薦與隱私的悖論”,用戶將永遠無法安心地享受技術帶來的便利。8月27日,國家互聯網信息辦公室發佈的關於《互聯網信息服務算法推薦管理規定(徵求意見稿)》就提到,算法推薦服務提供者“不得將違法和不良信息關鍵詞記入用戶興趣點或者作爲用戶標籤並據以推送信息內容,不得設置歧視性或者偏見性用戶標籤”,同時,“應當向用戶提供不針對其個人特徵的選項,或者向用戶提供便捷的關閉算法推薦服務的選項”,以保護用戶的合法權益。


從Pandora、Spotify到QQ音樂、網易雲音樂,我們也會發現,只要給到足夠豐富的內容標籤和用戶畫像,算法推歌就可以無限趨近於真實甚至驚喜的聽歌需求。就目前國內外的個性化音樂推薦體驗差距來說,技術本並不是最關鍵的要素,而在於一個時間積累的用戶數據“投餵”,以及更好的創作者生態與用戶審美。


當然,在被動享受算法推歌的技術便利時,如果我們能夠保持自主發現好音樂的習慣,或許能夠更真實地體驗到聽歌的樂趣,在賽博世界多一些儀式感。


排版 | 安林

本文爲音樂先聲原創稿件,轉載及商務合作,請聯繫我們。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章