Deezer的AI可以根據情緒和強度對歌曲進行分類

人類的耳朵可以毫不費力地消除歌曲的情緒,例如,Eric Clapton的“天堂之淚”中的憂鬱症,或者Led Zeppelin的“Whole Lotta Love ”中的激情然而,機器確實如此。爲了讓後者更像前者,Deezer的研究人員開發了一種人工智能系統,可以將某些音軌與情緒聯繫起來。

他們在預印本服務器Arxiv.org上發表的一篇新論文(“ 基於音頻歌詞與深度神經網絡的音樂情緒檢測 ”)中描述了他們的工作。

“自我音樂情緒檢測一直是一個活躍的研究領域......在過去的二十年裏,”他們寫道。“它包括自動確定聽音樂時感受到的情緒。在這項工作中,我們專注於基於音頻信號和音軌歌詞的多模態情緒檢測任務。“

該團隊引用心理學研究表明,在分析音樂情緒時,歌詞“應該共同考慮”,設計了一個神經網絡,他們分別提供音頻信號和word2vec嵌入訓練160萬首歌詞。爲了教它衡量歌曲的情感共鳴,他們選擇了百萬歌數據集(MSD),一個與LastFM標籤相關的音軌數據庫,其中一些與情緒有關,以及14,000個英語單詞,其中嵌入的價值範圍從負數到積極的)和喚醒(從冷靜到精力充沛),他們用來選擇上述訓練標籤。

由於MSD不包含音頻信號和歌詞,因此團隊使用歌曲元數據將其映射到Deezer的目錄,特別是歌曲標題,藝術家姓名和專輯標題。並且他們在相對於歌詞長度的相應位置從歌詞中提取單詞。

大約60%的結果數據集,總共18,644個註釋軌道,用於訓練模型,其中40%用於驗證和測試。

與利用與情緒相關的詞彙的經典系統相比,深度學習模型在喚醒檢測方面更優越。當涉及到價格檢測時,結果更像是一個混合包 - 研究人員指出,深度學習中基於歌詞的方法往往表現不佳,但它仍然設法與基於特徵工程的方法的性能相匹配。

研究人員寫道:“這種性能提升似乎是我們的模型能夠揭示並使用音頻和歌詞之間的中級相關性的結果,特別是在預測效價方面。” “詳細研究和優化用於音樂情緒檢測的ConvNets提供了暫時定位負責軌道效價和喚醒的區域的機會。”

他們建議隨後的研究可以使用帶有標籤的數據庫來指示軌道情緒的模糊程度,或利用在大量未標記數據上訓練的無監督模型。他們認爲,這兩種方法都將“顯着提高”未來模型的預測準確性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章