論文筆記||2018(ISMIR) Music Mood Detection Based On Audio And Lyrics With Deep Neural Net

Music Mood Detection Based On Audio And Lyrics With Deep Neural Net

論文地址:https://arxiv.org/abs/1809.07276
2018.10.31

所有的論文筆記都放在github上,這是我和我的兩個學妹暫時contribute,論文都是和音樂情感相關的論文。

論文簡介
本文是2018年ISMIR音樂情感類中的四篇文章之一。

作者基於2008的文章Multimodal Music Mood Classification using Audio and Lyrics上進一步研究audio,lyrics和valence/arousal之間的關係。作者復現了經典的方法:A svm on top of MFCC,spectral flux,rollof,centroid和A svm on top of basic,linguistic,stylistic features,與三種基於audio,lyrics,和融合兩種模態的深度學習模型進行對比。
Dataset:

  1. 來自MSD,其中的標籤來自last FM,使用文獻11的程序選擇the tags that akin to a mood description。
  2. 用文獻30的數據集,講14000個英語詞彙映射到V/A空間。
  3. Get the embedding values,normalize the database by centering and reducing valence and arousal
  4. MSD does not provide audio signal and lyrics, we should synchronize audio and lyrics

實驗的主要結論:

  1. Lyrics and audio get similar performance on valence prediction; audio outperforms on arousal prediction
  2. Deep learing approaches are much higher than CA based on audio, On the contrary, CA higher performing than deep learing based on lyrics(傳統方法使用了基於心理學研究的情緒-詞彙特徵,而audio 的特徵工程沒有使用外部的資源)
  3. 在late fusion中,arousal detection 任務,融合了lyrics和audio的深度學習模型沒有得到提升
  4. 在valence detection中,最優表現的模型出現在兩個模型比較平均fusion 的情況下。
  5. Something interesting:mid-level fusion 在valence檢測上有顯著得提升,似乎兩個模態有某種初期的聯繫。但是從arousal detection上來看,似乎這種聯繫時無效的,因爲我們已經能看到基於歌詞信息的模型不能帶來額外的信息。
發佈了33 篇原創文章 · 獲贊 6 · 訪問量 1萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章