Music Mood Detection Based On Audio And Lyrics With Deep Neural Net
論文地址:https://arxiv.org/abs/1809.07276
2018.10.31
所有的論文筆記都放在github上,這是我和我的兩個學妹暫時contribute,論文都是和音樂情感相關的論文。
論文簡介
本文是2018年ISMIR音樂情感類中的四篇文章之一。
作者基於2008的文章Multimodal Music Mood Classification using Audio and Lyrics上進一步研究audio,lyrics和valence/arousal之間的關係。作者復現了經典的方法:A svm on top of MFCC,spectral flux,rollof,centroid和A svm on top of basic,linguistic,stylistic features,與三種基於audio,lyrics,和融合兩種模態的深度學習模型進行對比。
Dataset:
- 來自MSD,其中的標籤來自last FM,使用文獻11的程序選擇the tags that akin to a mood description。
- 用文獻30的數據集,講14000個英語詞彙映射到V/A空間。
- Get the embedding values,normalize the database by centering and reducing valence and arousal
- MSD does not provide audio signal and lyrics, we should synchronize audio and lyrics
實驗的主要結論:
- Lyrics and audio get similar performance on valence prediction; audio outperforms on arousal prediction
- Deep learing approaches are much higher than CA based on audio, On the contrary, CA higher performing than deep learing based on lyrics(傳統方法使用了基於心理學研究的情緒-詞彙特徵,而audio 的特徵工程沒有使用外部的資源)
- 在late fusion中,arousal detection 任務,融合了lyrics和audio的深度學習模型沒有得到提升
- 在valence detection中,最優表現的模型出現在兩個模型比較平均fusion 的情況下。
- Something interesting:mid-level fusion 在valence檢測上有顯著得提升,似乎兩個模態有某種初期的聯繫。但是從arousal detection上來看,似乎這種聯繫時無效的,因爲我們已經能看到基於歌詞信息的模型不能帶來額外的信息。