[翻譯]A Topic Model for Melodic Sequences

旋律序列的主題模型

原文鏈接

作者

Athina Spiliopoulou [email protected]
Amos Storkey [email protected]
愛丁堡大學信息學院

摘要

我們考慮直接從屬於相同流派的音樂序列中學習旋律的概率模型問題。這是一個具有挑戰性的任務,因爲我們不僅需要捕捉在音樂中明顯的富含大量的時間結構,而且我們也要計算不同音樂組件之間的複雜的相關性。爲了解決這個問題,我們介紹了Variable-gram 主題模型,Variable-gram 主題模型將潛在主題以一個上下文信息的系統模型的形式聯繫起來。我們對模型下一步的預測進行評估。此外,我們提出了一個新的模型評估方法,我們利用字符串核的最大均值差異的方法對模型樣本與數據序列進行直接比較,得到模型分佈與數據分佈的接近程度。我們通過在相同的評估標準下比較LDABigram主題模型有關聯的非主題模型表明該模型體現了最好的性能。

1. 介紹

對於機器學習而言,模擬真實世界音樂的複雜性是一個很有意思的問題。在西方音樂中,pieces 是通過系統的音樂機制演繹作爲音樂基礎的音樂結構的一種典型的組合。然而,描述這種結構卻尤爲困難,因爲它不僅取決於實現幾個音樂元素,例如音階,節奏,拍子,而且關係到單個時間和交叉時間元素之間的關係。這導致即使pieces來自通常根據單一的曲式構建的相同的音樂流派,可能的變化的情況還是無窮多。

爲了解決旋律建模問題,我們提出了Variable-gram 主題模型,模型採用了Dirichlet可變長度馬爾可夫模型(Dirichlet-VMM)進行詞的主題分佈。Dirichlet-VMM模型通過學習表示未來的可變長度的上下文建立時間結構。與此同時,隱含的主題代表了不同的音樂組織方法,從而允許我們能夠在音樂中建立不同的風格,調性和力度。該模型沒有做任何明確的音樂假設,但是該模型特別適合應用於音樂的上下文,因爲該模型可以對大而複雜的時序依賴性進行建模而不強制一個平穩的數據假設。每個序列被建模爲潛在的成分(主題)的混合集,並且根據分配出的數據的統計結果每一個成分對不同命令下的馬爾可夫相關性進行建模。

爲了評估模型的性能,我們使用兩個指標對相關模型進行比較分析。第一個是基於每一個模型的測試序列下一步預測(next-step prediction)的對數似然估計的平均值。第二個是字符串核的最大均值差異對樣本模型和測試數據序列進行計算。在這兩種評價體系中,我們發現雖然使用主題提高了性能,但是它無法克服以一個系統對時間模型的需要。在相同的評價目標中,聯合了這兩個策略的Variable-gram主題模型具有最好的性能。

本文的主要貢獻有:
(a) 我們介紹了Variable-gram主題模型,通過考慮相當複雜的上下文信息模型的條件分佈擴充了主題模型的建模方法。
(b) 我們介紹了關於評價離散數據的生成模型的一種全新的方法。這裏採用了字符串核的最大均值差異法直接對模型樣本和數據序列進行比較。

2. 背景

已經有許多機器學習和統計方法應用於音樂相關的問題。這裏我們討論作爲輸入的離散的音樂序列的方法並且嘗試對旋律結構進行建模。Lavrenko & Pickens (2003)爲了對復調音樂建模提出了隨機字段的馬爾可夫模型(MRFs). 這個模型非常一般,但是爲了保持易於處理,很多信息被遺棄,因此這個模型並不適合實際音樂。Weiland等人(2005)提出了音高的分層隱藏馬爾可夫模型(HHMM)。該模型根據被調查的音樂流派的結構預定了三個內部狀態。Eck & Lapalme (2008)爲了對旋律建模提出了一個長短時記憶循環神經元網絡。該網絡以和絃和某些之前幾次setp作爲條件根據測量邊界進行選取。(The network is conditioned on the chord and certain previous time-steps, chosen according to the metrical boundaries.)Paiement et al. (2009)提出了一種有趣的方法,這種方法將音樂知識併入了旋律建模任務中。他們爲旋律給定和絃,節奏和一個從受限於節奏的輸入輸出的隱馬爾可夫模型(Input-Output HMM)中提取出的Narmour特徵的序列從而定義了一個圖解模型。

一個非常成功的研究路線檢索的方法從統計語言建模和文本壓縮的領域到音樂建模。Dubnov et al. (2003)提出了兩個機遇字典基礎的預測方法,Incremental Parsing (IP)和Prediction Sux Trees (PSTs),用於可變程度的馬爾可夫模型的旋律建模。儘管該模型相當簡單自然,但是VMM模型能夠同時獲取大小型馬爾可夫依然性並且生成了不錯的音樂後代。Begleiter et al. (2004)研究6種不同的訓練VMM的算法。這些算法的不同在於他們處理事件的計數方式,關於未觀測的事件和可變長度建模的平滑化處理。Spiliopoulou & Storkey (2011)爲解決旋律模型問題提出了基於貝葉斯的VMM,Dirichlet-VMM模型。該模型顯著優於使用PST算法訓練VMM。最後是一個有趣的基於字典的音樂上下文預測在Pearce & Wiggins (2004)中被提及。他們描述了一個多視點系統,其中包括一個通過部分匹配模型(PPM)的交叉預測。

3. The Variable-gram Topic Model

在這個部分,我們介紹Variable-gram主題模型,我們在之後會應用於旋律序列。在音樂模型的上下文中,文檔相當於音樂的pieces,詞相當於音節(notes)。Variable-gram主題模型是通過使用Dirichlet-VMM模型處理基於詞的主題分佈參數對隱含狄利克雷分佈(Latent Dirichlet Allocation, LDA)的一種沿拓。下面我們開始描述Dirchlet-VMM模型。

3.1 The Dirichlet-VMM

Dirichlet-VMM是定義基於一個有限的字母表的一個分離有序數據的貝葉斯分層模型。該模型在給定上下文的條件下給出下一個符號的條件概率分佈,其中上下文的長度變化是根據我們實際的觀察。在預測期間會使用在數據中經常發生的長的上下文,而對於那些不頻繁的上下文,他們更短的副本(counterparts)將會被使用。

類似於VMM, 模型是通過後綴樹來表現,後綴樹在根節點開始將上下文作爲路徑儲存;在樹中節點越深相應的上下文越長。樹深度的上限爲L,即最大允許上下文的長度。樹並不是一個完整樹,只有在數據中出現頻率足夠多或者運輸了對預測下一個符號有用的信息的上下文才會被存儲。更多關於概率後綴樹算法構築VMM樹的詳情見Ron等人(1994).

注:由於本人通讀完改論文之後並不能完成代碼實現功能,如果有哪位大神實現了,求聯繫。本着學習的態度,遇見不會的又跑回去學習去了,所以這篇文章翻譯的會比較慢,點擊文章中的人名鏈接均可以下載相應文獻或者跳轉到比較優秀的博客上。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章