音視頻開發之旅（66) - 音頻變速不變調的原理

音頻的原始pcm數據是由採樣率、採樣通道數以及位寬而定。常見的音頻採樣率是44100HZ，即一秒內採樣44100次，採樣通道數一般爲2, 代表雙聲道，而位寬一般是16bit 即2個字節。
通過改變採樣率進行音頻的變速，比如音視頻播放器中的 2 倍速，0.5 倍速播放。如果想要實現音頻的2.0倍速播放，只需要每隔一個樣本點丟一個點，即採樣率降低一半。如果想要實現0.5倍速播放，只需要每隔一個樣本點插入一個值爲0的樣本點。就可以了，理想很豐滿，但是如果僅僅這樣做，帶來的不止是速度的變化，聲音的音調也發生變化了，比如周杰倫的聲音變成了蘿莉音，這是我們不期望的。

本篇我們從原理上來學習瞭解下音頻變速不變調是如何實現的。
首先我們先了解下聲音的一些基本知識

一、聲音的基本知識

1.1 聲音是如何發生、傳播和接受的

聲音是由物體的振動產生的，以聲波的方式在介質中傳播。數字音頻通過數模轉換驅動喇叭振動，以聲波在空氣等介質中傳播，人耳接受到不同頻率響度的聲音進行判別是什麼聲音。人類的耳朵一般只能聽到約在20Hz—20,000 Hz的聲音，並且上限會隨年齡增加而降低。

1.2 聲音的三要素

聲音的三要素包括： 響度、音調、音色。在變速時，需要變的是音頻的播放速度，同時要保持音調不變。下面來了解三要素的定義和特點

響度
響度代表聲音的能量強弱，主要取決於振幅大小，聲音的響度一般用聲壓來計量，聲壓的單位爲帕（Pa），它與基準聲壓比值的對數值稱爲聲壓級，單位是分貝(db spl)。人耳對於響度的感知變化並不是線性的，且對低頻和高品都不太敏感，對1000HZ-3000HZ的頻率比較敏感，具體如下面等響曲線描述：
等響曲線的橫座標爲頻率，縱座標爲聲壓級。在同一條曲線之上，所有頻率和聲壓的組合，都有着一樣的響度。有下圖可見，在 3 000 Hz 左右的頻率範圍，較低的聲壓級都能造成相同的響度，代表聽覺對該段頻率的聲音較爲敏感。

圖片來自百科-響度

音調
聲波是有可以看作是有無數個不同頻譜、振幅和相位的正弦波組成，音調的大小主要取決於聲波基頻的高低，不同樂器的基頻不同，比如 bass的頻很低，而軍鼓的頻率就比較高；鋼琴鍵不同鍵的頻率也不同，男生和女生的基頻也不相同，女生聲音的基頻比男聲要高。

圖片來自：如果看了這篇文章你還不懂傅里葉變換，那就過來掐死我吧

音色
音色在百科中的定義如下：

不同音色的聲音，即使在相同響度和音調的情況下，也能讓人區分開來。聲音是由發聲的物體的振動產
生的。當發聲物體的主體振動時會發出一個基音，同時其餘各部分也有複合的振動，這些振動組合產
生泛音。正是這些泛音決定了發生物體的音色，使人能辨別出不同的樂器甚至不同的人發出的聲
音。所以根據音色的不同可以劃分出男音和女音；高音、中音和低音；絃樂和管樂等。所有泛音都比基
音的頻率高，但強度都相當弱。

1.3 音頻分析處理—時域和頻域

音頻分析處理領域可以分爲時域和頻域。
時域上表現爲波形隨着時間變化而變化。
波形圖如下

頻域分析則是首先對時域信號分幀、加窗、做stft（短時傅立葉變換）等處理，更方便的進行計算。比如把20ms-50ms的一個波形看作一個週期，進行分幀加窗處理，計算出改幀不同頻率的響度值。
頻譜圖如下

音頻的分析處理也是一個非常有意思涉及內容很廣的領域，有些實現可以在時域比較方便的完成實現，比如我們今天的主題：變速不變調的TSM就是在時域上進行處理。而更多的需要頻域上進行分析處理，希望自己能在這個領域更深入堅持學習和輸出。

鋪墊了那麼多，終於到了今天的主題部分。其中下文大部分圖片來自變速不變調經典論文: A Review of Time-Scale Modification of Music Signals

二、時域壓擴（TSM)的原理

變速不變調的經典算法爲時域壓擴(TSM. Time-Scale Modifacaiton)
基本思路是：在時域上對音頻信號進行分幀（analysis fames）處理，一般選擇20ms-50ms週期波作爲分幀單元，爲了使分幀後不同幀之間平滑的過度，幀與幀之間會有一部分的重疊（overlap），通常爲50%或者75%的重疊，相鄰兩幀的起始位置的時間差成爲幀移。