CQCC
1. abstract
CQCC特點,時間分辨率可變
優點是能夠可靠捕獲模仿攻擊的一些信息,並且他的結構對用例情景和模仿攻擊同時敏感(以往的仿模仿的系統沒有和用例情景結合)
2. Introduction
ASV面臨的攻擊:
- replay
- voice conversion
- speech synthesis
- impersonation
一般情況下可以通過特徵提取和模式識別的作爲對策,但最好是研究一種新的具有魯棒性的特徵,因此用到了CQT,來自音樂處理領域(有空可以看一看他的論文)
然後看一下FFT和CQT的時間頻率分辨率的對比:
究竟爲什麼CQT適合做音樂處理,軌道分離?並且CQT的缺點又是什麼,需要看其中的引文。
WIKI上的CQT和FFT的對比彙總:(他 = CQT)
- 他的數據量少
- 他的計算和實現比較複雜
- 他能提取樂器的特徵,諧波的模式,和基頻無關
- 他更符合人的聽覺感官
- 可以用他來計算基頻
3. computation of CQT
3.1 old version
Q就是代表了音高,它可以近似的表示成距離fk基音的第幾個音,N(窗口大小)又和Q成正比,因此這就是爲什麼頻率高的時候,N大,時間分辨率高的原因。
3.2 new version
CQCC
想法:
窗可變width 非stack方法
除基
參考論文:Constant Q Cepstral Coefficients: A Spoofing Countermeasure for Automatic Speaker Verification