前言

最近惡補了音視頻融合的方法。國內的論文最後掃19年的碩士畢業論文“基於音視頻特徵融合的暴力鏡頭識別方法研究”，國外的還要繼續讀，差不多再讀兩篇經典的工作就可以寫個小點的綜述，然後繼續修改自己的論文了。需要注意自己有時候做一個方向不自然的就偏了，或者說是強行把工作範圍變大，我前期還是以練好寫論文的功底爲主，別搞這麼雜，對自己不好。

摘要

暴力鏡頭檢測是多媒體視頻領域一項極其重要的任務，具有較高的研究價值和現實意義。目前多媒體視頻的數量與日俱增，這給暴力鏡頭檢測的速度帶來了更高的要求。而且暴力鏡頭涉及的語義類型衆多，包括打鬥、尖叫、爆炸等，這也給暴力鏡頭檢測任務帶來了極大的挑戰。當下絕大多數研究只涉及到某一種暴力類型，檢測的種類相對單一，而且準確率較低，因而亟需面向多種語義類型的暴力鏡頭快速檢測技術。
首先，本文基於暴力的出現一般以鏡頭爲最基本單位的原則，對多媒體視頻進行了鏡頭分割，然後對單個鏡頭進行暴力識別。視頻序列的鏡頭分割是視頻檢索中的關鍵技術之一。針對傳統鏡頭分割方法在單一場景下分割效果差、對於漸變鏡頭檢測準確率低等問題，本文出了一種基於視覺認知機理的視頻鏡頭分割方法。該方法利用分塊顏色直方圖強化視覺顯著區域，突出前後幀之間的差異特徵，進一步高在單一場景下檢測鏡頭切換的準確率。此外，基於人類對於視頻圖像亮度的視覺感知規律，利用滑動窗內相鄰多幀之間的差異來捕捉鏡頭漸變時亮度的變化規律。與傳統方法相比，本文所出的算法取得了較好的分割效果，具有較高的查準率和查全率。
其次，**本文分別從視覺通道、聽覺通道、視聽雙通道對於單個鏡頭的暴力成分進行了深入分析。在視覺通道上，本文比較了視頻行爲分析領域效果最好的密集軌跡特徵方法和目前業界使用較廣泛的深度學習方法。**在深度學習方法中，本文將相鄰兩幀圖像的幀間差分圖作爲卷積神經網絡（Convolutional Neural Network，CNN）的輸入，之後將 CNN 學習到的每個幀間差分圖的特徵送入長短時記憶（Long Short-Term Memory，LSTM）網絡中，對時序信號進行建模。本文在 LSTM 結構中，使用卷積操作進行了改進，改進後的 ConvLSTM 網絡 取到了更高層的空間特徵。在聽覺通道上，本文針對目前暴力音頻數據集稀缺問題，基於 MediaEval 電影數據構建了一個 VioAudio 數據集，然後比較了傳統的聲學特徵方法和分別用原始音頻波形圖和音頻語譜圖作爲網絡輸入的深度學習方法。最後，本文基於視覺通道和聽覺通道上結果最好的深度學習模型進行了融合實驗。我們將視頻中相鄰圖像幀的幀間差分圖及其對應的音頻波形圖分別送入兩個 CNN 網絡中進行特徵的取，之後對特徵進行融合送入 LSTM 網絡中，利用長短時記憶網絡對時序信息進行建模與分類。實驗表明了該音視頻融合方法的有效性。
本文的研究工作爲目前的鏡頭分割任務和多媒體視頻中暴力鏡頭檢測供了有效的解決方案，在多個數據集上的實驗表明，本文出的方法具有一定的可行性和現實意義。同時音視頻融合方案也爲目前多模態信息融合供了新的思路和方向。

1 緒論

緒論中介紹了暴力檢測和鏡頭分割方法的國內外研究現狀，之後提出了這兩個方向存在的問題。
如何從視頻流中找出一個暴力鏡頭，作者介紹了多種鏡頭分割方法。此外作者介紹了當前鏡頭捕捉的一些問題有以下幾個，主要還是沒有公開評價標準吧，

在暴力檢測方法中，作者提到了多模態融合方法單一，特徵提取缺乏理論指導（希望能夠參照大腦如何提取高級特徵的方法），音頻大都基礎特徵工程，採用dl的工作研究較少（這裏說的不是翻譯和文本處理）

工作安排

本文將圍繞多媒體鏡頭分割和暴力鏡頭檢測兩個方面進行相關技術的深入研究。首先將研究多媒體視頻的鏡頭分割方法，主要解決突變鏡頭和漸變鏡頭檢測的準確率低等問題。然後分別從視覺、聽覺和視聽雙通道三個層面對暴力成分進行有效檢測。最後，爲了驗證音視頻特徵融合的有效性，分別將視覺單通道、聽覺單通道、視聽雙通道上的實驗結果進行了對比分析。
本論文的主要框架和結構安排如圖 1-1 所示，各章節的具體內容和結構組織安排如下。

2 基於視覺認知機理的視頻鏡頭分割方法研究

鏡頭是指一個攝像頭在時間和空間上均連續拍攝的一組連續幀，因此鏡頭分割任務也就是將一部完整的視頻劃分成以鏡頭爲單位的片段。
這一節對現有的鏡頭分割方法的不足進行深入分析，指出以視覺認知機理爲指導的視頻鏡頭分割方法。對於突變鏡頭的檢測，本文將採用顏色分塊直方圖的策略解決同一場景下鏡頭切換檢測準確率低等問題；對於漸變鏡頭的檢測，本文將採用長時差分方法來捕捉鏡頭漸變時亮度信息的變化規律。
這部分對我參照意義不大，直接過了。

3基於視覺通道的暴力行爲檢測方法研究

通過上章出的鏡頭分割方法可以將視頻以鏡頭爲單位切分成孤立的視頻片段，之後我們的任務就變成了判斷這些視頻片段是否存在暴力成分，最後可以通過預測出的視頻片段的標記信息（暴力/非暴力）。本文從視覺通道進行暴力行爲的檢測，對深度學習技術和在視頻行爲分析領域使用效果最好的密集軌跡特徵DT方法進行深入研究和對比。

經典算法

DT算法：

DL算法

CNN特徵提取
本文進行了將原始的視頻幀作爲網絡的輸入，以及將視頻中相鄰兩幀之差作爲網絡輸入的對比實驗，結果發現後者的效果更好，這說明了相鄰兩幀之差更容易讓網絡學習到更多的運動模式信息。基於 AlexNet 的暴力特徵取框圖如圖所示：

CNN+convLSTM算法

具體步驟：對連續兩幀圖像作差，來獲得視頻中瞬時的運動目標，然後再用 CNN 網絡對這個瞬時運動目標圖進行特徵取，將每個時刻的特徵送入ConvLSTM 網絡中，進而對一個視頻序列建模。我們使用在 ImageNet 數據集上訓練好的AlexNet 網絡進行特徵取，直接調用 pytorch 包中的AlexNet 的網絡參數，免去了 CNN 網絡訓練的過程。而對於 CNN 獲取的特徵，本文利用了 ConvLSTM 網絡進行時序信息建模，只需對於該 LSTM 網絡進行單獨的訓練即可，因此 CNN-ConvLSTM 融合網絡的訓練方式即只對於 ConvLSTM 網絡進行了訓練。框架圖如下;

實驗對比結果（包括之前的參考文獻方法）

4 基於聽覺通道的暴力音頻檢測方法研究

從聽覺通道角度進行了暴力音頻檢測方法的研究。聽覺通道的分析由於其相較於視覺通道複雜度更低、檢測速度更快，因此在算法時間複雜度要求嚴格的情況下，音頻分析是暴力視頻檢測的一種有效分析方法。**本章從傳統聲學特徵方法和深度學習方法兩個角度對暴力音頻進行了深入研究。**首先，**我們抽取了音頻樣本的聲學特徵，並且爲了將不等長的樣本規正到同等維度，使用了線性規整法進行了特徵的抽取或拓展。此外，爲了刻畫音頻在長時範圍內的包絡特徵，我們還取了統計學特徵。基於聲學特徵和長時統計學特徵的暴力音頻檢測方法取得了較好的檢測效果。在深度學習方面，本文采用了原始波形作爲網絡輸入和音頻語譜圖作爲網絡輸入兩種策略，經過對比，我們發現基於音頻原始波形的端到端檢測方法更有利於暴力音頻檢測。**這也爲後期音視頻特徵融合方法提供了新的思路。

實驗

傳統方法用svm分類特徵，深度學習用上圖和不加語譜圖的方法。

5 基於多通道特徵融合的暴力鏡頭檢測方法研究

這部分設計的結構如上，結果如下，比比賽中最好的方法高了1.9%

6 總結創新點和展望

創新點

對於突變鏡頭的檢測，本文利用顏色分塊直方圖機制強化了視覺顯著性區域，突出了前後視頻幀之間的差異，進一步提高了在單一場景下檢測鏡頭切換的準確率；對於漸變鏡頭的檢測，本文出了基於亮度的長時差分方法，通過比較滑動窗內相鄰多幀之間的差異來捕捉鏡頭漸變時亮度的變化規律，並給出了臨界閾值算法，提升了目前多媒體鏡頭分割的效果。
在視覺單獨實驗中使用convlstm代替lstm
提出了 vioaudio數據集，但是其實還是根據別的數據集做的。使用cnn-lstm發現原始聲音更好。
同時刻視覺通道的幀間差分圖的特徵與原始音頻波形圖的特徵融合，並送至 LSTM 網絡中，進行時序信息的建模。該特徵融合方法參考了人腦在多媒體視頻播放過程中的視聽信息加工過程，有效地提升了多媒體暴力鏡頭檢測的效果。同時該特徵融合方法也爲多模態信息融合領域提供一點新的思路。

展望

在音視頻特徵融合中，可能存在音頻和視頻信息不同步的問題，針對該問題，可考慮先將音頻特徵和視頻特徵進行對齊，然後將對齊後的特徵進行建模，進而構建暴力鏡頭檢測系統
擴大檢測數據集，從中提取更多的正樣本數據。

讀後感

收穫：

每個小節前部分增加一些承上啓下的問題會大大增加文章的閱讀體驗，提高邏輯清晰度。
視頻可以分爲四種級別：幀，鏡頭，場景，視頻流，自己目前的工作好像沒有鏡頭捕捉的這一工作。
這篇文章中的視覺聽覺實驗部分做的很詳細，必須仔細看看，很值得學習，（對比實驗觀看原文）。
爲什麼視覺要用convLSTM是因爲效果conv對視覺更好，但是音頻就不需要了。

疑惑

爲什麼聽覺部分語譜圖沒有原始音頻好呢？一般不是語譜圖好點。
論文結束時候說到信息不同步，這是自己造成的可能不同步，還是音視頻本身不同步呢？因爲相比較動作，聲音更先發出來。（反過來想想如果都是這樣延遲規則，好像dl也能學習到）

思考
論文中很多方法可以參考，後面肯定會重新讀一下細節。公式很多一次性看不完。

基於音視頻特徵融合的暴力鏡頭識別方法研究

目錄

前言

摘要

1 緒論

工作安排

2 基於視覺認知機理的視頻鏡頭分割方法研究

3基於視覺通道的暴力行爲檢測方法研究

經典算法

DL算法

4 基於聽覺通道的暴力音頻檢測方法研究

5 基於多通道特徵融合的暴力鏡頭檢測方法研究

6 總結創新點和展望

創新點

展望

讀後感

釘釘打卡速度慢

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

語法和詞性總結

瞭解爲什麼要學英語？清楚英語的學習路線和方法

最近兩年的OKR

英語OKR

deep learning platform

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結