yt8m如何做幀特徵?

最近一直困擾的就是特徵問題,視頻特徵——>幀特徵——>特徵聚合/融合

前天看了對面大佬的ppt,也是用的linrongcheng大佬的想法來做的特徵,包括視頻幀/音頻/文字,大佬說其實還是視頻特徵最重要,影響很大,而音頻反而區分度不大,文字特徵似乎沒有見lin大佬提及,且不管,先按照lin大佬的做一下特徵提取。

【據我所知lin大佬的想法與TSM應該差不多是同一時期,且後者可能還是State of the art,然而對面還是用的lin大佬的方法,說明後者可能有些其他問題,比如做特徵問題embedding或其他。當期yt8m挑戰賽,lin大佬處於第3位置】

下載兩個壓縮文件,如果半路下載失敗,可能會造成解壓後的npy文件報錯,建議手動下載,然後解壓。

inception V3最後幾個結點

mixed_10/tower_2/conv
mixed_10/join/concat_dim
mixed_10/join
pool_3
pool_3/_reshape/shape
pool_3/_reshape
softmax/weights
softmax/biases
softmax/logits/MatMul
softmax/logits
softmax

所需要的正是最後一個pool3結點的數據,然而這裏沒有給出是avg還是max,據我所知預訓練的好像都有吧,沒關係

兩個解決方法查看是什麼pool,安裝查看模型軟件或者乾脆看數據

結果發現是avg,如圖

獲取的這個特徵再進行PCA操作,這個PCA不是一般 的PCA,給了固定的mean,特徵值及特徵向量,且最大最小值也不是一般的值,真讓人匪夷所思。有沒有大佬能解釋下這些PCA數據是怎麼來的嗎?爲何按照這些數據進行PCA?

pca_mean.max()
1.1148938
pca_mean.min()
0.098046266
pca_eigenvals.max()
14.738506
pca_eigenvals.min()
0.015357833
pca_eigenvecs.max()
0.17467968
pca_eigenvecs.min()
-0.27399188

將inceptionV3 得到的特徵減去PCA_mean,然後與pca特徵向量相乘,得到的結果除以sqrt(特徵值+1e-4)

這就得到幀級特徵PCA後的結果,這是啥意思呢??這種結果比沒有的好??待我看paper

拜拜。

 

另外有相關問題可以加入QQ羣討論,不設微信羣

QQ羣:868373192 

語音圖像視頻深度-學習羣

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章