yt8m如何做帧特征?

最近一直困扰的就是特征问题,视频特征——>帧特征——>特征聚合/融合

前天看了对面大佬的ppt,也是用的linrongcheng大佬的想法来做的特征,包括视频帧/音频/文字,大佬说其实还是视频特征最重要,影响很大,而音频反而区分度不大,文字特征似乎没有见lin大佬提及,且不管,先按照lin大佬的做一下特征提取。

【据我所知lin大佬的想法与TSM应该差不多是同一时期,且后者可能还是State of the art,然而对面还是用的lin大佬的方法,说明后者可能有些其他问题,比如做特征问题embedding或其他。当期yt8m挑战赛,lin大佬处于第3位置】

下载两个压缩文件,如果半路下载失败,可能会造成解压后的npy文件报错,建议手动下载,然后解压。

inception V3最后几个结点

mixed_10/tower_2/conv
mixed_10/join/concat_dim
mixed_10/join
pool_3
pool_3/_reshape/shape
pool_3/_reshape
softmax/weights
softmax/biases
softmax/logits/MatMul
softmax/logits
softmax

所需要的正是最后一个pool3结点的数据,然而这里没有给出是avg还是max,据我所知预训练的好像都有吧,没关系

两个解决方法查看是什么pool,安装查看模型软件或者干脆看数据

结果发现是avg,如图

获取的这个特征再进行PCA操作,这个PCA不是一般 的PCA,给了固定的mean,特征值及特征向量,且最大最小值也不是一般的值,真让人匪夷所思。有没有大佬能解释下这些PCA数据是怎么来的吗?为何按照这些数据进行PCA?

pca_mean.max()
1.1148938
pca_mean.min()
0.098046266
pca_eigenvals.max()
14.738506
pca_eigenvals.min()
0.015357833
pca_eigenvecs.max()
0.17467968
pca_eigenvecs.min()
-0.27399188

将inceptionV3 得到的特征减去PCA_mean,然后与pca特征向量相乘,得到的结果除以sqrt(特征值+1e-4)

这就得到帧级特征PCA后的结果,这是啥意思呢??这种结果比没有的好??待我看paper

拜拜。

 

另外有相关问题可以加入QQ群讨论,不设微信群

QQ群:868373192 

语音图像视频深度-学习群

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章