哈嘍,大家好,明天北京朝陽公園上午小明哥【就是寡人】粉絲見面會,歡迎到場,哈哈
接上一篇:https://blog.csdn.net/SPESEG/article/details/103732829
據我測試中發現,似乎是整個視頻的幀都要進入模型,而最後的shape爲一樣的
torch.Size([1, 288, 224, 224])
這就不明覺厲了。難道所有不同幀的最後都是統一的??
但實際進入模型net的是
torch.Size([6, 16, 3, 224, 224])
So what's the meaning of the 6?
If I just set the frame num equal to 1,and the place will be 6 ?? the same shape ??
and torch.no_grad is similar to tf.Session ?
with torch.no_grad():
我已經將它的源碼簡化了,得到同樣的結果,但是我想說torch的推斷真的真的太慢了,我電腦CPU不行???
下一步就查看TSNDataset那個玩意,這個必須換成單個視頻的圖像的輸入,不能再是對象了,這樣很麻煩。
但其實我想說的是既然要取mean,對6取,當初又何必搞這個6呢?
難道這個6就是所謂的兩倍採樣???這個兩倍採樣爲何爲捨棄視頻中的部分幀呢?難道沒有嗎?
我看一下,強行畫圖試試看,請不要走開哦。
從中挑了一個172305視頻的圖,原來共有35個圖,但最後都是6*16個圖,這種採樣或者說是6倍採樣,或者說有Compose帶來的轉換,但都是爲了增加數據。
如圖下,這就是最終進入模型的數據,最後得到一個標籤,也就是說總的35個圖片其中可能被交錯使用了
鑑於這種情況,我如果用來提取特徵是否可以降採樣,每秒抽一幀然後整個視頻一分鐘就60幀,最終也能得到類似的圖,這也算是一種特徵提取方法嗎??經過網絡後是6*174,因爲是174個類別。這種特徵是否可以拿來用???孤決定可以嘗試。
當然也可試試kinetics400或者600【600暫時沒有訓練好的模型】提取特徵。
下面重要的就是TSNDataset了,且看下回分解,不要走開哦。
朝陽公園見哦。
【今天是12月30日,前天的粉絲見面會真是萬人空巷,沒想到看帥哥的這麼多,哈哈】
TSNDataset這玩意想要真正的理解,還是要打印看一下。
下面這種寫法不知道有什麼用,輸入爲列表,這都搞個類,小題大做。
class VideoRecord(object):
def __init__(self, row):
self._data = row
@property
def path(self):
return self._data[0]
@property
def num_frames(self):
return int(self._data[1])
@property
def label(self):
return int(self._data[2])
其實本來寫個for循環就解決的問題,然而這裏寫了個對象,這樣做要麼是照搬別人的,要麼就是裝13,這種做法最令人討厭,就是用來屏蔽小白的,然而我不怕,事無鉅細,事必躬親,身體力行。
有一個問題我實在是搞不懂,爲啥選擇的幀與總的幀數有關係呢???
directory: 74225 ,idx : 2
directory: 74225 ,idx : 6
directory: 74225 ,idx : 10
directory: 74225 ,idx : 14
directory: 74225 ,idx : 18
directory: 74225 ,idx : 22
directory: 74225 ,idx : 26
directory: 74225 ,idx : 30
directory: 74225 ,idx : 34
directory: 74225 ,idx : 38
directory: 74225 ,idx : 42
directory: 74225 ,idx : 46
directory: 74225 ,idx : 50
directory: 74225 ,idx : 54
directory: 74225 ,idx : 58
directory: 74225 ,idx : 62
directory: 74225 ,idx : 1
directory: 74225 ,idx : 4
directory: 74225 ,idx : 8
directory: 74225 ,idx : 12
directory: 74225 ,idx : 16
directory: 74225 ,idx : 20
directory: 74225 ,idx : 24
directory: 74225 ,idx : 28
directory: 74225 ,idx : 32
directory: 74225 ,idx : 36
directory: 74225 ,idx : 40
directory: 74225 ,idx : 44
directory: 74225 ,idx : 48
directory: 74225 ,idx : 52
directory: 74225 ,idx : 56
directory: 74225 ,idx : 60
另外一個的idx則不同,這個idx的選取與總的幀數有關,這純屬扯淡
directory: 116154 ,idx : 2
directory: 116154 ,idx : 5
directory: 116154 ,idx : 9
directory: 116154 ,idx : 12
directory: 116154 ,idx : 15
directory: 116154 ,idx : 18
directory: 116154 ,idx : 22
directory: 116154 ,idx : 25
directory: 116154 ,idx : 28
directory: 116154 ,idx : 31
directory: 116154 ,idx : 35
directory: 116154 ,idx : 38
directory: 116154 ,idx : 41
directory: 116154 ,idx : 44
directory: 116154 ,idx : 48
directory: 116154 ,idx : 51
directory: 116154 ,idx : 1
directory: 116154 ,idx : 4
directory: 116154 ,idx : 7
directory: 116154 ,idx : 10
directory: 116154 ,idx : 14
directory: 116154 ,idx : 17
directory: 116154 ,idx : 20
directory: 116154 ,idx : 23
directory: 116154 ,idx : 27
directory: 116154 ,idx : 30
directory: 116154 ,idx : 33
directory: 116154 ,idx : 36
directory: 116154 ,idx : 40
directory: 116154 ,idx : 43
directory: 116154 ,idx : 46
directory: 116154 ,idx : 49
這種錯位方法有待商榷,如果不知道總的幀數咋辦,也就是說不能邊讀邊預測了?或者說讀完整個視頻幀才做預測???
不能人爲選取幀來預測???
另外是否與視頻時長有關?
且看下一篇吧,【爲了閱讀方便】
請來看看我吧。Please Do not Keep me Waiting.
另外有相關問題可以加入QQ羣討論,不設微信羣
QQ羣:868373192
語音圖像深度-學習羣
或者發我郵箱: