TSM視頻測試——中間篇二

哈嘍,大家好,明天北京朝陽公園上午小明哥【就是寡人】粉絲見面會,歡迎到場,哈哈

上一篇https://blog.csdn.net/SPESEG/article/details/103732829

據我測試中發現,似乎是整個視頻的幀都要進入模型,而最後的shape爲一樣的

torch.Size([1, 288, 224, 224])

這就不明覺厲了。難道所有不同幀的最後都是統一的??

但實際進入模型net的是

torch.Size([6, 16, 3, 224, 224])

So what's the meaning of the 6?

If I just set the frame num equal to 1,and the place will be 6 ?? the same shape ??

and torch.no_grad is similar to tf.Session ?

with torch.no_grad():

我已經將它的源碼簡化了,得到同樣的結果,但是我想說torch的推斷真的真的太慢了,我電腦CPU不行???

下一步就查看TSNDataset那個玩意,這個必須換成單個視頻的圖像的輸入,不能再是對象了,這樣很麻煩。

但其實我想說的是既然要取mean,對6取,當初又何必搞這個6呢?

難道這個6就是所謂的兩倍採樣???這個兩倍採樣爲何爲捨棄視頻中的部分幀呢?難道沒有嗎?

我看一下,強行畫圖試試看,請不要走開哦。

從中挑了一個172305視頻的圖,原來共有35個圖,但最後都是6*16個圖,這種採樣或者說是6倍採樣,或者說有Compose帶來的轉換,但都是爲了增加數據。

如圖下,這就是最終進入模型的數據,最後得到一個標籤,也就是說總的35個圖片其中可能被交錯使用了

鑑於這種情況,我如果用來提取特徵是否可以降採樣,每秒抽一幀然後整個視頻一分鐘就60幀,最終也能得到類似的圖,這也算是一種特徵提取方法嗎??經過網絡後是6*174,因爲是174個類別。這種特徵是否可以拿來用???孤決定可以嘗試。

當然也可試試kinetics400或者600【600暫時沒有訓練好的模型】提取特徵。

下面重要的就是TSNDataset了,且看下回分解,不要走開哦。

朝陽公園見哦。

【今天是12月30日,前天的粉絲見面會真是萬人空巷,沒想到看帥哥的這麼多,哈哈】

TSNDataset這玩意想要真正的理解,還是要打印看一下。

下面這種寫法不知道有什麼用,輸入爲列表,這都搞個類,小題大做。

class VideoRecord(object):
    def __init__(self, row):
        self._data = row

    @property
    def path(self):
        return self._data[0]

    @property
    def num_frames(self):
        return int(self._data[1])

    @property
    def label(self):
        return int(self._data[2])

其實本來寫個for循環就解決的問題,然而這裏寫了個對象,這樣做要麼是照搬別人的,要麼就是裝13,這種做法最令人討厭,就是用來屏蔽小白的,然而我不怕,事無鉅細,事必躬親,身體力行。

有一個問題我實在是搞不懂,爲啥選擇的幀與總的幀數有關係呢???

directory:  74225 ,idx : 2
directory:  74225 ,idx : 6
directory:  74225 ,idx : 10
directory:  74225 ,idx : 14
directory:  74225 ,idx : 18
directory:  74225 ,idx : 22
directory:  74225 ,idx : 26
directory:  74225 ,idx : 30
directory:  74225 ,idx : 34
directory:  74225 ,idx : 38
directory:  74225 ,idx : 42
directory:  74225 ,idx : 46
directory:  74225 ,idx : 50
directory:  74225 ,idx : 54
directory:  74225 ,idx : 58
directory:  74225 ,idx : 62
directory:  74225 ,idx : 1
directory:  74225 ,idx : 4
directory:  74225 ,idx : 8
directory:  74225 ,idx : 12
directory:  74225 ,idx : 16
directory:  74225 ,idx : 20
directory:  74225 ,idx : 24
directory:  74225 ,idx : 28
directory:  74225 ,idx : 32
directory:  74225 ,idx : 36
directory:  74225 ,idx : 40
directory:  74225 ,idx : 44
directory:  74225 ,idx : 48
directory:  74225 ,idx : 52
directory:  74225 ,idx : 56
directory:  74225 ,idx : 60

另外一個的idx則不同,這個idx的選取與總的幀數有關,這純屬扯淡

directory:  116154 ,idx : 2
directory:  116154 ,idx : 5
directory:  116154 ,idx : 9
directory:  116154 ,idx : 12
directory:  116154 ,idx : 15
directory:  116154 ,idx : 18
directory:  116154 ,idx : 22
directory:  116154 ,idx : 25
directory:  116154 ,idx : 28
directory:  116154 ,idx : 31
directory:  116154 ,idx : 35
directory:  116154 ,idx : 38
directory:  116154 ,idx : 41
directory:  116154 ,idx : 44
directory:  116154 ,idx : 48
directory:  116154 ,idx : 51
directory:  116154 ,idx : 1
directory:  116154 ,idx : 4
directory:  116154 ,idx : 7
directory:  116154 ,idx : 10
directory:  116154 ,idx : 14
directory:  116154 ,idx : 17
directory:  116154 ,idx : 20
directory:  116154 ,idx : 23
directory:  116154 ,idx : 27
directory:  116154 ,idx : 30
directory:  116154 ,idx : 33
directory:  116154 ,idx : 36
directory:  116154 ,idx : 40
directory:  116154 ,idx : 43
directory:  116154 ,idx : 46
directory:  116154 ,idx : 49

這種錯位方法有待商榷,如果不知道總的幀數咋辦,也就是說不能邊讀邊預測了?或者說讀完整個視頻幀才做預測???

不能人爲選取幀來預測???

另外是否與視頻時長有關?

且看下一篇吧,【爲了閱讀方便】

 

 

請來看看我吧。Please Do not Keep me Waiting.

另外有相關問題可以加入QQ羣討論,不設微信羣

QQ羣:868373192 

語音圖像深度-學習羣

或者發我郵箱:

[email protected]

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章