TSM視頻測試——中間篇二

哈嘍，大家好，明天北京朝陽公園上午小明哥【就是寡人】粉絲見面會，歡迎到場，哈哈

接上一篇：https://blog.csdn.net/SPESEG/article/details/103732829

據我測試中發現，似乎是整個視頻的幀都要進入模型，而最後的shape爲一樣的

torch.Size([1, 288, 224, 224])

這就不明覺厲了。難道所有不同幀的最後都是統一的？？

但實際進入模型net的是

torch.Size([6, 16, 3, 224, 224])

So what's the meaning of the 6?

If I just set the frame num equal to 1,and the place will be 6 ?? the same shape ??

and torch.no_grad is similar to tf.Session ?

with torch.no_grad():

我已經將它的源碼簡化了，得到同樣的結果，但是我想說torch的推斷真的真的太慢了，我電腦CPU不行？？？

下一步就查看TSNDataset那個玩意，這個必須換成單個視頻的圖像的輸入，不能再是對象了，這樣很麻煩。

但其實我想說的是既然要取mean，對6取，當初又何必搞這個6呢？

難道這個6就是所謂的兩倍採樣？？？這個兩倍採樣爲何爲捨棄視頻中的部分幀呢？難道沒有嗎？

我看一下，強行畫圖試試看，請不要走開哦。

從中挑了一個172305視頻的圖，原來共有35個圖，但最後都是6*16個圖，這種採樣或者說是6倍採樣，或者說有Compose帶來的轉換，但都是爲了增加數據。

如圖下，這就是最終進入模型的數據，最後得到一個標籤，也就是說總的35個圖片其中可能被交錯使用了

鑑於這種情況，我如果用來提取特徵是否可以降採樣，每秒抽一幀然後整個視頻一分鐘就60幀，最終也能得到類似的圖，這也算是一種特徵提取方法嗎？？經過網絡後是6*174，因爲是174個類別。這種特徵是否可以拿來用？？？孤決定可以嘗試。

當然也可試試kinetics400或者600【600暫時沒有訓練好的模型】提取特徵。

下面重要的就是TSNDataset了，且看下回分解，不要走開哦。

朝陽公園見哦。

【今天是12月30日，前天的粉絲見面會真是萬人空巷，沒想到看帥哥的這麼多，哈哈】

TSNDataset這玩意想要真正的理解，還是要打印看一下。

下面這種寫法不知道有什麼用，輸入爲列表，這都搞個類，小題大做。

class VideoRecord(object):
    def __init__(self, row):
        self._data = row

    @property
    def path(self):
        return self._data[0]

    @property
    def num_frames(self):
        return int(self._data[1])

    @property
    def label(self):
        return int(self._data[2])

其實本來寫個for循環就解決的問題，然而這裏寫了個對象，這樣做要麼是照搬別人的，要麼就是裝13，這種做法最令人討厭，就是用來屏蔽小白的，然而我不怕，事無鉅細，事必躬親，身體力行。

有一個問題我實在是搞不懂，爲啥選擇的幀與總的幀數有關係呢？？？

directory:  74225 ,idx : 2
directory:  74225 ,idx : 6
directory:  74225 ,idx : 10
directory:  74225 ,idx : 14
directory:  74225 ,idx : 18
directory:  74225 ,idx : 22
directory:  74225 ,idx : 26
directory:  74225 ,idx : 30
directory:  74225 ,idx : 34
directory:  74225 ,idx : 38
directory:  74225 ,idx : 42
directory:  74225 ,idx : 46
directory:  74225 ,idx : 50
directory:  74225 ,idx : 54
directory:  74225 ,idx : 58
directory:  74225 ,idx : 62
directory:  74225 ,idx : 1
directory:  74225 ,idx : 4
directory:  74225 ,idx : 8
directory:  74225 ,idx : 12
directory:  74225 ,idx : 16
directory:  74225 ,idx : 20
directory:  74225 ,idx : 24
directory:  74225 ,idx : 28
directory:  74225 ,idx : 32
directory:  74225 ,idx : 36
directory:  74225 ,idx : 40
directory:  74225 ,idx : 44
directory:  74225 ,idx : 48
directory:  74225 ,idx : 52
directory:  74225 ,idx : 56
directory:  74225 ,idx : 60

另外一個的idx則不同，這個idx的選取與總的幀數有關，這純屬扯淡

directory:  116154 ,idx : 2
directory:  116154 ,idx : 5
directory:  116154 ,idx : 9
directory:  116154 ,idx : 12
directory:  116154 ,idx : 15
directory:  116154 ,idx : 18
directory:  116154 ,idx : 22
directory:  116154 ,idx : 25
directory:  116154 ,idx : 28
directory:  116154 ,idx : 31
directory:  116154 ,idx : 35
directory:  116154 ,idx : 38
directory:  116154 ,idx : 41
directory:  116154 ,idx : 44
directory:  116154 ,idx : 48
directory:  116154 ,idx : 51
directory:  116154 ,idx : 1
directory:  116154 ,idx : 4
directory:  116154 ,idx : 7
directory:  116154 ,idx : 10
directory:  116154 ,idx : 14
directory:  116154 ,idx : 17
directory:  116154 ,idx : 20
directory:  116154 ,idx : 23
directory:  116154 ,idx : 27
directory:  116154 ,idx : 30
directory:  116154 ,idx : 33
directory:  116154 ,idx : 36
directory:  116154 ,idx : 40
directory:  116154 ,idx : 43
directory:  116154 ,idx : 46
directory:  116154 ,idx : 49

這種錯位方法有待商榷，如果不知道總的幀數咋辦，也就是說不能邊讀邊預測了？或者說讀完整個視頻幀才做預測？？？

不能人爲選取幀來預測？？？

另外是否與視頻時長有關？

且看下一篇吧，【爲了閱讀方便】

請來看看我吧。Please Do not Keep me Waiting.

另外有相關問題可以加入QQ羣討論，不設微信羣

QQ羣：868373192

語音圖像深度-學習羣

或者發我郵箱：

[email protected]

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

TSM視頻測試——中間篇二

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

多進程之Pool與多線程pool 及tqdm和for 並對比pandas處理結果

Youtube2016推薦召回算法細節及最終實現（離線服務）——完整版

python讀取redis數據及hive入門9——3個表關聯

關於global定義的作用時效問題以及java json/list數據及redis數據解析問題

faiss快速查詢召回數據都一樣咋辦？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結