Kinetics-400數據集下載

煉丹師最重要的是什麼?丹啊!!!!沒有丹鍋燒壞了也煉不出啥來。

爲了下載Kinetics-400數據集,我煞費苦心,國內搜了好久都沒有搜到資源,用ActivityNet提供的下載程序需要下載原視頻一個一個自動剪輯,速度特別慢,很多視頻都找不到。終於,一個師兄給了我一絲光明,給我一個dropbox的鏈接,我費盡千辛萬苦下載了下來,解壓到服務器裏,最終發現要是訓練完一個模型一個月都不一定夠用/(ㄒoㄒ)/~~ 數據集就一直靜靜地躺在硬盤上,也沒程序理他。

想到自己當時找數據集經歷的苦難,我覺得能有資源還是分享一下吧,這樣就可以讓更多跟我似的以爲有了大數據集就能訓練的煉丹小作坊死心了哈哈哈。

數據集鏈接放在了我上傳的資源裏https://download.csdn.net/download/zugexiaodui/12038398,博客內不能粘貼其他鏈接,被認爲是廣告了。

這個數據集不全,尤其是測試集,丟了很多,不過做預訓練還是足夠的,也可以選一些數據弄個mini-Kinetics。原文件是一百多GB的壓縮包,我一開始拆分成了每個4GB左右的小文件,後來發現百度雲不能上傳,所以又把每個4GB的小文件拆分成了每個大約1GB的小小文件,總共132個。文件下載下來之後需要合併,自己寫個程序,把文件按順序合併起來就可以,大致思路就是用'wb'模式打開一個merged_file,逐個讀取('rb')小小文件,寫到merged_file裏。我試過對電影、文本文件和壓縮文件這麼拆分合並,都能還原文件。不過這個數據集特別大,這樣合併是不是需要特別大的內存纔可以我沒有研究過……煉丹順利,早日成仙!

下載數據集之前數數數據個數是不是全的!!!!不知道百度雲搞什麼把我文件夾裏的文件弄少了幾個,如果不行請評論或者私信我。

更新:這是一個將所有文件進行合併的程序(隨便寫的變量名沒那麼嚴謹),文件夾路徑需要改成自己的實際路徑,應該有132個文件,合併完之後使用 tar xvf **.tar.gz(文件名)解壓就行,親測可用。

import os

f_dir = r'/mnt/data/source/kinetics-400/'
f_list = os.listdir(f_dir)
f_basename = 'kinetics-400.tar.gz.part{}-{}'
print(len(f_list))
nn=0
dst_fname = '/mnt/data/source/kinetics-400-source.tar.gz'
dst_f = open(dst_fname,'wb')
for N in range(1,len(f_list)//4+1):
    for i in range(4):
        f_dstname = f_basename.format(N,i)
        print(f_dstname,os.path.exists(f_dir+f_dstname))
        src_f = open(f_dir+f_dstname,'rb')
        dst_f.write(src_f.read())
        dst_f.flush()
        src_f.close()
        nn+=1
dst_f.close()
print(nn)

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章