本篇對小樣本學習常用數據集進行介紹,由於本人理解問題,可能還存在誤差。
1、Omniglot
Omniglot 數據集包含來自 50 個不同字母的 1623 個不同手寫字符。每一個字符都是由 20 個不同的人通過亞馬遜的 Mechanical Turk 在線繪製的。
相當於1623個類,每類20個樣本。對於one shot來說,support_num_per_class = 1,query_num_per_class = 19。
每個圖像都與筆畫數據配對, 座標序列爲 [x, y, t][x,y,t], 且時間 (t)(t) 以毫秒爲單位。筆畫數據僅在 matlab/
文件中可用。
數據集的引用: Lake, B. M., Salakhutdinov, R., and Tenenbaum, J. B. (2015). Human-level concept learning through probabilistic program induction. Science, 350(6266), 1332-1338.
Omniglot 數據集總共包含 50 個字母。我們通常將這些分成一組包含 30個字母的背景(background)集和一組包含 20 個字母的評估(evaluation)集。
更具挑戰性的表示學習任務是使用較小的背景集 “background small 1” 和 “background small 2”。每一個都只包含 5 個字母, 更類似於一個成年人在學習一般的字符時可能遇到的經驗。
參考文獻:http://www.imooc.com/article/details/id/258879
數據集可到這裏下載,也可用下面代碼下載。
#!/usr/bin/env bash
DATADIR=data/omniglot/data
mkdir -p $DATADIR
wget -O images_background.zip https://github.com/brendenlake/omniglot/blob/master/python/images_background.zip?raw=true
wget -O images_evaluation.zip https://github.com/brendenlake/omniglot/blob/master/python/images_evaluation.zip?raw=true
unzip images_background.zip -d $DATADIR
unzip images_evaluation.zip -d $DATADIR
mv $DATADIR/images_background/* $DATADIR/
mv $DATADIR/images_evaluation/* $DATADIR/
rmdir $DATADIR/images_background
rmdir $DATADIR/images_evaluation
2、miniImagenet
miniImagenet取自ImageNet中,包含100個類別,每個類別中包含600個樣本數據。其中64個類別數據作爲訓練集,16個類別數據作爲驗證集,20個類別數據作爲測試集。由於類別較少,一般只做5 way的,不做20way的。
其中原型網絡方法分別使用30-way的episode對1-shot類和20-way的episode對5-shot的樣本數據進行訓練。在訓練和測試時保持shot數目一致,query查詢點的個數爲每個類別15個。
參考文獻:http://www.pianshen.com/article/8827150280/
數據集可到這裏下載。(還沒加超鏈接,我當時估計直接是把師兄們的複製過來了,現在沒去網上找,之後再補)
3、CUB
CUB一般用於zero shot。
CUB數據集包含訓練集包含100個類別,驗證集包含50個類別,測試集包含50個類別。對於312維度的元向量,模型對鳥類的種類、顏色、羽毛等屬性進行編碼得到。
其中原型網絡方法訓練episode的類別爲50,每個類別的查詢點爲10個。
參考文獻:https://blog.csdn.net/m0_38031488/article/details/85274890
數據集可到這裏下載。(還沒加超鏈接。之後再補)