小樣本數據集介紹

本篇對小樣本學習常用數據集進行介紹,由於本人理解問題,可能還存在誤差。

1、Omniglot

Omniglot 數據集包含來自 50 個不同字母的 1623 個不同手寫字符。每一個字符都是由 20 個不同的人通過亞馬遜的 Mechanical Turk 在線繪製的。

相當於1623個類,每類20個樣本。對於one shot來說,support_num_per_class = 1,query_num_per_class = 19。

每個圖像都與筆畫數據配對, 座標序列爲 [x, y, t][x,y,t], 且時間 (t)(t) 以毫秒爲單位。筆畫數據僅在 matlab/ 文件中可用。

數據集的引用: Lake, B. M., Salakhutdinov, R., and Tenenbaum, J. B. (2015). Human-level concept learning through probabilistic program induction. Science, 350(6266), 1332-1338.

Omniglot 數據集總共包含 50 個字母。我們通常將這些分成一組包含 30個字母的背景(background)集和一組包含 20 個字母的評估(evaluation)集。

更具挑戰性的表示學習任務是使用較小的背景集 “background small 1” 和 “background small 2”。每一個都只包含 5 個字母, 更類似於一個成年人在學習一般的字符時可能遇到的經驗。

參考文獻:http://www.imooc.com/article/details/id/258879

數據集可到這裏下載,也可用下面代碼下載。

#!/usr/bin/env bash
DATADIR=data/omniglot/data

mkdir -p $DATADIR
wget -O images_background.zip https://github.com/brendenlake/omniglot/blob/master/python/images_background.zip?raw=true
wget -O images_evaluation.zip https://github.com/brendenlake/omniglot/blob/master/python/images_evaluation.zip?raw=true
unzip images_background.zip -d $DATADIR
unzip images_evaluation.zip -d $DATADIR
mv $DATADIR/images_background/* $DATADIR/
mv $DATADIR/images_evaluation/* $DATADIR/
rmdir $DATADIR/images_background
rmdir $DATADIR/images_evaluation

 

2、miniImagenet

miniImagenet取自ImageNet中,包含100個類別,每個類別中包含600個樣本數據。其中64個類別數據作爲訓練集,16個類別數據作爲驗證集,20個類別數據作爲測試集。由於類別較少,一般只做5 way的,不做20way的。
其中原型網絡方法分別使用30-way的episode對1-shot類和20-way的episode對5-shot的樣本數據進行訓練。在訓練和測試時保持shot數目一致,query查詢點的個數爲每個類別15個。

參考文獻:http://www.pianshen.com/article/8827150280/

數據集可到這裏下載。(還沒加超鏈接,我當時估計直接是把師兄們的複製過來了,現在沒去網上找,之後再補)

 

3、CUB

CUB一般用於zero shot。

CUB數據集包含訓練集包含100個類別,驗證集包含50個類別,測試集包含50個類別。對於312維度的元向量,模型對鳥類的種類、顏色、羽毛等屬性進行編碼得到。

其中原型網絡方法訓練episode的類別爲50,每個類別的查詢點爲10個。

參考文獻:https://blog.csdn.net/m0_38031488/article/details/85274890

數據集可到這裏下載。(還沒加超鏈接。之後再補)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章