小樣本數據集介紹

原創

莫能长老

2020-02-26 06:38

本篇對小樣本學習常用數據集進行介紹，由於本人理解問題，可能還存在誤差。

1、Omniglot

Omniglot 數據集包含來自 50 個不同字母的 1623 個不同手寫字符。每一個字符都是由 20 個不同的人通過亞馬遜的 Mechanical Turk 在線繪製的。

相當於1623個類，每類20個樣本。對於one shot來說，support_num_per_class = 1，query_num_per_class = 19。

每個圖像都與筆畫數據配對, 座標序列爲 [x, y, t][x,y,t], 且時間 (t)(t) 以毫秒爲單位。筆畫數據僅在 matlab/ 文件中可用。

數據集的引用: Lake, B. M., Salakhutdinov, R., and Tenenbaum, J. B. (2015). Human-level concept learning through probabilistic program induction. Science, 350(6266), 1332-1338.

Omniglot 數據集總共包含 50 個字母。我們通常將這些分成一組包含 30個字母的背景（background）集和一組包含 20 個字母的評估（evaluation）集。

更具挑戰性的表示學習任務是使用較小的背景集 “background small 1” 和 “background small 2”。每一個都只包含 5 個字母, 更類似於一個成年人在學習一般的字符時可能遇到的經驗。

參考文獻：http://www.imooc.com/article/details/id/258879

數據集可到這裏下載，也可用下面代碼下載。

#!/usr/bin/env bash
DATADIR=data/omniglot/data

mkdir -p $DATADIR
wget -O images_background.zip https://github.com/brendenlake/omniglot/blob/master/python/images_background.zip?raw=true
wget -O images_evaluation.zip https://github.com/brendenlake/omniglot/blob/master/python/images_evaluation.zip?raw=true
unzip images_background.zip -d $DATADIR
unzip images_evaluation.zip -d $DATADIR
mv $DATADIR/images_background/* $DATADIR/
mv $DATADIR/images_evaluation/* $DATADIR/
rmdir $DATADIR/images_background
rmdir $DATADIR/images_evaluation

2、miniImagenet

miniImagenet取自ImageNet中，包含100個類別，每個類別中包含600個樣本數據。其中64個類別數據作爲訓練集，16個類別數據作爲驗證集，20個類別數據作爲測試集。由於類別較少，一般只做5 way的，不做20way的。
其中原型網絡方法分別使用30-way的episode對1-shot類和20-way的episode對5-shot的樣本數據進行訓練。在訓練和測試時保持shot數目一致，query查詢點的個數爲每個類別15個。

參考文獻：http://www.pianshen.com/article/8827150280/

數據集可到這裏下載。（還沒加超鏈接，我當時估計直接是把師兄們的複製過來了，現在沒去網上找，之後再補）

3、CUB

CUB一般用於zero shot。

CUB數據集包含訓練集包含100個類別，驗證集包含50個類別，測試集包含50個類別。對於312維度的元向量，模型對鳥類的種類、顏色、羽毛等屬性進行編碼得到。

其中原型網絡方法訓練episode的類別爲50，每個類別的查詢點爲10個。

參考文獻：https://blog.csdn.net/m0_38031488/article/details/85274890

數據集可到這裏下載。（還沒加超鏈接。之後再補）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

小樣本數據集介紹

釘釘打卡速度慢

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

SCP的兩個問題解決

Git和GitHub學習遇到的Bug

Git安裝和常用命令總結

辣雞算法（六）：並查集的C++實現及優化

windows10 ubuntu 無法連接到無法建立到 raw.githubusercontent.com 的服務器 IP 地址，解決辦法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結