MXNet的模型園地
MXNet 突出了學術論文中報告的最先進模型的快速實現。我們的模型園地(Modle Zoo)包含了完整的模型,Python腳本,預訓練的權重和如何進行微調的說明文檔。
如何貢獻一個預訓練的模型 (應包含什麼)
提交一個包含下列內容的 Pull 請求:
- Gist 日誌
- .json 格式的模型定義文件
- 模型參數文件
- Readme 文件 (細節見下面)
Readme 文件應該包含:
- 模型的位置和訪問命令 (wget)。
- 確認你訓練的模型滿足原始論文中發表的精度。
- 關於如何使用該模型的逐步說明。
- 引用模型參考的任何其它文檔或 arxiv 論文。
卷積神經網絡
卷積神經網絡對於很多圖像和視頻處理問題來說,是最先進的架構。一些可用的數據庫有:
- ImageNet: 100萬張圖像構成的語料庫,分成1000類。
- CIFAR10: 來自10個類別的60,000 張自然圖像 (尺寸:32 x 32)。
- PASCAL_VOC: ImageNet的一個帶目標邊界框的子集。
- UCF101: 來自101個行爲類別的13,320 個視頻。
- Mini-Places2: Subset of the Places2數據集的子集。包含來自100個場景的 100,000 張圖像
- ImageNet 11k
- Places2:Places365-Standard 包含來自365個場景類別的160萬張訓練圖像,它被用來訓練卷積神經網絡:Places365。驗證集中,每一類有50張圖像;測試集中,每一類有900張圖像。和Places365-Standard的訓練集相比, Places365-Challenge的訓練集包括620萬額外張圖像, Places365 challenge 2016 總共大概有800萬張訓練圖像。驗證集和測試集與 Places365-Standard 相同。
Model Definition | Dataset | Model Weights | Research Basis | Contributors |
---|---|---|---|---|
CaffeNet | ImageNet | Krizhevsky, 2012 | @… | |
Network in Network (NiN) | CIFAR-10 | Lin et al…, 2014 | ||
SqueezeNet | ImageNet | Iandola et al…, 2016 | ||
VGG16 | ImageNet | Simonyan et al…, 2015 | ||
VGG19 | ImageNet | Simonyan et al…, 2015 | ||
Inception v3 w/BatchNorm | ImageNet | Szegedy et al…, 2015 | ||
ResidualNet152 | ImageNet | He et al…, 2015 | ||
Fast-RCNN | PASCAL VOC | Girshick, 2015 | ||
Faster-RCNN | PASCAL VOC | Ren et al…,2016 | ||
Single Shot Detection (SSD) | PASCAL VOC | Liu et al…, 2016 |
遞歸神經網絡 (包括LSTMs)
MXNet 支持循環神經網絡(recurrent neural networks, RNNs),也支持長短時記憶網絡( Long short-term memory, LSTM)和 GRU網絡(Gated Recurrent Units)。一些可用的數據集有:
- Penn Treebank (PTB): 文本語料庫,大約有100萬個單詞。詞彙量限制在10,000個單詞。任務是預測下一個【downstream】單詞/字符。
- Shakespeare: 來自莎士比亞作品的複雜文本。
- IMDB reviews: 25,000個視頻評論,標籤爲好/壞。
- Facebook bAbI: 20個問答任務的數據集,每一個有1,000個訓練樣本。
- Flickr8k, COCO: 帶標題/句子的圖像。Flickr8k包括 8,092個圖像,大約40,000個標註(使用AmazonTurkers標註)。 COCO包含328,000個圖像,每一個有5個句子。COCO也包含使用分割算法標記的物體信息。
Model Definition | Dataset | Model Weights | Research Basis | Contributors |
---|---|---|---|---|
LSTM - Image Captioning | Flickr8k, MS COCO | [Vinyals et al…, 2015](https://arxiv.org/pdf/ 1411.4555v2.pdf) | @… | |
LSTM - Q&A System | bAbl | Weston et al…, 2015 | ||
LSTM - Sentiment Analysis | IMDB | Li et al…, 2015 |
生成對抗網絡(Generative Adversarial Networks)
Model Definition | Dataset | Model Weights | Research Basis | Contributors |
---|---|---|---|---|
DCGANs | ImageNet | Radford et al…,2016 | @… | |
Text to Image Synthesis | MS COCO | Reed et al…, 2016 | ||
Deep Jazz | Deepjazz.io |
其它網絡模型
MXNet 支持多種模型,不限於經典的CNN和LSTM。包括深度增強學習,線性模型等。下面是一些可用的的數據集和資源:
- Google News: 一個包括300萬單詞的的文本語料庫(爲word2vec構建)。
- MovieLens 20M Dataset: 來自2.7萬個電影和13.8萬個用戶的 2000萬個評分和46.5萬個標籤。 Includes tag genome data with 12 million relevance scores across 1,100 tags.
- Atari Video Game Emulator: Stella是一個多平臺的 Atari 2600 VCS 仿真器 (GPL)。
Model Definition | Dataset | Model Weights | Research Basis | Contributors |
---|---|---|---|---|
Word2Vec | Google News | Mikolov et al…, 2013 | @… | |
Matrix Factorization | MovieLens 20M | Huang et al…, 2013 | ||
Deep Q-Network | Atari video games | Minh et al…, 2015 | ||
Asynchronous advantage actor-critic (A3C) | Atari video games | Minh et al…, 2016 |