PaddleX
目前提供了4種視覺任務解決方案,分別爲圖像分類、目標檢測、實例分割和語義分割。用戶可以根據自己的任務類型按需選取。
圖像分類
圖像分類任務指的是輸入一張圖片,模型預測圖片的類別,如識別爲風景、動物、車等。
對於圖像分類任務,針對不同的應用場景,PaddleX
提供了百度改進的模型,見下表所示
模型 | 模型大小 | GPU預測速度 | CPU預測速度 | ARM芯片預測速度 | 準確率 | 備註 |
---|---|---|---|---|---|---|
MobileNetV3_small_ssld | 12M | - | - | - | 71.3% | 適用於移動端場景 |
MobileNetV3_large_ssld | 21M | - | - | - | 79.0% | 適用於移動端/服務端場景 |
ResNet50_vd_ssld | 102.8MB | - | - | - | 82.4% | 適用於服務端場景 |
ResNet101_vd_ssld | 179.2MB | - | - | - | 83.7% | 適用於服務端場景 |
除上述模型外,PaddleX
還支持近20種圖像分類模型,模型列表可參考PaddleX模型庫
目標檢測
目標檢測任務指的是輸入圖像,模型識別出圖像中物體的位置(用矩形框框出來,並給出框的位置),和物體的類別,如在手機等零件質檢中,用於檢測外觀上的瑕疵等。
對於目標檢測,針對不同的應用場景,PaddleX
提供了主流的YOLOv3
模型和Faster-RCNN
模型,見下表所示
模型 | 模型大小 | GPU預測速度 | CPU預測速度 | ARM芯片預測速度 | BoxMAP | 備註 |
---|---|---|---|---|---|---|
YOLOv3-MobileNetV1 | 101.2M | - | - | - | 29.3 | |
YOLOv3-MobileNetV3 | 94.6M | - | - | - | 31.6 | |
YOLOv3-ResNet34 | 169.7M | - | - | - | 36.2 | |
YOLOv3-DarkNet53 | 252.4M | - | - | - | 38.9 |
除YOLOv3
模型外,PaddleX
同時也支持FasterRCNN
模型,支持FPN
結構和5種backbone
網絡,詳情可參考PaddleX模型庫
實例分割
在目標檢測中,模型識別出圖像中物體的位置和物體的類別。而實例分割則是在目標檢測的基礎上,做了像素級的分類,將框內的屬於目標物體的像素識別出來。
PaddleX
目前提供了實例分割MaskRCNN
模型,支持5種不同的backbone
網絡,詳情可參考PaddleX模型庫
模型 | 模型大小 | GPU預測速度 | CPU預測速度 | ARM芯片預測速度 | BoxMAP | SegMAP | 備註 |
---|---|---|---|---|---|---|---|
MaskRCNN-ResNet50_vd-FPN | 185.5M | - | - | - | 39.8 | 35.4 | |
MaskRCNN-ResNet101_vd-FPN | 268.6M | - | - | - | 41.4 | 36.8 |
語義分割
語義分割用於對圖像做像素級的分類,應用在人像分類、遙感圖像識別等場景。
對於語義分割,PaddleX
也針對不同的應用場景,提供了不同的模型選擇,如下表所示
模型 | 模型大小 | GPU預測速度 | CPU預測速度 | ARM芯片預測速度 | mIOU | 備註 |
---|---|---|---|---|---|---|
DeepLabv3p-MobileNetV2_x0.25 | - | - | - | - | - | |
DeepLabv3p-MobileNetV2_x1.0 | - | - | - | - | - | |
DeepLabv3p-Xception65 | - | - | - | - | - | |
UNet | - | - | - | - | - |