NVIDIA發佈最新數據增強庫和圖像解碼庫

內容來源：ATYUN AI平臺

今天在計算機視覺和模式識別（CVPR）會議上，NVIDIA公開了一系列新動向。

NVIDIA DALI和NVIDIA nvJPEG

首先是提供了用於數據增強和圖像解碼的新庫。

NVIDIA DALI：GPU加速數據增強和圖像加載庫，用於優化深度學習框架的數據管道
NVIDIA nvJPEG：用於JPEG解碼的高性能GPU加速庫

由深度學習支持的計算機視覺應用包括複雜的多階段預處理數據流水線，其中包括計算密集型步驟，如從磁盤加載和提取數據，解碼，裁剪和調整大小，顏色和空間變換以及格式轉換。

通過使用GPU加速數據增強，NVIDIA DALI解決了當今計算機視覺深度學習應用中的性能瓶頸問題，其中包括複雜的多階段數據增強步驟。藉助DALI，深度學習研究人員可以通過MXNet，TensorFlow和PyTorch跨越亞馬遜Web服務P3 8 GPU實例或帶Volta GPU的DGX-1系統，在圖像分類模型（如ResNet-50）上調整訓練性能。由於跨框架的一致的高性能數據加載和增強，框架用戶將會減少代碼重複。

DALI依靠新的NVIDIA nvJPEG庫進行高性能GPU加速解碼。nvJPEG支持使用CPU和GPU對單個和批量圖像進行解碼，色彩空間轉換，多階段解碼以及混合解碼。與純CPU解碼相比，依賴nvJPEG進行解碼的應用，達到更高的吞吐量和更低的延遲JPEG解碼。

DALI的優勢包括：

簡單的框架與MxNet，TensorFlow和PyTorch的直接插件集成
具有多種支持的數據格式（如JPEG，原始格式，LMDB，RecordIO和TFRecord）的便攜式訓練工作流程
使用可配置圖形和自定義運算符定製數據管道
使用nvJPEG的高性能單一和批量JPEG解碼

nvJPEG的優勢包括：

使用CPU和GPU進行混合解碼
單一圖像和批量圖像解碼
色彩空間轉換爲RGB，BGR，RGBI，BGRI和YUV
單相和多相解碼

DALI是開源的，現在可在GitHub上使用。

Apex

NVIDIA也展示了Apex的初期版本，這是一款開源的PyTorch擴展，可幫助用戶最大限度地提高NVIDIA Volta GPU上的深度學習訓練性能。

靈感來源於翻譯網絡，情感分析和圖像分類方面的最新技術，NVIDIA PyTorch開發人員已經創建了將這些方法帶到各級PyTorch用戶的工具。Apex中的混合精密實用程序旨在提高訓練速度，同時保持單精度訓練的準確性和穩定性。具體而言，Apex提供FP16或FP32操作的自動執行，主參數轉換的自動處理以及自動損失調整。