參加了某度的線上直播,主播系統介紹了paddleOCR產品,感覺兇得很啊。
找臺帶顯卡的服務器+docker+nviidia-docker,就能跑測試樣例。
官方文檔:
環境配置:https://github.com/PaddlePaddle/PaddleOCR
主要是cuda運行環境+拉取PaddleOCR代碼+安裝依賴包
建議使用docker進行配置,便於環境隔離和管理。
測試1:超級輕量級中文OCR模型
- 其實就是由檢測模型DB(4.1M)+識別模型CRNN(4.5M)聯合的
- 單模型支持中英文數字組合識別、豎排文本識別、長文本識別
下載inference模型文件包
該模型包含DB檢測模型 + CRNN識別模型
cd PaddleOCR/
wget https://paddleocr.bj.bcebos.com/inference.tar
### inference模型文件包解壓
tar -xf inference.tar
查看模型 :ls -lh inference/rec/
可以看到訓練好的檢測和識別推理模型總大小隻有8.7M。應該是非常輕量級的了,下面來看看模型的測試結果。
官方樣例:
1)豎向文字OCR
橫向文字OCR
手機拍攝圖片OCR
不得不說提供的DB模型確實兼顧了橫向和豎向文字檢測能力,但對彎曲文本的處理泛化能力明顯不那麼強。CRNN識別能力看着還不錯,如果是做應用做些針對性訓練應該能滿足需求。最值的借鑑的是對整個模型的壓縮處理。