PaddleOCR的初體驗

參加了某度的線上直播,主播系統介紹了paddleOCR產品,感覺兇得很啊。
找臺帶顯卡的服務器+docker+nviidia-docker,就能跑測試樣例。

官方文檔:
環境配置:https://github.com/PaddlePaddle/PaddleOCR
主要是cuda運行環境+拉取PaddleOCR代碼+安裝依賴包
建議使用docker進行配置,便於環境隔離和管理。

測試1:超級輕量級中文OCR模型

  • 其實就是由檢測模型DB(4.1M)+識別模型CRNN(4.5M)聯合的
  • 單模型支持中英文數字組合識別、豎排文本識別、長文本識別

下載inference模型文件包

該模型包含DB檢測模型 + CRNN識別模型

cd PaddleOCR/
wget https://paddleocr.bj.bcebos.com/inference.tar
### inference模型文件包解壓
tar -xf inference.tar

查看模型 :ls -lh inference/rec/
在這裏插入圖片描述
可以看到訓練好的檢測和識別推理模型總大小隻有8.7M。應該是非常輕量級的了,下面來看看模型的測試結果。

官方樣例:
1)豎向文字OCR
在這裏插入圖片描述
在這裏插入圖片描述
橫向文字OCR
在這裏插入圖片描述
在這裏插入圖片描述
手機拍攝圖片OCR
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
不得不說提供的DB模型確實兼顧了橫向和豎向文字檢測能力,但對彎曲文本的處理泛化能力明顯不那麼強。CRNN識別能力看着還不錯,如果是做應用做些針對性訓練應該能滿足需求。最值的借鑑的是對整個模型的壓縮處理。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章