摘自自運營微信定閱號 創心思考 ,搜索關注獲得更多內容!
圖像識別的類型大致可以分爲3種
1,條碼,二維碼:這種一般應用場景及圖片規則比較明確,計算量較小,App本地就可以處理。
2,文字識別類:由於採集的圖片的多樣化,文本的展現形式(字體,排版)不同,識別的過程中需要輔助的方法(如圈選,點選,焦點對齊)及雲端進行結果優化
3,面部識別類:這部分的能力大部分依賴於雲端及面部特徵集的訓練。
今天重點討論文字識別類的過種應該以多大的尺寸圖片數據作爲依據。
我們先了解一下文字識別的過種
1,選擇一張圖片(拍照,攝相,相冊,網頁或應用中的某張圖)
2,將圖片進行二值化,分爲前景及背景,(注意了:一張圖中有多種文字顏色)
3,噪聲去掉,這塊算法真心不理解,
4,傾斜矯正,通過算法驗證照片是拍照時否有傾斜,同時將其矯正,後續
5,字符切割,將每個字符或單詞摘出
6,字符識別,對應的字符與字庫進行比對或使用特徵提取的方法識別出文字
那麼問題來了,由於圖片的來源不確定,文字信息在圖片中的大小比例也不確定。所有的工作都交給識別模塊來處理,工作量是不是會很大?如果需要雲端介入,網絡的傳輸數據量會不會影響應時長?
好吧,我們假定一下圖片的來源分析
1,照相及攝相:這類圖片的產生來自於用戶對於當前環境中的某件承載文字的物品的識別,纔會使用手機進行拍照或攝像記錄下文字信息。我們試的想一下,這時手機的屏幕爲取景器,用戶在照相或攝相時肯定會要保證關注的內容可見。那麼這時,我們可以使用手機屏幕作爲最大圖片尺寸即可有效的識別出圖片內的文字,無論手機的相素是500W,還是1500W。
2,從相冊中選取:這類圖片的來源比較多,可以是相機,其它應用,瀏覽器。但終究是在手機的屏幕下看到了該圖的內容後,纔會進行識別。
3,應用或瀏覽器:這些圖片的內容源大部分都會進行尺寸優化,以減少網絡流量及提高用戶體驗。
結論來了
圖片的尺寸參考屏幕的尺寸進行縮放,這個圖片應該是有效的!
如果不無效呢,是不是有必要針對特殊的圖片進行手動的放大及縮小呢?
其實還是眼見爲實,這是用戶的心理及預期!!!
剩下的呢?
那就讓用戶自已選擇他關注的內容吧,參考之前的圖片縮放比值信息,再把選擇的內容截取出來,產生的圖片應該是數據量最少且有效的方案了。。。
摘自自運營微信定閱號 創心思考 ,搜索關注獲得更多內容!