最近有個需要,小程序端手寫中文之後生成圖像,後端需識別圖片上中文..;剛開始想到第三方收費api試試,先用了百度AI開放平臺的通用字體識別的API,但對於手寫字的識別不太高,通用字體還挺好的;於是找到了Tessearct-OCR,參考了幾篇文摘整合了一下
準備:
1.下載Tessearct-COR 3.0以上版本:https://download.csdn.net/download/qq_26161693/10646074
2. 在安裝時選擇chi_sim.traineddata 語言庫;之後在程序中需加載安裝目錄tessdata下的中文包(chi_sim.traineddata );
maven依賴:
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>3.2.1</version>
</dependency>
Demo:
/**
*
* @param srImage 圖片路徑
* @param ZH_CN 是否使用中文訓練庫,true-是
* @return 識別結果
*/
public static String discernWord(String imagePath) {
try {
File image = new File(imagePath);
BufferedImage textImage = ImageIO.read(image);
Tesseract instance = Tesseract.getInstance();
instance.setDatapath("C:\\Program Files (x86)\\Tesseract-OCR\\tessdata");// 設置語言庫
instance.setLanguage("chi_sim");// 中文識別
String words = null;
words = instance.doOCR(textImage);
return words;
}
catch (Exception e) {
e.printStackTrace();
}
}
Test:
public static void main(String[] args) throws Exception {
String words = discernWord("F:/test_used_url/ocr/originalPic/hotkidclub.jpg", true);//需識別的圖文件路徑
System.out.println(words);
}