C++在Tesseract-OCR中使用自己訓練的字庫進行字體識別

原創

gx_mj

2020-02-20 23:13

1.在VS中配置好Tesseract-OCR的使用環境，配置的方法跟Opencv類似，可自行百度！相關配置截圖如下：

2.將訓練好的字庫拷貝到Tesseract-OCR的字庫文件夾tessdata中，如下圖，我訓練的字庫名爲：myself

3.先使用命令行進行調用測試自己訓練的字庫：

4.C++中進行調用Tesseract-OCR識別，代碼實現如下：

//寫本地日誌，在原來的基礎上追加內容！
void savefile(CString  filename, char * info)
{
	//將內容寫至本地保存起來。。。
	int j = 0;
	char ch[8000] = { 0 };
	SYSTEMTIME sys;
	GetLocalTime(&sys);
	j = sprintf(ch, "%s", info);
	j += sprintf(ch + j, "\r\n\r\ntime:%02d/%02d %02d:%02d:%02d.%03d \r\n", sys.wMonth, sys.wDay, sys.wHour, sys.wMinute, sys.wSecond, sys.wMilliseconds);
	CFile file;
	file.Open(filename, CFile::modeCreate | CFile::modeWrite | CFile::modeNoTruncate, NULL);
	file.SeekToEnd();
	//file.Write(info, strlen(info));
	file.Write(ch, j);
	file.Close();
}

TessBaseAPI ocr;
char* identifyText(char* language = "myself")
{
	remove("D:\\tain.txt");
	ocr.Init(NULL, language, OEM_DEFAULT);
	ocr.SetPageSegMode(PSM_AUTO);//設置自動進行版面分析
	STRING text_out;
	if (!ocr.ProcessPages("D:\\t1.jpg", NULL, 0, &text_out))
	{
		return NULL;
	}
	printf(text_out.string());
	char * ch = (char *)text_out.string();
	savefile("D:\\tain.txt", ch);
	return ch;
}

識別結果：