基于百度AI的云猫OCR开发实录之代码篇

一、概述

云猫OCR是基于百度AI，在Windows平台运行的一款软件。我是用C#语言在Visual Studio2017集成开发环境中进行开发的，开发方式是SDK包开发。在开发中，我们需要参考百度的技术文档。

百度云文字识别技术文档地址：https://cloud.baidu.com/doc/OCR/index.html

二、准备工作

首先，我们需要下载最新的百度文字识别的SDK包。

C# SDK包的下载地址如下：http://ai.baidu.com/sdk#ocr

下载完毕后解压缩，最新的包在文件夹net45里面。

打开Visual Studio2017开发环境，选择新建项目，因为我打算用控制台项目讲解，因此要选择新建项目——C#控制台项目。建好项目之后，需要在项目中引用上面下载的SDK包。

三、核心代码讲解

（一）调用百度OCR函数识别图片文字，返回的格式为Json

代码如下：

using System;
using Newtonsoft.Json;
using Newtonsoft.Json.Linq;
using System.IO;
using System.Drawing;
using System.Collections.Generic;
using System.Linq;

namespace myOCRDemo
{
    class Program
    {
        public static void GeneralBasicDemo()
        {
            // 设置APPID/AK/SK
            var API_KEY = "你的 Api Key";
            var SECRET_KEY = "你的 Secret Key";
            //创建对象
            var client = new Baidu.Aip.Ocr.Ocr(API_KEY, SECRET_KEY);
            client.Timeout = 60000;  // 修改超时时间
            var image = File.ReadAllBytes("图片文件路径");
            // 调用通用文字识别, 图片参数为本地图片，可能会抛出网络等异常，请使用try/catch捕获
            var result = client.GeneralBasic(image);
            Console.WriteLine(result);
        }
        static void Main(string[] args)
        {
            GeneralBasicDemo();
            Console.Read();
        }
    }
}

注意，具体开发的时候要把上面的API Key和Secret Key分别改为你自己的，至于怎么申请和查看这两个Key，可以参考我写的评测篇帖子。帖子链接如下：http://ai.baidu.com/forum/topic/show/955989

另外不要忘了把图片文件路径改为你自己的图片路径。下面是识别的结果示例：

原图如下：

（二）解析Json格式，把识别结果转变为更为直观的文本类型

代码如下：

using System;
using Newtonsoft.Json;
using Newtonsoft.Json.Linq;
using System.IO;
using System.Drawing;
using System.Collections.Generic;
using System.Linq;

namespace myOCRDemo
{
    class Program
    {
        public static void GeneralBasicDemo()
        {
            // 设置APPID/AK/SK
            var API_KEY = "你的Akey";
            var SECRET_KEY = "你的SKey";
            //创建对象
            var client = new Baidu.Aip.Ocr.Ocr(API_KEY, SECRET_KEY);
            client.Timeout = 60000;  // 修改超时时间
            var image = File.ReadAllBytes(@"你的图片路径");
            // 调用通用文字识别, 图片参数为本地图片，可能会抛出网络等异常，请使用try/catch捕获
            var result = client.GeneralBasic(image);
            //解析Json的代码
            JObject jo = (JObject)JsonConvert.DeserializeObject(result.ToString());
            int num = (int)jo["words_result_num"];
            string[] words = new string[num];
            for (int i = 0; i < num; i++)
                words[i] = jo["words_result"][i]["words"].ToString();
            //返回值
            string txtOCR = null;
            for (int i = 0; i < num; i++)
                txtOCR += words[i] + "\n";
            //显示结果
            Console.WriteLine(txtOCR);
        }
        static void Main(string[] args)
        {
            GeneralBasicDemo();
            Console.Read();
        }
    }
}

程序运行结果如下：

这样就比较符合人类的阅读习惯了，上面这段代码也是核心的基础代码，可以通过这些核心的代码去做一些优化，比如自动换行、自动缩进、根据语言习惯自动改变标点符号等等。

（三）表格识别

百度的表格文字识别的编程较为麻烦，主要分成两步：第一步是提交表格文字识别请求，获得requestId；第二步是根据requestId获取表格文字识别的结果，默认是Excel文件格式，Json结果会返回一段下载地址。

我的程序除了上面这两步以外，还添加了自动下载Excel文件到本地电脑的代码，供各位参考。另外要注意的是，提交识别请求和获得识别结果这两步之间，程序必须设置延时，否则不能获得下载的URL 。经过实际测试，延时为3秒较为合适，3秒以下可能会出错。

代码如下：

/// <summary>
        /// 表格文字识别
        /// </summary>
        public static void myTableRecognitionRequestDemo()
        {
            // 设置APPID/AK/SK
            var API_KEY = "你的API Key";
            var SECRET_KEY = "你的Secret Key";
            //创建对象
            var client = new Baidu.Aip.Ocr.Ocr(API_KEY, SECRET_KEY);
            client.Timeout = 60000;  // 修改超时时间
            var image = File.ReadAllBytes(@"F:\表格图片1.jpg");//这里要改成你的表格图片路径
            // 调用表格文字识别，可能会抛出网络等异常，请使用try/catch捕获
            var result = client.TableRecognitionRequest(image);
            //解析Json
            JObject jo = (JObject)JsonConvert.DeserializeObject(result.ToString());
            string requestId = jo["result"][0]["request_id"].ToString();
            Console.WriteLine("获得requestId："+requestId);
            //延时3秒，这句是必须的
            System.Threading.Thread.Sleep(3000);
            //获取表格识别结果
            //有时会得不到链接，需要多尝试几次
            var resultExcel = client.TableRecognitionGetResult(requestId);
            Console.WriteLine("获得的表格识别结果如下：");
            Console.WriteLine(resultExcel);
            //解析Json，获得链接
            JObject joResult = (JObject)JsonConvert.DeserializeObject(resultExcel.ToString());
            string excelURL = joResult["result"]["result_data"].ToString();
            Console.WriteLine("获得的Excel文件下载地址是：\n" + excelURL);
            //自动下载Excel文件到电脑
            WebClient df = new WebClient();
            df.DownloadFile(excelURL, @"F:\识别结果.xls");//这里要改成你的下载文件路径
            Console.WriteLine("下载完毕");
        }

作者使用的测试用图片：

表格文字识别结果截图：

尾记：本文的示例代码都是最新的代码，跟百度SDK文档里面的代码是一致的，而云猫OCR是2017年末就已经写好的了，代码有些陈旧，所以没直接贴源代码了。希望各位看官踊跃讨论，本人水平也一般，大家多交流学习。

2019年9月11日

基于百度AI的云猫OCR开发实录之代码篇

C语言--右移左移

12款高效开源Wiki系统推荐，打造团队知识管理利器

一个开源且全面的C#算法实战教程

dotnet 基于 DirectML 控制台运行 Phi-3 模型

自定义MyBatis插件

一款.NET开源、功能强大、跨平台的绘图库 - OxyPlot

常用的 Git 指令

鼠标控制软件有可能和虚拟机软件产生冲突

sm4加密工具类

雲狐語音識別軟件視頻演示及代碼簡明解析

雲貓OCR使用視頻及下載

雲狐語音識別軟件演示及代碼簡明解析

C#編程實現判斷素數的方法

C#編程實現階乘的兩種方法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結