通用中文OCR识别之语料准备

原創

2019-10-26 07:03

下载WIKI语料

wiki下载地址提供各种wiki语料，我使用的是文章正文，https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2。

语料内容抽取

使用wikiExtrector将格式转换成txt

git地址：https://github.com/attardi/wikiextractor

使用方式：

将下载的文件拆分成过个200M的txt文件，存入output_wiki文件夹中

python3 WikiExtractor.py -b 200M -o output_wiki zhwiki-latest-pages-articles.xml.bz2

后处理:

出去文章中<doc>标签，每段按行存入txt。

import os
out_file = "wiki_txt.txt"
fw = open(out_file,"w")
in_folder = "/Users/haoranqian/wiki_output/AA/"
for f in os.listdir(in_folder):
    if f[0] == '.':
        continue
    fr = open(os.path.join(in_folder,f),'r')
    lines = fr.readlines()
    lines = filter(lambda x : '</doc>' not in x and '<doc' not in x and len(x) > 0, [line.strip() for line in lines])
    lines = list(lines)
    lines = [line+'\n' for line in lines]
    fw.writelines(lines)
    fr.close()
fw.close()

如果有繁体简体转换的需求，可以使用OpenCC。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

基于attention机制实现 CRNN OCR文字识别

定義網絡結構實現 BahdanauAttention，其中socre的實現方法爲 perceptron 形式 class BahdanauAttention(tf.keras.Model): def __init__(sel

2020-07-08 12:23:28

文字识别总结（OCR）

最近在讀Tesseract相關文章，發現一篇總結的不錯的文章，對剛入門或者準備入門的具有挺大參考價值，轉自：http://www.xtecher.com/Xfeature/view?aid=5372 鏈接可能掛掉了，今天重新補充一下。目

2020-07-06 18:44:39

OCR的学习笔记

1 致謝感謝Python中提供的difflib的函數庫～ 2 前言我們希望可以打造一個屬於自己的OCR模型～ 3 後處理在經過OCR的識別過程之後，識別出來的文字可能會出現錯誤，所以還需要進行後處理； 3.1 相似度匹配——diff

2020-07-03 21:31:12

爬虫知识梳理

爬蟲知識簡單梳理文章目錄爬蟲知識簡單梳理1.分類2.模擬瀏覽器請求數據（常用）3.數據提取XML和HTML區別a. 正則（re模塊）b. Beautiful Soup4模塊[API鏈接](http://beautifulsoup

AggressionStorm

2020-07-08 04:15:54

【源码】某度贴吧验证码识别

【某度貼吧】驗證碼識別首先採集使用了【自研簡易驗證碼爬蟲框架】一般的驗證碼獲取流程分爲三大步驟前置請求, 獲取驗證碼相關參數驗證碼請求, 獲取驗證碼校驗請求, 通過官網判定驗證碼是否正確通過繼承 Project 類

2020-07-07 17:43:47

Python实现淘宝直播自动点赞与抽奖

最近入了直播抽獎的坑，而且中了不少獎，薅羊毛事後一時爽，天天刷火葬場。於是想到用Python自動監控，直播福利是以抽獎爲形式的，粉絲們在互動區瘋狂發送關鍵字，主播隨機截圖，並給在截圖中的粉絲送出福利。這個過程需要粉絲瘋狂的點贊，

2020-07-06 17:37:15

python截屏+ocr识别+翻译

目錄一、前言之前因爲拿到了一本純英文的pdf文檔，而且無法劃詞以及複製任何內容，這對於英文較差的我閱讀起來極其不友好，於是產生了想實現一個工具，通過截屏圖片+ocr文字識別+翻譯功能來加快閱讀速度，於是就有了以下的代碼。代碼本身並

2020-07-06 09:27:48

【OCR】文字检测：传统算法、CTPN、EAST

我的east和ctpn速度差不多，east正確率高4% http://xiaofengshi.com/2019/01/23/深度學習-TextDetection/ https://codeload.github.com/GlassyWin

Mein_Augenstern

2020-07-06 09:16:39

使用Python基于VGG/CTPN/CRNN的自然场景文字方向检测/区域检测/不定长OCR识别

轉自：https://www.cnblogs.com/YSPXIZHEN/p/11343426.html GitHub：https://github.com/pengcao/chinese_ocr https://github.com/x

Mein_Augenstern

2020-07-06 09:16:29

银行回单OCR识别

銀行回執單（銀行回單）是表明個人或在單位在銀行辦理業務的一個有效憑證。銀行回單作爲有效憑證，可以在財務記賬中作爲原始憑證記入公司賬本。所以在記賬過程中涉及大量銀行回單信息的錄入，目前均是由財務人員手工錄入，涉及到大量的錄入工作，費時費力。

weixin18701137547

2020-07-06 06:40:59

Oracle 10G RAC下OCR和Voting disk的管理

Voting disk(表決磁盤方面):Voting disk記錄節點成員信息，如包含哪些節點成員、節點的添加刪除信息記錄，大小爲20MB查看voting disk位置：crsctl query css votedisk $ crs

天上掉下个蓝妹妹

2020-07-05 20:35:41

从服务器下载图片保存到本地磁盘中

在做OCR時，我們會從服務器下載驗證碼圖片，可以通過把驗證碼圖片下載到本地保存起來使用。以下是下載圖片的實現： import java.io.FileOutputStream; import java.io.IOException;

2020-07-05 19:40:05

python识别图片中文字

ocr 光學字符識別 Optical Character Recognition 注意需要先安裝 tesseract sudo apt-get install -y tesseract-ocr 驗證Te

2020-07-04 01:32:01

华为「三分钟实现新版式物流单据识别服务上线」：高精确度的有效识别助力提升业务处理效率 |百万人学AI评选

2020 無疑是特殊的一年，而 AI 在開年的這場”戰疫“中表現出了驚人的力量。站在“新十年”的起點上，CSDN【百萬人學AI】評選活動正式啓動。本屆評選活動在前兩屆的基礎上再度升級，設立了「AI優秀案例獎Top 30」、「AI新銳公

2020-07-03 19:59:31

智文——文字识别与智能检索综合应用平台：提供多场景、多语种、高精度的整体文字检测、文字识别和智能检索服务 | 百万人学AI评选

2020 無疑是特殊的一年，而 AI 在開年的這場”戰疫“中表現出了驚人的力量。站在“新十年”的起點上，CSDN【百萬人學AI】評選活動正式啓動。本屆評選活動在前兩屆的基礎上再度升級，設立了「AI優秀案例獎Top 30」、「AI新銳公

2020-07-03 19:59:31

24小時熱門文章

最新文章

最新評論文章