通用中文OCR識別之語料準備

原創

2019-10-26 07:03

下載WIKI語料

wiki下載地址提供各種wiki語料，我使用的是文章正文，https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2。

語料內容抽取

使用wikiExtrector將格式轉換成txt

git地址：https://github.com/attardi/wikiextractor

使用方式：

將下載的文件拆分成過個200M的txt文件，存入output_wiki文件夾中

python3 WikiExtractor.py -b 200M -o output_wiki zhwiki-latest-pages-articles.xml.bz2

後處理:

出去文章中<doc>標籤，每段按行存入txt。

import os
out_file = "wiki_txt.txt"
fw = open(out_file,"w")
in_folder = "/Users/haoranqian/wiki_output/AA/"
for f in os.listdir(in_folder):
    if f[0] == '.':
        continue
    fr = open(os.path.join(in_folder,f),'r')
    lines = fr.readlines()
    lines = filter(lambda x : '</doc>' not in x and '<doc' not in x and len(x) > 0, [line.strip() for line in lines])
    lines = list(lines)
    lines = [line+'\n' for line in lines]
    fw.writelines(lines)
    fr.close()
fw.close()

如果有繁體簡體轉換的需求，可以使用OpenCC。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

基於attention機制實現 CRNN OCR文字識別

定義網絡結構實現 BahdanauAttention，其中socre的實現方法爲 perceptron 形式 class BahdanauAttention(tf.keras.Model): def __init__(sel

2020-07-08 12:23:28

文字識別總結（OCR）

最近在讀Tesseract相關文章，發現一篇總結的不錯的文章，對剛入門或者準備入門的具有挺大參考價值，轉自：http://www.xtecher.com/Xfeature/view?aid=5372 鏈接可能掛掉了，今天重新補充一下。目

2020-07-06 18:44:39

OCR的學習筆記

1 致謝感謝Python中提供的difflib的函數庫～ 2 前言我們希望可以打造一個屬於自己的OCR模型～ 3 後處理在經過OCR的識別過程之後，識別出來的文字可能會出現錯誤，所以還需要進行後處理； 3.1 相似度匹配——diff

2020-07-03 21:31:12

爬蟲知識梳理

爬蟲知識簡單梳理文章目錄爬蟲知識簡單梳理1.分類2.模擬瀏覽器請求數據（常用）3.數據提取XML和HTML區別a. 正則（re模塊）b. Beautiful Soup4模塊[API鏈接](http://beautifulsoup

AggressionStorm

2020-07-08 04:15:54

【源碼】某度貼吧驗證碼識別

【某度貼吧】驗證碼識別首先採集使用了【自研簡易驗證碼爬蟲框架】一般的驗證碼獲取流程分爲三大步驟前置請求, 獲取驗證碼相關參數驗證碼請求, 獲取驗證碼校驗請求, 通過官網判定驗證碼是否正確通過繼承 Project 類

2020-07-07 17:43:47

Python實現淘寶直播自動點贊與抽獎

最近入了直播抽獎的坑，而且中了不少獎，薅羊毛事後一時爽，天天刷火葬場。於是想到用Python自動監控，直播福利是以抽獎爲形式的，粉絲們在互動區瘋狂發送關鍵字，主播隨機截圖，並給在截圖中的粉絲送出福利。這個過程需要粉絲瘋狂的點贊，

2020-07-06 17:37:15

python截屏+ocr識別+翻譯

目錄一、前言之前因爲拿到了一本純英文的pdf文檔，而且無法劃詞以及複製任何內容，這對於英文較差的我閱讀起來極其不友好，於是產生了想實現一個工具，通過截屏圖片+ocr文字識別+翻譯功能來加快閱讀速度，於是就有了以下的代碼。代碼本身並

2020-07-06 09:27:48

【OCR】文字檢測：傳統算法、CTPN、EAST

我的east和ctpn速度差不多，east正確率高4% http://xiaofengshi.com/2019/01/23/深度學習-TextDetection/ https://codeload.github.com/GlassyWin

Mein_Augenstern

2020-07-06 09:16:39

使用Python基於VGG/CTPN/CRNN的自然場景文字方向檢測/區域檢測/不定長OCR識別

轉自：https://www.cnblogs.com/YSPXIZHEN/p/11343426.html GitHub：https://github.com/pengcao/chinese_ocr https://github.com/x

Mein_Augenstern

2020-07-06 09:16:29

銀行回單OCR識別

銀行回執單（銀行回單）是表明個人或在單位在銀行辦理業務的一個有效憑證。銀行回單作爲有效憑證，可以在財務記賬中作爲原始憑證記入公司賬本。所以在記賬過程中涉及大量銀行回單信息的錄入，目前均是由財務人員手工錄入，涉及到大量的錄入工作，費時費力。

weixin18701137547

2020-07-06 06:40:59

Oracle 10G RAC下OCR和Voting disk的管理

Voting disk(表決磁盤方面):Voting disk記錄節點成員信息，如包含哪些節點成員、節點的添加刪除信息記錄，大小爲20MB查看voting disk位置：crsctl query css votedisk $ crs

天上掉下个蓝妹妹

2020-07-05 20:35:41

從服務器下載圖片保存到本地磁盤中

在做OCR時，我們會從服務器下載驗證碼圖片，可以通過把驗證碼圖片下載到本地保存起來使用。以下是下載圖片的實現： import java.io.FileOutputStream; import java.io.IOException;

2020-07-05 19:40:05

python識別圖片中文字

ocr 光學字符識別 Optical Character Recognition 注意需要先安裝 tesseract sudo apt-get install -y tesseract-ocr 驗證Te

2020-07-04 01:32:01

華爲「三分鐘實現新版式物流單據識別服務上線」：高精確度的有效識別助力提升業務處理效率 |百萬人學AI評選

2020 無疑是特殊的一年，而 AI 在開年的這場”戰疫“中表現出了驚人的力量。站在“新十年”的起點上，CSDN【百萬人學AI】評選活動正式啓動。本屆評選活動在前兩屆的基礎上再度升級，設立了「AI優秀案例獎Top 30」、「AI新銳公

2020-07-03 19:59:31

智文——文字識別與智能檢索綜合應用平臺：提供多場景、多語種、高精度的整體文字檢測、文字識別和智能檢索服務 | 百萬人學AI評選

2020 無疑是特殊的一年，而 AI 在開年的這場”戰疫“中表現出了驚人的力量。站在“新十年”的起點上，CSDN【百萬人學AI】評選活動正式啓動。本屆評選活動在前兩屆的基礎上再度升級，設立了「AI優秀案例獎Top 30」、「AI新銳公

2020-07-03 19:59:31

24小時熱門文章

最新文章

最新評論文章