通用中文OCR識別之語料準備

下載WIKI語料

wiki下載地址提供各種wiki語料,我使用的是文章正文,https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

語料內容抽取

使用wikiExtrector將格式轉換成txt

git地址:https://github.com/attardi/wikiextractor

使用方式:

將下載的文件拆分成過個200M的txt文件,存入output_wiki文件夾中

python3 WikiExtractor.py -b 200M -o output_wiki zhwiki-latest-pages-articles.xml.bz2

後處理:

出去文章中<doc>標籤,每段按行存入txt。

import os
out_file = "wiki_txt.txt"
fw = open(out_file,"w")
in_folder = "/Users/haoranqian/wiki_output/AA/"
for f in os.listdir(in_folder):
    if f[0] == '.':
        continue
    fr = open(os.path.join(in_folder,f),'r')
    lines = fr.readlines()
    lines = filter(lambda x : '</doc>' not in x and '<doc' not in x and len(x) > 0, [line.strip() for line in lines])
    lines = list(lines)
    lines = [line+'\n' for line in lines]
    fw.writelines(lines)
    fr.close()
fw.close()

如果有繁體簡體轉換的需求,可以使用OpenCC。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章