通用中文OCR识别之语料准备

下载WIKI语料

wiki下载地址提供各种wiki语料,我使用的是文章正文,https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

语料内容抽取

使用wikiExtrector将格式转换成txt

git地址:https://github.com/attardi/wikiextractor

使用方式:

将下载的文件拆分成过个200M的txt文件,存入output_wiki文件夹中

python3 WikiExtractor.py -b 200M -o output_wiki zhwiki-latest-pages-articles.xml.bz2

后处理:

出去文章中<doc>标签,每段按行存入txt。

import os
out_file = "wiki_txt.txt"
fw = open(out_file,"w")
in_folder = "/Users/haoranqian/wiki_output/AA/"
for f in os.listdir(in_folder):
    if f[0] == '.':
        continue
    fr = open(os.path.join(in_folder,f),'r')
    lines = fr.readlines()
    lines = filter(lambda x : '</doc>' not in x and '<doc' not in x and len(x) > 0, [line.strip() for line in lines])
    lines = list(lines)
    lines = [line+'\n' for line in lines]
    fw.writelines(lines)
    fr.close()
fw.close()

如果有繁体简体转换的需求,可以使用OpenCC。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章