下載WIKI語料
wiki下載地址提供各種wiki語料,我使用的是文章正文,https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2。
語料內容抽取
使用wikiExtrector將格式轉換成txt
git地址:https://github.com/attardi/wikiextractor
使用方式:
將下載的文件拆分成過個200M的txt文件,存入output_wiki文件夾中
python3 WikiExtractor.py -b 200M -o output_wiki zhwiki-latest-pages-articles.xml.bz2
後處理:
出去文章中<doc>標籤,每段按行存入txt。
import os
out_file = "wiki_txt.txt"
fw = open(out_file,"w")
in_folder = "/Users/haoranqian/wiki_output/AA/"
for f in os.listdir(in_folder):
if f[0] == '.':
continue
fr = open(os.path.join(in_folder,f),'r')
lines = fr.readlines()
lines = filter(lambda x : '</doc>' not in x and '<doc' not in x and len(x) > 0, [line.strip() for line in lines])
lines = list(lines)
lines = [line+'\n' for line in lines]
fw.writelines(lines)
fr.close()
fw.close()
如果有繁體簡體轉換的需求,可以使用OpenCC。