中文字符分字處理工具

中文字符分字處理工具,將字符進行分字處理,字符與字符以空格隔開,如:我是一名小學生 處理後:我 是 一 名 小 學 生
如需要爲bert模型處理分字,請看bert分詞工具-使用Bert自帶的WordPiece分詞工具將文本分割成單字

input:

北京時間318日,布魯克林籃網隊今天宣佈球隊裏有4名球員的新冠病毒檢測結果呈陽性。
籃網隊在聲明裏沒有透露這4名球員的名字,但是指出其中1名球員出現了新冠病毒的症狀,另外3名球員無症狀。
與此同時,籃網隊表示他們正在通知任何與這些球員接觸過的人,包括最近的對手。
值得一提的是,NBA無限期停賽之前,籃網的最後一個對手是湖人。
籃網隊在聲明中還表示,球隊裏的所有球員目前都在隔離,而且與隊醫保持密切溝通。
截至目前,已經有7名NBA球員被確診新冠肺炎。

output:

北 京 時 間 31 8 日 , 布 魯 克 林 籃 網 隊 今 天 宣 布 球 隊 裏 有 4 名 球 員 的 新 冠 病 毒 檢 測 結 果 呈 陽 性 。 
籃 網 隊 在 聲 明 裏 沒 有 透 露 這 4 名 球 員 的 名 字 , 但 是 指 出 其 中 1 名 球 員 出 現 了 新 冠 病 毒 的 症 狀 , 另 外 3 名 球 員 無 症 狀 。 
與 此 同 時 , 籃 網 隊 表 示 他 們 正 在 通 知 任 何 與 這 些 球 員 接 觸 過 的 人 , 包 括 最 近 的 對 手 。 
值 得 一 提 的 是 , N B A 無 限 期 停 賽 之 前 , 籃 網 的 最 後 一 個 對 手 是 湖 人 。 
籃 網 隊 在 聲 明 中 還 表 示 , 球 隊 裏 的 所 有 球 員 目 前 都 在 隔 離 , 而 且 與 隊 醫 保 持 密 切 溝 通 。 
截 至 目 前 , 已 經 有 7 名 N B A 球 員 被 確 診 新 冠 肺 炎 。 

代碼:

'''
將字符進行分字處理,字符與字符以空格隔開,如:中華人民共和國 處理後:中 華 人 民 共 和 國
Author:西蘭
Date:2020-03-18
'''


def write2txt(outfile, line):
    with open('./' + outfile, 'a', encoding='utf-8')as f1:
        f1.write(line + '\n')


def word_spilt(infile, outfile):
    with open('./' + infile, 'r', encoding='utf-8')as f1:
        for line in f1.readlines():
            print(line.strip())
            word_list = list(line.strip())
            text = ''
            for i in range(len(word_list)):
                text += str(word_list[i]) + ' '
            print(text)
            write2txt(outfile, text)


word_spilt('data.txt', 'out.txt')

關注以下公衆號,一起玩啊~
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章