代碼！以備不時之需！中文文本預處理（停用詞、空格分隔、按行分類）

原創

2020-06-24 21:23

# 顯示處理流程
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

# 停用詞文檔
stopwords_path = "G:/1研究生/news_stopwords.txt"
"""創建停用詞列表"""
def stopwordslist():
    stopwords = [line.strip() for line in open(stopwords_path,encoding='UTF-8').readlines()]
    return stopwords

# 對句子進行中文分詞
def seg_depart(sentence):
    sentence_depart = jieba.cut(sentence.strip())
    stopwords = stopwordslist()
    outstr = ''
    # 去停用詞
    for word in sentence_depart:
        if word not in stopwords and len(word)>1:
            outstr += word
            outstr += " "
    return outstr


"""如果文檔還沒分詞，就進行分詞"""
count=0
if not os.path.exists(outfilename):
    inputs = open(filename, 'r', encoding='UTF-8')
    outputs = open(outfilename, 'w', encoding='UTF-8')

    # 把非漢字的字符全部去掉
    # 將輸出結果寫入ouputs.txt中
    for line in inputs:
        line = line.split('\t')[1]
        line = re.sub(r'[^\u4e00-\u9fa5]+','',line)
        line_seg = seg_depart(line.strip())
        outputs.write(line_seg.strip() + '\n')
        count+=1
        if(count%200==0):
            print(count)
    
    outputs.close()
    inputs.close()
    print("刪除停用詞和分詞成功！！！")

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【NLP CS224N筆記】Lecture 12 - Information from parts of words Subword Models

本次梳理基於Datawhale 第12期組隊學習 -CS224n-預訓練模塊詳細課程內容參考(2019)斯坦福CS224n深度學習自然語言處理課程 1. 寫在前面自然語言處理( NLP )是信息時代最重要的技術之一，也是人工智

2020-07-07 14:07:57

【NLP CS224N筆記】Lecture 13 - Contextual Word Representations and Pretraining

本次梳理基於Datawhale 第12期組隊學習 -CS224n-預訓練模塊詳細課程內容參考(2019)斯坦福CS224n深度學習自然語言處理課程 1. 寫在前面自然語言處理( NLP )是信息時代最重要的技術之一，也是人工智

2020-07-07 14:07:57

斯坦福Stanford Parser句法分析工具使用指南

Stanford官網下載緩慢，分享Stanford Parser2016安裝包鏈接: https://pan.baidu.com/s/1DSwY_Njm_9WQFuNisR30Jw 提取碼: d6kf Stanford Parser圖

2020-07-03 15:34:55

cs224n 2019 Lecture 7: Vanishing Gradients and Fancy RNNs

本節課內容概述：本節課主要解釋了梯度消失和梯度爆炸問題以及其他類型的RNN 上節課將的是RNN以及爲什麼RNN適用於語言模型。因爲它可以記住前面的信息。梯度消失問題導致了新RNN的出現：LSTM和GRU 其他修復梯度消失或者梯度爆炸

努力努力再努力_越努力越幸运

2020-07-01 00:11:00

cs224n 2019 Machine Translation, Sequence-to-sequence and Attention

本節課內容：介紹一個新的任務：機器翻譯介紹一個新的神經架構：序列到序列的模型介紹一種新的神經技術：注意力，用於提升序列到序列的模型第一部分：之前的機器翻譯方法 1950s：系統是基於規則實現的，使用一個雙語字典進行映射查詢 199

努力努力再努力_越努力越幸运

2020-07-01 00:11:00

CS224N 2019 Lecture 6: RNN:Language Models and Recurrent Neural Network

本次課主要介紹了兩個模型n-gram和RNN 語言模型語言模型是一個預測一句話中的下一個單詞的任務也就是說，給定單詞[x1,x2,x3,x4...xt]，預測下一個單詞x(t+1)是什麼單詞.x(t+1)是給定詞彙表V={w1,w2,

努力努力再努力_越努力越幸运

2020-07-01 00:11:00

cs224n 2019 Lecture 9: Practical Tips for Final Projects

主要內容：項目的選擇：可以選擇默認的問答項目，也可以自定義項目如何發現自定義項目如何找到數據集門神經網絡序列模型的複習關於機器翻譯的一些話題查看訓練結果和進行評估一、項目的選擇默認項目:在SQuAD上構建一個文本問答系統

努力努力再努力_越努力越幸运

2020-07-01 00:11:00

【NLP CS224N筆記】Assignment 1 - Exploring Word Vectors

作業來源：https://github.com/xixiaoyao/CS224n-winter-together 1. 寫在前面這篇文章是CS224N課程的第一個大作業，主要是對詞向量做了一個探索，並直觀的感受了一下詞嵌入或

2020-06-30 05:05:59

【NLP CS224N筆記】Lecture 2 - Word Vectors2 and Word Senses

本次梳理基於Datawhale 第12期組隊學習 -CS224n-預訓練模塊詳細課程內容參考(2019)斯坦福CS224n深度學習自然語言處理課程 1. 寫在前面自然語言處理( NLP )是信息時代最重要的技術之一，也是人工智

2020-06-30 05:05:59

NLP自然語言處理：文本表示總結 - 上篇word embedding（基於降維、基於聚類、CBOW 、Skip-gram、 NNLM 、TF-ID、GloVe ）

文本表示分類（基於表示方法）離散表示 one-hot表示詞袋模型與TF-ID 分佈式表示基於矩陣的表示方法降維的方法聚類的方法基於神經網絡的表示方法 NNLM CBOW Skip-gram GloVe ELMo GPT

陈宸-研究僧

2020-06-29 14:29:54

關於batch normalization和layer normalization的理解

目錄一、batch normalization和layer normalization的動機二、BN和LN的框架原理 2.1BN和LN的具體操作原理 2.2BN和LN的優點和不足 2.3BN和LN的不同 2.4BN和LN的實例代碼展示

2020-06-29 11:55:50

【NLP CS224N筆記】Lecture 1 - Introduction and Word Vectors

本次梳理基於Datawhale 第12期組隊學習 -CS224n-預訓練模塊詳細課程內容參考(2019)斯坦福CS224n深度學習自然語言處理課程 1. 寫在前面自然語言處理( NLP )是信息時代最重要的技術之一，也是人工智

2020-06-25 01:40:40

自然語言處理-1-介紹

自然語言處理-1-介紹零、開始的話一、NLP是什麼（一）NLP=NLU+NLG（二）NLP的困難（三）經典應用場景（四）NLP技術的四個維度鏈接：[ 全文章目錄 ] 零、開始的話首先要說聲對不起，咕咕咕了這麼久也沒更新p

2020-06-25 01:23:29

gensim.models.LdaModel建立新聞的LDA模型並測試，附代碼和文本數據

參考 https://github.com/DengYangyong/LDA_gensim 文本數據新聞數據：news_train.txt 預處理後文本：news_train_jieba.txt stopwords停用詞：new

2020-06-24 21:23:13

sklearn.feature_extraction.text中常見 Vectorizer 使用方法以及Tf–idf 值獲取

對於在tf-idf進行關鍵字提取的過程中，Scikit-learn提供了TFIDF算法的相關函數，本文主要用到了sklearn.feature_extraction.text下的TfidfTransformer和CountVectoriz

2020-06-24 21:23:13

24小時熱門文章

最新文章

最新評論文章