NLP數據預處理神器nltk

原創

2019-07-02 14:54

神器nltk

安裝很簡單：

pip install nltk

第一次使用nltk的話，會報錯，還需要下載一些資源包，按照提示下載即可：

import nltk
nltk.download('punkt')

可以簡單測試一下：

import nltk
text = 'This is a test. I want to learn nltk.'
sens = nltk.sent_tokenize(text)
print(sens)

上面是將文本text切分成句子。

輸出結果是：

[‘This is a test.’, ‘I want to learn nltk.’]

我現在有一個需求，給定一個英文文本，本例子使用《聖經》的英文版，裏面每行有若干個句子，我們需要轉成每行一個句子，所有字母全部轉成小寫，單詞及符號之間都用空格分隔。

代碼如下：

import nltk

lines = []
with open('bible.en.txt') as f:
    # 遍歷文件每一行
    for line in f:
        # 將每行以句子爲單位分開
        sents = nltk.sent_tokenize(line)
        # 遍歷每個句子
        for sent in sents:
            # 先將句子進行tokenize,然後在token之間加空格，最後都轉成小寫
            tmp = ' '.join(nltk.word_tokenize(sent)).lower().strip() + '\n'
            lines.append(tmp)
# 預處理後的句子寫入到新的文件中去
with open('bible.en.txt.lower', 'w') as f:
    f.writelines(lines)

這只是最簡單的用法，後續繼續補充。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

PIC18 bootloader之RS485 bootloader

瞭解更多關於bootloader 的C語言實現，請加我Q扣: 1273623966 （驗證信息請填 bootloader）,歡迎諮詢或定製bootloader（在線升級程序）。

2024-06-14 14:36:29

序列化-serialVersionUID作用

Serializable接口作用：標記一個類可以被序列化，如果沒有實現該接口，則會拋出異常。 ObjectOutputStream中源碼：實驗： serialVersionUID 作用：表示一個序列換版本，控制序列化與反序列化。

帥氣的濤啊

2024-06-14 14:36:09

windows下如何將拖拽文件位置從複製變成剪切-按住shift鍵再操作

經常碰到這種情況，我們需要把一個文件從A位置轉移到B位置。但是單純的拖拽只會複製相關文件，沒有辦法直接做到位置修改轉移的效果。搜索了一下，發現shift按住之後再進行就可以改複製爲剪切了。

2024-06-14 14:32:49

【測試理論】一個表格比較regression，smoke，sanity testing區別

英文版，外企面試喜歡考 Testing Type Definition Purpose When to Perform Techniques Challenges Regression Ensures previously d

金大鑫要堅持

2024-06-14 14:30:59

docker hub鏡像源

https://github.com/DaoCloud/public-image-mirror 增加前綴 (推薦方式)。比如： k8s.gcr.io/coredns/coredns => m.daocloud.io/k8s.gcr.io/c

2024-06-14 14:28:59

【乾貨分享】.NET人臉識別解決方案

前言前段時間有同學在DotNetGuide技術社區交流羣提問：.NET做人臉識別功能有什麼好的解決方案推薦的嗎？今天大姚給大家推薦2款.NET開源、免費、跨平臺、使用簡單的人臉識別庫，希望可以幫助到有需要的同學。人臉識別應用場景現如今

2024-06-14 14:25:58

小白也能玩轉Git：從入門到實戰詳細教程

Git介紹 Git是一種分佈式版本控制系統，它廣泛應用於軟件開發中。通過Git，開發人員可以追蹤文件的變化、協作工作、管理代碼庫等。與集中式版本控制系統（如SVN）不同，Git使每個開發人員都具有完整的代碼倉庫副本，這使得團隊成員能夠獨立地

2024-06-14 14:25:58

有點東西，template可以直接使用setup語法糖中的變量原來是因爲這個

前言我們每天寫vue3代碼的時候都會使用到setup語法糖，那你知道爲什麼setup語法糖中的頂層綁定可以在template中直接使用的呢？setup語法糖是如何編譯成setup函數的呢？本文將圍繞這些問題帶你揭開setup語法糖的神祕面

你假裝沒察覺

2024-06-14 14:25:08

記一次 .NET某工廠報警監控設置崩潰分析

一：背景 1. 講故事前些天有位朋友在微信上丟了一個崩潰的dump給我，讓我幫忙看下爲什麼出現了崩潰，在 Windows 的事件查看器上顯示的是經典的訪問違例，即 c0000005 錯誤碼，不管怎麼說有dump就可以上windbg開幹

2024-06-14 14:19:38

MyBatis 執行存儲過程

Mapper.xml <insert id="setReport" statementType="CALLABLE" parameterType="Map"> {call INSERT_EMR( #{IDH,

2024-06-14 14:19:08

物理機開關機

關機 [[email protected] xx]# init 0Receive Connection closedConnection websocket closed #

2024-06-14 14:17:48

遷移服務判斷是否遷移以及服務情況檢查

1、netstat -lntup 查看哪些tcp端口服務 2、netstat -an |grep unix 查看有哪些連接，分別是什麼端口 3、lsof -i:端口，查看服務端口是否有打開的文件，在使用 4、 find logs/ -

2024-06-14 14:17:48

直播預告 | 6月17日，個推分享多端精細化運營實操方法和實戰經驗

如今精細化運營仍舊是諸多企業的必修課。與此同時，企業在APP、小程序、H5、快應用等多端的用戶爭奪戰日益激烈。如何將企業自身的跨平臺場景結合，有效識別用戶設備，進行多端聯合精細化運營，成爲當前很多企業所面臨的痛點、難點。 6月17日（下週一

2024-06-14 14:17:28

dubbo~使用自定義RestRequestFilter過濾器

ServiceInvokeRestFilterd在包 org.apache.dubbo.rpc.protocol.rest.filter中，它的執行順序是最低的，爲Integer的最大值意味着，我們自定義的Filter都會在Servic

2024-06-14 14:16:28

centos常用運維命令

systemctl常用文件名:**.service 目錄:/lib/systemd/system/ 目錄:/usr/lib/systemd/system/ systemctl daemon-reload systemctl status

2024-06-14 14:15:27

24小時熱門文章

物理機開關機

最新文章

最新評論文章