如何提取一篇英文文章的所有單詞

原創

2020-05-31 14:23

import string
fin = open(filename) 
words = []
count = 0
for line in fin:
	line = line.replace('-',' ')
	for word in line.split():
		word = word.strip(string.punctuation + string.whitespace)
		word = word.lower()
		if word not in words:
			words.append(word)
			count = count+1
			print count , ' ' , word

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

構建自己的DSL之二抓取文本處理

轉載請標明出處：http://fuliang.iteye.com/blog/1122051公司的蜘蛛抓取的內容一個記錄是以TAB分割的各個字段的值，並

2020-07-01 20:47:58

Linux 文本處理三劍客之 Sed

Sed 全稱是：Stream EDitor，是一項Linux指令，功能同awk類似，差別在於，sed簡單，對列處理的功能要差一些，awk的功能複雜，對列處理的功能比較強大。調用sed命令有兩種形式： sed [options] 'co

笨小孩@GF 知行合一

2020-06-29 17:24:31

python文本處理入門：44行代碼寫一個簡單的藏頭詩生成器

想必最近大家家庭羣裏最近都會看到這麼一張圖：一驚，這什麼玩意兒？？？後來一搜會發現裏面不同的詩句來自於不同的古詩，嘛，這不是很好玩的一件事情嗎？這次我們使用Github的唐詩宋詞dataset：https://github.com/c

2020-06-27 06:26:38

小說 sed

看cu大神的sed帖子總結博客，如下，請大神們批評指教。 sed叫做流編輯器，也就是必須要有輸入流，才能對文本進行編輯。示例文本如下：cat file 1 1 a a a,a a,a 11=1c 11=1c 11c 11 a

2020-06-26 15:09:17

每行指定元素個數進行輸出

在處理文本的過程中，會遇到如下的問題 file1 1 2 3 4 5 6 7 8 9 4 或者是 file2 1 2 3 4 6 7 u 7 4 6 要求每行有三個元素，如果本行有多餘的元素直接接到下一行在file2中要求每行只有一個

2020-06-26 15:09:17

使用python處理日誌文件

最近爲了分析程序運行情況，以及得出機器的最高性能。需要從日誌文件中得出程序輸出、效率；爲了使用數據直觀，工作方便，於是使用了python. 日誌文件如下 2020-03-06 00:13:29.134 [Debug]: S

2020-06-24 11:23:41

Linux 數據提取

前提有時候我們需要從文件裏提取數據，當然也可能是老闆甩過來一個文件讓你把裏面的電話和郵箱全部提取，這時候一條一條的複製粘貼總是太麻煩，這個時候我們就需要利用一些命令和正則表達式在linux系統中自動提取出來。目標 1.提取d

2020-06-23 13:56:17

如何解決最後一個尾註引用顯示與致謝混爲一談的問題-下

轉自：http://tieba.baidu.com/p/1084398250 首先將尾註文本及後面的致謝文本等內容複製粘貼到別處。按Ctrl+H組合鍵，打開“查找和替換”對話框，“查找內容”文本框中輸入“^e”，“替換爲”文本框中輸入一個

2020-06-22 11:37:35

Linux---積累----處理文本技巧---去重

對文本的內容進行去重是一個很常見的需求，excel也可以進行處理但是有數量的限制，而linux更適用於處理比較大的數據量的去重，更大的數據量去重則需要考慮使用spark等大數據框架進行運算。本文記錄 linux實現去重的操作命

2020-06-21 22:25:39

拆分word段落並保留H5樣式

1、功能需求 1.1、需求明細 1、將word文本轉換爲html 2、提取三級標題下的H5內容（包括表格、圖片） 3、將三級標題內容提取爲【一級類型】、【二級類型】 1.2、原wo

2020-06-21 19:33:35

TextCNN原理記錄

最近在做基於深度學習的文本分類，目前常見的神經網絡主要有CNN和RNN，相對來說CNN的速度較快。在這裏對於CNN用於文本分類的理解做一下記錄，主要基於論文和網上的一些參考資料。一、論文原件論文題目：Convolutional

2020-06-21 05:26:58

Google Colab下下載imdb數據集報錯ValueError: Object arrays cannot be loaded when allow_pickle=False的解決方法

錯誤顯示：ValueError: Object arrays cannot be loaded when allow_pickle=False 解決方法：原因是numpy版本過高 !pip install numpy==1.16

2020-06-21 04:36:43

數據競賽——3

“達觀杯”文本智能處理挑戰賽之三 LightGBM：Light Gradient Boosting Machine，是一個實現GBDT (Gradient Boosting Decision Tree)算法的框架，支持高效率的並

2020-06-20 00:29:25

數據競賽——5

Stacking Stacking：表示學習指的是模型從原始數據中自動抽取有效特徵的過程。 Stacking先從初始數據集訓練出初級學習器，將初級學習器的輸出當作特徵構成新數據集，利用新數據集再訓練次級學習器(meta-learn

2020-06-19 23:15:29

三大金融文本語料(工商,新聞,資訊) - NLP語料

FinancialDatasets SmoothNLP 金融文本數據集(公開) | Public Financial Datasets for NLP Researches 數據一覽由於github存儲有限, 如需全量數據集,

weixin_40473141

2020-06-16 07:50:40

24小時熱門文章

最新文章

最新評論文章