import string
fin = open(filename)
words = []
count = 0
for line in fin:
line = line.replace('-',' ')
for word in line.split():
word = word.strip(string.punctuation + string.whitespace)
word = word.lower()
if word not in words:
words.append(word)
count = count+1
print count , ' ' , word
如何提取一篇英文文章的所有單詞
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
構建自己的DSL之二 抓取文本處理
轉載請標明出處:http://fuliang.iteye.com/blog/1122051公司的蜘蛛抓取的內容一個記錄是以TAB分割的各個字段的值,並
iteye_14216
2020-07-01 20:47:58
Linux 文本處理三劍客之 Sed
笨小孩@GF 知行合一
2020-06-29 17:24:31
python文本處理入門:44行代碼寫一個簡單的藏頭詩生成器
timcanby
2020-06-27 06:26:38
小說 sed
xuejinliang
2020-06-26 15:09:17
每行指定元素個數進行輸出
xuejinliang
2020-06-26 15:09:17
使用python處理日誌文件
wangzai6378
2020-06-24 11:23:41
Linux 數據提取
YdPro_
2020-06-23 13:56:17
如何解決最後一個尾註引用顯示與致謝混爲一談的問題-下
Beta-
2020-06-22 11:37:35
Linux---積累----處理文本技巧---去重
张小凡vip
2020-06-21 22:25:39
拆分word段落並保留H5樣式
1、功能需求 1.1、需求明細 1、將word文本轉換爲html 2、提取三級標題下的H5內容(包括表格、圖片) 3、將三級標題內容提取爲【一級類型】、【二級類型】 1.2、原wo
硅晶动力
2020-06-21 19:33:35
TextCNN原理記錄
崔昕阳
2020-06-21 05:26:58
Google Colab下下載imdb數據集報錯ValueError: Object arrays cannot be loaded when allow_pickle=False的解決方法
崔昕阳
2020-06-21 04:36:43