第 0004 題:任一個英文的純文本文件,統計其中的單詞出現的個數。
這道題題意很模糊,統計“單詞”其實很複雜,因爲需要詞典才能知道一個詞到底是不是單詞,這裏應該就是簡單的連續英文字母在一塊就算一個單詞(個人理解),使用正則表達式很簡單。
正則表達式很簡單,就是東西太多記不住,每次使用都得看一遍,這裏有一篇挺好的深入理解正則表達式
下面是代碼:
#coding=utf-8
import re
f=open('d:/log/test.txt').read()
regular=r'\b[a-zA-Z]+\b'
result=re.findall(regular,f)
print len(result)
#查看下匹配到的是不是單詞
print result