在網上看到一個小需求,需要用正則表達式來處理。原需求如下:
找出文本中包含”因爲……所以”的句子,並以兩個詞爲中心對齊輸出前後3個字,中間全輸出,如果“因爲”和“所以”中間還存在“因爲”“所以”,也要找出來,另算一行,輸出格式爲:
———————————————————————
行號 前面3個字 *因爲* 全部 &所以& 後面3個字(標點符號算一個字)
2 還不是 *因爲* 這裏好, &所以& 沒有人
———————————————————————
實現方法如下:
#encoding:utf-8
import os
import re
def getPairStriList(filename):
pairStrList = []
textFile = open(filename, 'r')
pattern = re.compile(u'.{3}\u56e0\u4e3a.*\u6240\u4ee5.{3}') #u'\u56e0\u4e3a和u'\u6240\u4ee5'分別爲“因爲”和“所以”的utf8碼
for line in textFile:
utfLine = line.decode('utf8')
result = pattern.search(utfLine)
while result:
resultStr = result.group()
pairStrList.append(resultStr)
result = pattern.search(resultStr,2,len(resultStr)-2)
#對每個字符串進行格式轉換和拼接
for i in range(len(pairStrList)):
pairStrList[i] = pairStrList[i][:3] + pairStrList[i][3:5].replace(u'\u56e0\u4e3a',u' *\u56e0\u4e3a* ',1) + pairStrList[i][5:]
pairStrList[i] = pairStrList[i][:len(pairStrList[i])-5] + pairStrList[i][len(pairStrList[i])-5:].replace(u'\u6240\u4ee5',u' &\u6240\u4ee5& ',1)
pairStrList[i] = str(i+1) + ' ' + pairStrList[i]
return pairStrList
if __name__ == '__main__':
pairStrList = getPairStriList('test.txt')
for str in pairStrList:
print str