在python中使用正則表達式查找可嵌套字符串組

在網上看到一個小需求,需要用正則表達式來處理。原需求如下:

找出文本中包含”因爲……所以”的句子,並以兩個詞爲中心對齊輸出前後3個字,中間全輸出,如果“因爲”和“所以”中間還存在“因爲”“所以”,也要找出來,另算一行,輸出格式爲:

———————————————————————
行號 前面3個字 *因爲* 全部 &所以& 後面3個字(標點符號算一個字)
2 還不是 *因爲* 這裏好, &所以& 沒有人
———————————————————————

實現方法如下:

#encoding:utf-8

import os
import re

def getPairStriList(filename):
    pairStrList = []
    textFile = open(filename, 'r')
    pattern = re.compile(u'.{3}\u56e0\u4e3a.*\u6240\u4ee5.{3}') #u'\u56e0\u4e3a和u'\u6240\u4ee5'分別爲“因爲”和“所以”的utf8碼
    for line in textFile:
        utfLine = line.decode('utf8')
        result = pattern.search(utfLine)
        while result:
            resultStr = result.group()
            pairStrList.append(resultStr)
            result = pattern.search(resultStr,2,len(resultStr)-2)

    #對每個字符串進行格式轉換和拼接    
    for i in range(len(pairStrList)):
        pairStrList[i] = pairStrList[i][:3] + pairStrList[i][3:5].replace(u'\u56e0\u4e3a',u' *\u56e0\u4e3a* ',1) + pairStrList[i][5:]
        pairStrList[i] = pairStrList[i][:len(pairStrList[i])-5] + pairStrList[i][len(pairStrList[i])-5:].replace(u'\u6240\u4ee5',u' &\u6240\u4ee5& ',1)
        pairStrList[i] = str(i+1) + ' ' + pairStrList[i]
    return pairStrList

    if __name__ == '__main__':
    pairStrList = getPairStriList('test.txt')
    for str in pairStrList:
        print str
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章