在python中使用正則表達式查找可嵌套字符串組

原創

foolishwolfx

2018-09-02 01:21

在網上看到一個小需求，需要用正則表達式來處理。原需求如下：

找出文本中包含”因爲……所以”的句子，並以兩個詞爲中心對齊輸出前後3個字，中間全輸出，如果“因爲”和“所以”中間還存在“因爲”“所以”，也要找出來，另算一行，輸出格式爲：

———————————————————————
行號前面3個字 *因爲* 全部 &所以& 後面3個字(標點符號算一個字)
2 還不是 *因爲* 這裏好， &所以& 沒有人
———————————————————————

實現方法如下：

#encoding:utf-8

import os
import re

def getPairStriList(filename):
    pairStrList = []
    textFile = open(filename, 'r')
    pattern = re.compile(u'.{3}\u56e0\u4e3a.*\u6240\u4ee5.{3}') #u'\u56e0\u4e3a和u'\u6240\u4ee5'分別爲“因爲”和“所以”的utf8碼
    for line in textFile:
        utfLine = line.decode('utf8')
        result = pattern.search(utfLine)
        while result:
            resultStr = result.group()
            pairStrList.append(resultStr)
            result = pattern.search(resultStr,2,len(resultStr)-2)

    #對每個字符串進行格式轉換和拼接    
    for i in range(len(pairStrList)):
        pairStrList[i] = pairStrList[i][:3] + pairStrList[i][3:5].replace(u'\u56e0\u4e3a',u' *\u56e0\u4e3a* ',1) + pairStrList[i][5:]
        pairStrList[i] = pairStrList[i][:len(pairStrList[i])-5] + pairStrList[i][len(pairStrList[i])-5:].replace(u'\u6240\u4ee5',u' &\u6240\u4ee5& ',1)
        pairStrList[i] = str(i+1) + ' ' + pairStrList[i]
    return pairStrList

    if __name__ == '__main__':
    pairStrList = getPairStriList('test.txt')
    for str in pairStrList:
        print str

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

在python中使用正則表達式查找可嵌套字符串組

C語言--右移左移

12款高效開源Wiki系統推薦，打造團隊知識管理利器

一個開源且全面的C#算法實戰教程

dotnet 基於 DirectML 控制檯運行 Phi-3 模型

自定義MyBatis插件

一款.NET開源、功能強大、跨平臺的繪圖庫 - OxyPlot

常用的 Git 指令

sm4加密工具類

博客文章已搬家至某乎

高級信息系統項目管理師考試經驗分享

從TFS獲取指定日期後的最新版本文件

在C++中調用Jieba進行中文分詞

使用Scrapy爬取大衆點評圖片

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結