原创 正則表達式系列6:貪婪模式和非貪婪模式

標識符 先熟悉最基本的標識符 . : 告訴引擎匹配任意字符,除了換行符,當re.DOTALL標記被指定時,則可以匹配包括換行符的任意字符。 ?: 告訴引擎匹配前導字符0次或一次。事實上是表示前導字符是可選的。 +: 告訴引

原创 正則系列5: re.compile用法

re.compile 將正則字符串編譯成正則對象,以便於服用該匹配模式 import re content ='''Hello 1234567 World_This is a Regex Demo''' pattern = re.c

原创 正則系列1: re.match用法

回顧: 什麼是正則表達式:正則表達式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符,及這些字符的特定組合,組合成一個"規則字符串",這個"規則字符串"用來表達對字符串的一種過濾邏輯。 我們的正則系列都用python來做練

原创 正則系列3: re.findall用法

re.findall 搜索字符串,以列表形式返回能匹配的字符 該方法有3個參數,第一個就是你寫的正則表達式,第二個匹配的目標字符串,第三個是一個匹配模式 re.findall(pattern, string, flags=0) 匹配

原创 正則系列4: re.sub用法

re.sub 替換字符串中每一個匹配的字串後返回替換後的字符串 該方法主要用的三個參數,第一個參數是匹配模式即正則表達式,也是你要替換的原字符串部分。第二個參數是你需要替換成的字符串。第三個參數是原字符串。 re.sub(patter

原创 英文文本處理與NLTK庫

英文文本處理:有分詞,去停用詞,提取詞幹,詞性分析,依賴分析,命名實體識別等步驟。目的是爲了文本分類建模和文本相似度建模做到更高的準確率。後面會用到深度學習提高準確率。 1.英文文本處理與NLTK庫 文本處理解決分類,解決情感分析,解

原创 NLP中的 POS Tagging 和Chunking

這篇文章將使用NLTK向您解釋NLP中的詞性標註 (POS-Tagging)和組塊分析(Chunking)過程。詞袋模型(Bag-of-Words)無法捕捉句子的結構,有時也無法給出適當的含義。詞性標註和組塊分析幫助我們克服了這個弱點