在Swift中如何使用正則表達式詳解

正則表達式是對字符串操作的一種邏輯公式,相信大家應該都不陌生,下面這篇文章主要給大家介紹了關於在Swift中如何使用正則表達式的相關資料,文中通過示例代碼介紹的非常詳細,需要的朋友可以參考下

前言

正則表達式,又稱規則表達式。(英語:Regular Expression,在代碼中常簡寫爲regex、regexp或RE),計算機科學的一個概念。正則表通常被用來檢索、替換那些符合某個模式(規則)的文本。

正則表達式(Regular expression, regex)允許我們在幾秒鐘內在成千上萬文檔間進行復雜檢索與替換,自從誕生50多年來它依舊廣泛使用。

Swift雖然是一個新出的語言,但卻不提供專門的處理正則的語法和類。所以我們只能使用古老的NSRegularExpression類進行正則匹配。

在這篇文章中,我會講解在Swift中正則表達式的基本用法。我們會從易到難,詳細講解一些最重要的正則表達式語法,以及一些有用的擴展。

NSRegularExpression:如何在字符串中匹配正則表達式

NSRegularExpression類讓我們可以用正則表達式查找替換子字符串,它可以簡潔靈活地描述文本。例如,如果你想從"My name is Taylor Swift"中提取出"Taylor Swift",可以寫一個匹配文本“My name is”的正則表達式,它的後面可以是任何文本,之後把它傳遞給NSRegularExpression類。

具體可見下面代碼。注意我們要提取出的是第二範圍,因爲第一範圍是匹配的字符串,而第二範圍纔是"Taylor Swift"部分。

do {
 let input = "My name is Taylor Swift"
 let regex = try NSRegularExpression(pattern: "My name is (.*)", options: NSRegularExpression.Options.caseInsensitive)
 let matches = regex.matches(in: input, options: [], range: NSRange(location: 0, length: input.utf16.count))

 if let match = matches.first {
  let range = match.range(at:1)
  if let swiftRange = Range(range, in: input) {
   let name = input[swiftRange]
  }
 }
} catch {
 // regex was bad!
}

正則表達式的詳細講解

讓我們從幾個簡單例子開始,方便不熟悉的人瞭解正則表達式。正則表達式,簡稱regex,用於讓我們在字符串中進行模糊檢索。例如我們知道”cat”包含”at”,但如果我們檢索所有以“at”結尾的3字母單詞該怎麼做呢?

正則表達式就用於解決這個問題,儘管由於Objective-C的基礎,它們的語法有些不太靈巧。

1. 首先,定義你想檢索的字符串:

let testString = "hat"

之後創建NSRange實例來表示整個字符串的長度

let range = NSRange(location: 0, length: testString.utf16.count)

這裏使用utf16來避免類似表情符號等帶來的問題

2. 之後使用正則表達式語法創建NSRegularExpression實例

let regex = try! NSRegularExpression(pattern: "[a-z]at")

[a-z]在正則表達式中用於指定a到z之間任意字母。實際使用中你可能會提供一個無效的正則表達式,但是這裏我們有了一個硬編碼的正確正則表達式,所以就不需要查找錯誤了。

3. 最後在創建好的正則表達式調用firstMatch(in:),輸入要檢索的字符串,一些特殊選項,和字符串的範圍。如果字符串匹配正則表達式,就會返回數據,否則就是nil。所以如果你想檢查字符串是否完全匹配,就用firstMatch(in:)的結果和nil比較:

regex.firstMatch(in: testString, options: [], range: range) != nil

這裏必須要用到NSRange——儘管這個API是爲NSString設計,和Swift銜接的不太好。Swift String Manifesto可能會替換它,但看起來還要很久。

正則表達式“[a-z]at”會成功匹配“hat”,和“cat”, “sat”, “mat”, “bat”等等——我們只要關注想匹配什麼,NSRegularExpression會處理好它。

讓NSRegularExpression用起來更簡單

接下里會展示更多的正則表達式語法,首先來看看如何讓NSRegularExpression稍微好用一些

現在我們的要3行Swift代碼來匹配一個簡單字符串

let range = NSRange(location: 0, length: testString.utf16.count)
let regex = try! NSRegularExpression(pattern: "[a-z]at")
regex.firstMatch(in: testString, options: [], range: range) != nil

我們可以從多種方式改進,不過最有效的是擴展NSRegularExpression,讓創建和匹配表達式更簡單。

首先第一行:

let regex = try! NSRegularExpression(pattern: "[a-z]at")

我提到過,創建一個NSRegularExpression實例可能導致錯誤,因爲可能會提供一個非法的正則表達式。比如[a-zat,忘記了]

結果就是,通常會用try!創建NSRegularExpression實例。然而這會導致lint工具(如SwiftLint)的破壞。所以好一點的方法是創建一個方便的初始化,能正確創建正則表達式,或者在開發時能生成一個斷言失敗。

extension NSRegularExpression {
 convenience init(_ pattern: String) {
  do {
   try self.init(pattern: pattern)
  } catch {
   preconditionFailure("Illegal regular expression: \(pattern).")
  }
 }
}

注意:如果你的app需要用戶寫正則表達式,你需要使用NSRegularExpression(pattern:)初始化,這樣可以更好的處理錯誤。

之後這些行:

let range = NSRange(location: 0, length: testString.utf16.count)
regex.firstMatch(in: testString, options: [], range: range) != nil

第一行創建了一個包含整個字符串的NSRange,第二行則是在文本中查找first match。但這是很笨的方法,因爲大多時候你想查找輸入的整個字符串,用firstMatch(in:)與nil判定會弄混你的意圖。

所以,用另一個擴展來替代它,它把下面代碼包含在一個簡單的matches()方法中。

extension NSRegularExpression {
 func matches(_ string: String) -> Bool {
  let range = NSRange(location: 0, length: string.utf16.count)
  return firstMatch(in: string, options: [], range: range) != nil
 }
} 

如果你把這兩個擴展合併,就可以更輕鬆的創建和檢索正則表達式了。

let regex = NSRegularExpression("[a-z]at")
regex.matches("hat") 

我們可以進一步通過運算符重載讓Swift包含的,~=,運算符適用於正則表達式:

extension String {
 static func ~= (lhs: String, rhs: String) -> Bool {
  guard let regex = try? NSRegularExpression(pattern: rhs) else { return false }
  let range = NSRange(location: 0, length: lhs.utf16.count)
  return regex.firstMatch(in: lhs, options: [], range: range) != nil
 }
}

通過上面代碼,我們可以在一句話的左邊使用任意字符,右邊用正則表達式。

"hat" ~= "[a-z]at"

注意:創建NSRegularExpression實例會有一定消耗,所以如果你想要反覆使用一個正則表達式,最好把NSRegularExpression實例保存起來。

正則表達式語法學之旅

我們已經使用了[a-z]來表示“a”到“z”之間任意字母,在正則表達式中這是一個字符類。它讓你指定要匹配的一組字母,可以通過制定的字母列表匹配,或者通過一段字符範圍匹配。

正則表達式範圍不一定是整個字母表,你可以用[a-t] 來排除“u”到“z”之間的字母。另外,如果你想特別指定一些字母,只需要像這樣單獨列出它們:

[csm]at

正則表達式默認區分大小姐寫,也就是說“Cat”和“Mat”不會在“[a-z]at”被匹配。如果你想忽略大小寫,可以使用“[a-zA-Z]at”,或者創建你自己的NSRegularExpression對象,並標記.caseInsensitive

除了大小寫以外,你可以通過字符類指定數字範圍。最常用的是[0-9]表示任何數字,或[A-Za-z0-9]表示任何字母數字混編字符,也可以用[A-Fa-f0-9]來表示16進制數字。

如果你想匹配一個字符序列,還需要一個叫做量詞(quantifier)的概念。它用於表示字符出現的數量。

最常用的是星號量詞,*,意思是匹配0個或更多。量詞在它們修飾的字符後出現,就像下面這樣:

let regex = NSRegularExpression("ca[a-z]*d")

這句話先查找“ca”,之後是0或多個從“a”到“z”的字母,最後是“d”——它能匹配“cad”, “card”, “clamped”等等。

除了*之外,還有2個類似的量詞 + 和 ? 。 + 意味着“1個或更多”,與 * 的“0個或更多”有點區別。而 ? 的意思是”0或1個”

這些量詞是正則表達式基礎內容,希望大家能確實理解它們的區別,比如下面3個正則表達式

  • ca[a-z]*d
  • ca[a-z]+d
  • ca[a-z]?d

並想想如果給出字符串“cd”或“clamped”,哪些能夠匹配。

如果需要,可以用大括號 { 和 } 來更詳細的指定匹配數量,比如[a-z]{3}意味着匹配3個小寫字母。

考慮一個電話號碼格式比如111-1111。如果要正好匹配這個格式,用[0-9-]+是行不通的。所以我們需要用這樣的正則表達式[0-9]{3}-[0-9]{4},即先是3個數字,之後連接號,之後4個數字。

此外還可以用大括號指定範圍,它可以是有界限的或無界限的。比如[a-z]{1,3}代表匹配1,2,或3個小寫字母。[a-z]{3,}代表匹配3個或更多個

最後,元字符(meta-characters)是特殊字符,正則表達式中有特別的意義,在這裏介紹其中幾個使用最頻繁的。

首先其中是最常用,也是最濫用的 . 字符。它可以匹配除了換行符以外任意一個字符。比如正則表達式c.t可以匹配“cat”,但不能匹配“cart”。如果你把 . 和 * 量詞共同使用,就意味着匹配1個或多個除了換行符以外所有字符,這可能是你最常見的正則表達式了。

.* 常用的原因也顯而易見:不需要具體設計一個特別的正則表達式,.* 就可以匹配幾乎一切了。然而問題是,特定化本來就是正則表達式的要點之一,你可以在文本中精確查找一些字符並操作它們。而太多人完全依賴 .* ,卻沒有意識到這可能會給他們的表達式帶來難以察覺的錯誤。

用前面電話號碼的例子來說,我們用[0-9]{3}-[0-9]{4}匹配類似555-5555的電話號碼。考慮到有些人會寫成“555 5555”或“5555555”,我們可能就會把正則表達式條件放寬一些,改成[0-9]{3}.*[0-9]{4}

但是這樣就帶來一個問題,它會匹配“123-4567”, “123-4567890”, 或 “123-456-789012345”。爲了讓[0-9]{3}與[0-9]{4}匹配上,.* 會匹配儘可能多的字符

所以這裏要用字符類與量詞,比如[0-9]{3}[ -]*[0-9]{4},代表3個數字,之後0個或更多空格與連接線,之後4個數字。或者使用不包含字符類,即用它來匹配數字以外的字符,如[0-9]{3}[^0-9]+[0-9]{4},會匹配空格,連接線,斜槓等等,而不會匹配數字。

總結

以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,如果有疑問大家可以留言交流,謝謝大家對神馬文庫的支持。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章