C#正則表達式快速入門
[日期:12-28] | 來源: 作者: | [字體:大 中 小] |
[介紹]
作者將自己在學習正則表達式中的心得和筆記作了個總結性文章,希望對初學C#正則表達式的讀者有幫助。
[內容]
- 什麼是正則表達式
- 涉及的基本的類
- 正則表達式基礎知識
- 構建表達式基本方法
- 編寫一個檢驗程序
- 參考資料
[正文]
對於初學者看到類似“\w+@\w+\.\w{1,3}”這樣複雜沒有規律的字符,就會莫名產生一種恐懼感。其實正則表達式和字符串(String)的使用同樣非常簡單。下面讓我們逐步地走進正則表達式的世界!
什麼是正則表達式
正則表達式是用來檢驗和操作字符串的強大工具。簡單的理解正則表達式可以認爲是一種特殊的驗證字符串。正則表達式常見運用是驗證用戶輸入信息格式,比如上面的那組“\w{1,}@\w{1,}\.\w{1”,實際上就是驗證郵件地址是否合法的;當然正則表達式不僅僅是用於驗證,可以說只要運用字符串的地方都可以使用正則表達式;
涉及的基本的類
正則表達式在英文中寫作(Regular Expression),根據正則表達式的使用範圍和單詞意思,.NET將其命名空間設置爲System.Text.RegularExpressions;
在該命名空間內包括了8個基本的類:Capture、CaptureCollection、Group、GroupCollection、Match、MatchCollection、Regex和RegexCompilationInfo如圖1所示;
圖1 MSDN Library中正則表達式命名空間 |
---|
Capture | 用於單個表達式捕獲結果 |
CaptureCollection | 用於一個序列進行字符串捕獲 |
Group | 表示單個捕獲的結果 |
GroupCollection | 表示捕獲組的集會 |
Match | 表示匹配單個正則表達式結果 |
MatchCollection | 表示通過迭代方式應用正則表達式到字符串中 |
Regex | 表示不可變的正則表達式 |
RegexCompilationInfo | 將編譯正則表達式需要提供信息 |
[注意]
本文屬於初學正則表達式的入門文章,對於高級的分組(Group)及其涉及語法等在這裏不做介紹;
正則表達式基礎知識
- 基本語法
在正則表達式中擁有一套自己的語法規則,常見語法包括;字符匹配、重複匹配、字符定位、轉義匹配和其他高級語法(字符分組、字符替換和字符決策);
字符匹配語法:
字符語法 | 語法解釋 | 語法例子 |
---|---|---|
\d | 匹配數字(0~9) | ‘\d’匹配8,不匹配12; |
\D | 匹配非數字 | ‘\D’匹配c,不匹配3; |
\w | 匹配任意單字符 | ‘\w\w’ 匹配A3,不匹配@3; |
\W | 匹配非單字符 | ‘\W’匹配@,不匹配c; |
\s | 匹配空白字符 | ‘\d\s\d’匹配3 d,不匹配abc; |
\S | 匹配非空字符 | ‘\S\S\S’匹配A#4,不匹配3 d; |
. | 匹配任意字符 | ‘....’匹配A$ 5,不匹配換行; |
[…] | 匹配括號中任意字符 | [b-d]匹配b、c、d, 不匹配e; |
[^…] | 匹配非括號字符 | [^b-z]匹配a,不匹配b-z的字符; |
重複匹配語法:
重複語法 | 語法解釋 | 語法例子 |
---|---|---|
{n} | 匹配n次字符 | \d{3}匹配\d\d\d,不匹配\d\d或\d\d\d\d |
{n,} | 匹配n次和n次以上 | \w{2}匹配\w\w和\w\w\w以上,不匹配\w |
{n,m} | 匹配n次上m次下 | \s{1,3}匹配\s,\s\s,\s\s\s,不匹配\s\s\s\s |
? | 匹配0或1次 | 5?匹配5或0,不匹配非5和0 |
+ | 匹配一次或多次 | \S+匹配一個以上\S,不匹配非一個以上\S |
* | 匹配0次以上 | \W*匹配0以上\W,不匹配非N*\W |
字符定位語法:
重複語法 | 語法解釋 | 語法例子 |
---|---|---|
^ | 定位後面模式開始位置 | |
$ | 前面模式位於字符串末端 | |
\A | 前面模式開始位置 | |
\z | 前面模式結束位置 | |
\Z | 前面模式結束位置(換行前) | |
\b | 匹配一個單詞邊界 | |
\B | 匹配一個非單詞邊界 |
轉義匹配語法:
轉義語法 | 涉及字符(語法解釋) | 語法例子 |
---|---|---|
“\”+實際字符 | \ . * + ? | ( ) { }^ $ | 例如:\\匹配字符“\” |
\n | 匹配換行 | |
\r | 匹配回車 | |
\t | 匹配水平製表符 | |
\v | 匹配垂直製表符 | |
\f | 匹配換頁 | |
\nnn | 匹配一個8進制ASCII | |
\xnn | 匹配一個16進制ASCII | |
\unnnn | 匹配4個16進制的Uniode | |
\c+大寫字母 | 匹配Ctrl-大寫字母 | 例如:\cS-匹配Ctrl+S |
- 構造正則表達的方法
構造正則表達式需要涉及Regex類,在Regex類中包括:IsMatch()、Replace()、Split()和Match的類;
(1) IsMatch()方法;
IsMatch()方法實際上是一個返回Bool值得方法,如果測試字符滿足正則表達式返回True否則返回False;
例1;判斷是非成都地區電話號碼合法; 分析:成都地區電話號碼組成028********,前面爲固定區號028,後面滿足8位數字; 設計正則表達式:028\d{8}(解釋:028區號固定,後面爲8個數字\d組成); 程序代碼,如圖2所示: |
圖2 “例1” IsMatch方法是用例 |
---|
(2) Replace()方法;
Replace()方法實際上是一種替換的方法,替換匹配正則表達式匹配模式;
例2:在發佈帶有公開電子郵件地址的文章時,替換@位AT避免產生垃圾郵件; 分析:首先需要判斷文章中電子郵箱地址,然後執行替換 設計正則表達式:判斷電子郵箱表達式”\w{1,}@w{1,}\\.”; 程序代碼:如圖3所示; |
圖3 “例2”Replace方法是用例 |
---|
(3) Split()方法;
Split()方法實際上是拆分的方法,根據匹配正則表達式進行拆分儲存在字符串數組中;
例3:從羣發郵件地址中讀取所有郵件地址; 分析:羣發郵件採用“;”作爲分割符,需要通過“;”進行拆分 程序代碼:如圖4所示; |
圖4 “例3”Split方法是用例 |
---|
構建表達式基本方法
構造Regex對象的構造函數包括兩個重載,一個是不含參數的構造、另外一個是含有參數的構造函數;
- 基本形式Regex(string pattern);
- 重載形式Regex(string pattern,RegexOptions);
補充:RegexOptions屬於枚舉類型,包括IgnoreCase(忽略大小寫)、ReghtToLeft(從右向左)、None(默認)、CultureInvariant(忽略區域)、Multline(多行模式)和SingleLine(單行模式);
例4,建立一個合法ISBN驗證格式; 分析:ISBN格式爲X-XXXXX-XXX-X; 正則表達式格式:\d-\d{5}-\d{3}-\d 構造該正則表達式函數Regex ISBNRegex = new Regex(表達式,參數爲空) 詳細代碼:如圖5所示; |
圖5 “例4”構造驗證函數是用例 |
---|
編寫一個檢驗程序
爲了方便自己在學習正則表達式和快速檢驗自己編寫表達式語句是否正確,下面提供一個IsMatch()方法正則表達式驗證器編寫;
- 打開VS.NET,選擇新建項目中的Visual C#項目的Windows應用程序,取名爲“Regex_Tools”;
- 然後編寫如圖6所示的界面
圖6 正則表達式IsMatch方法驗證器 - 然後在該窗體聲明中增加正則表達式命名空間聲明using System.Text.RegularExpressions;
- 編寫下列代碼
- 編寫一段私有的判斷參數的方法,如圖7所示;
圖7私有驗證參數判斷方法 - 編寫判斷按鈕的方法,如圖8所示;
圖8 IsMatch驗證判斷按鈕方法 - 編寫清空按鈕的方法,所有的文本框等於空;
- 編譯該程序,一個簡單的正則表達式驗證器就成功生成了;