javascript正則表達式

精通 JS正則表達式 (精通?標題黨 )
正則表達式可以:
•測試字符串的某個模式。例如,可以對一個輸入字符串進行測試,看在該字符串是否存在一個電話號碼模式或一個信用卡號碼模式。這稱爲數據有效性驗證
•替換文本。可以在文檔中使用一個正則表達式來標識特定文字,然後可以全部將其刪除,或者替換爲別的文字
•根據模式匹配從字符串中提取一個子字符串。可以用來在文本或輸入字段中查找特定文字

正則表達式語法
一個正則表達式就是由普通字符(例如字符 a 到 z)以及特殊字符(稱爲元字符)組成的文字模式。該模式描述在查找文字主體時待匹配的一個或多個字符串。正則表達式作爲一個模板,將某個字符模式與所搜索的字符串進行匹配。

創建正則表達式
Js代碼
var re = new RegExp();//RegExp是一個對象,和Aarray一樣
//但這樣沒有任何效果,需要將正則表達式的內容作爲字符串傳遞進去
re =new RegExp("a");//最簡單的正則表達式,將匹配字母a
re=new RegExp("a","i");//第二個參數,表示匹配時不分大小寫


RegExp構造函數第一個參數爲正則表達式的文本內容,而第一個參數則爲可選項標誌.標誌可以組合使用

•g (全文查找)
•i (忽略大小寫)
•m (多行查找)

Js代碼
var re = new RegExp("a","gi");//匹配所有的a或A

正則表達式還有另一種正則表達式字面量的聲明方式
Js代碼
var re = /a/gi;


和正則表達式相關的方法和屬性


正則表達式對象的方法

•test,返回一個 Boolean 值,它指出在被查找的字符串中是否存在模式。如果存在則返回 true,否則就返回 false。
•exec,用正則表達式模式在字符串中運行查找,並返回包<script type="text/javascript" src="http://www.iteye.com/javascripts/tinymce/themes/advanced/langs/zh.js"></script><script type="text/javascript" src="http://www.iteye.com/javascripts/tinymce/plugins/javaeye/langs/zh.js"></script>含該查找結果的一個數組。
•compile,把正則表達式編譯爲內部格式,從而執行得更快。
正則表達式對象的屬性

•source,返回正則表達式模式的文本的複本。只讀。
•lastIndex,返回字符位置,它是被查找字符串中下一次成功匹配的開始位置。
•$1...$9,返回九個在模式匹配期間找到的、最近保存的部分。只讀。
•input ($_),返回執行規範表述查找的字符串。只讀。
•lastMatch ($&),返回任何正則表達式搜索過程中的最後匹配的字符。只讀。
•lastParen ($+),如果有的話,返回任何正則表達式查找過程中最後括的子匹配。只讀。
•leftContext ($`),返回被查找的字符串中從字符串開始位置到最後匹配之前的位置之間的字符。只讀。
•rightContext ($'),返回被搜索的字符串中從最後一個匹配位置開始到字符串結尾之間的字符。只讀。
String對象一些和正則表達式相關的方法

•match,找到一個或多個正則表達式的匹配。
•replace,替換與正則表達式匹配的子串。
•search,檢索與正則表達式相匹配的值。
•split,把字符串分割爲字符串數組。


測試正則表達式是如何工作的!
Js代碼
//test方法,測試字符串,符合模式時返回true,否則返回false
var re = /he/;//最簡單的正則表達式,將匹配he這個單詞
var str = "he";
alert(re.test(str));//true
str = "we";
alert(re.test(str));//false
str = "HE";
alert(re.test(str));//false,大寫,如果要大小寫都匹配可以指定i標誌(i是ignoreCase或case-insensitive的表示)
re = /he/i;
alert(re.test(str));//true
str = "Certainly!He loves her!";
alert(re.test(str));//true,只要包含he(HE)就符合,如果要只是he或HE,不能有其它字符,則可使用^和$
re = /^he/i;//脫字符(^)代表字符開始位置
alert(re.test(str));//false,因爲he不在str最開始
str = "He is a good boy!";
alert(re.test(str));//true,He是字符開始位置,還需要使用$
re = /^he$/i;//$表示字符結束位置
alert(re.test(str));//false
str = "He";
alert(re.test(str));//true
//當然,這樣不能發現正則表達式有多強大,因爲我們完全可以在上面的例子中使用==或indexOf
re = /\s/;// \s匹配任何空白字符,包括空格、製表符、換頁符等等
str= "user Name";//用戶名包含空格
alert(re.test(str));//true
str = "user Name";//用戶名包含製表符
alert(re.test(str));//true
re=/^[a-z]/i;//[]匹配指定範圍內的任意字符,這裏將匹配英文字母,不區分大小寫
str="variableName";//變量名必須以字母開頭
alert(re.test(str));//true
str="123abc";
alert(re.test(str));//false


當然,僅僅知道了字符串是否匹配模式還不夠,我們還需要知道哪些字符匹配了模式

Js代碼
var osVersion = "Ubuntu 8";//其中的8表示系統主版本號
var re = /^[a-z]+\s+\d+$/i; //+號表示字符至少要出現1次,\s表示空白字符,\d表示一個數字
alert(re.test(osVersion));//true,但我們想知道主版本號
//另一個方法exec,返回一個數組,數組的第一個元素爲完整的匹配內容
re=/^[a-z]+\s+\d+$/i;
arr = re.exec(osVersion);
alert(arr[0]);//將osVersion完整輸出,因爲整個字符串剛好匹配re
//我只需要取出數字
re=/\d+/;
var arr = re.exec(osVersion);
alert(arr[0]);//8


更復雜的用法,使用子匹配
Js代碼
//exec返回的數組第1到n元素中包含的是匹配中出現的任意一個子匹配
re=/^[a-z]+\s+(\d+)$/i;//用()來創建子匹配
arr =re.exec(osVersion);
alert(arr[0]);//整個osVersion,也就是正則表達式的完整匹配
alert(arr[1]);//8,第一個子匹配,事實也可以這樣取出主版本號
alert(arr.length);//2
osVersion = "Ubuntu 8.10";//取出主版本號和次版本號
re = /^[a-z]+\s+(\d+)\.(\d+)$/i;//.是正則表達式元字符之一,若要用它的字面意義須轉義
arr = re.exec(osVersion);
alert(arr[0]);//完整的osVersion
alert(arr[1]);//8
alert(arr[2]);//10


注意,當字符串不匹配re時,exec方法將返回null

String對象的一些和正則表達式有關的方法
Js代碼
//replace方法,用於替換字符串
var str ="some money";
alert(str.replace("some","much"));//much money
//replace的第一個參數可以爲正則表達式
var re = /\s/;//空白字符
alert(str.replace(re,"%"));//some%money
//在不知道字符串中有多少空白字符時,正則表達式極爲方便
str ="some some \tsome\t\f";
re = /\s+/;
alert(str.replace(re,"#"));//但這樣只會將第一次出現的一堆空白字符替換掉
//因爲一個正則表達式只能進行一次匹配,\s+匹配了第一個空格後就退出了
re = /\s+/g;//g,全局標誌,將使正則表達式匹配整個字符串
alert(str.replace(re,"@"));//some@some@some@
//另一個與之相似的是split
var str = "a-bd-c";
var arr = str.split("-");//返回["a","bd","c"]
//如果str是用戶輸入的,他可能輸入a-bd-c也可能輸入a bd c或a_bd_c,但不會是abdc(這樣就說他輸錯了)
str = "a_db-c";//用戶以他喜歡的方式加分隔符s
re=/[^a-z]/i;//前面我們說^表示字符開始,但在[]裏它表示一個負字符集
//匹配任何不在指定範圍內的任意字符,這裏將匹配除字母處的所有字符
arr = str.split(re);//仍返回["a","bd","c"];
//在字符串中查找時我們常用indexOf,與之對應用於正則查找的方法是search
str = "My age is 18.Golden age!";//年齡不是一定的,我們用indexOf不能查找它的位置
re = /\d+/;
alert(str.search(re));//返回查找到的字符串開始下標10
//注意,因爲查找本身就是出現第一次就立即返回,所以無需在search時使用g標誌
//下面的代碼雖然不出錯,但g標誌是多餘的
re=/\d+/g;
alert(str.search(re));//仍然是10

注意,當search方法沒有找到匹配時,將返回-1

類似於exec方法,String對象的match方法也用於將字符串與正則表達式進行匹配並返回結果數組


Js代碼
var str = "My name is CJ.Hello everyone!";
var re = /[A-Z]/;//匹配所有大寫字母
var arr = str.match(re);//返回數組
alert(arr);//數組中只會包含一個M,因爲我們沒有使用全局匹配
re = /[A-Z]/g;
arr = str.match(re);
alert(arr);//M,C,J,H
//從字符串中抽取單詞
re = /\b[a-z]\b/i;//\b表示單詞邊界
str = "one two three four";
alert(str.match(re));//one,two,three,four


RegExp對象實例的一些屬性
Js代碼
var re = /[a-z]/i;
alert(re.source);//將[a-z]字符串輸出
//請注意,直接alert(re)會將正則表達式連同前向斜線與標誌輸出,這是re.toString方法定義的


每個RegExp對象的實例具有lastIndex屬性,它是被查找字符串中下一次成功匹配的開始位置,默認值是-1。 lastIndex 屬性被 RegExp 對象的 exec 和 test 方法修改.並且它是可寫的.
Js代碼
var re = /[A-Z]/;
//exec方法執行後,修改了re的lastIndex屬性,
var str = "Hello,World!!!";
var arr = re.exec(str);
alert(re.lastIndex);//0,因爲沒有設置全局標誌
re = /[A-Z]/g;
arr = re.exec(str);
alert(re.lastIndex);//1
arr = re.exec(str);
alert(re.lastIndex);//7


當匹配失敗(後面沒有匹配),或lastIndex值大於字符串長度時,再執行exec等方法會將lastIndex設爲0(開始位置)
Js代碼
var re = /[A-Z]/;
var str = "Hello,World!!!";
re.lastIndex = 120;
var arr = re.exec(str);
alert(re.lastIndex);//0


RegExp對象的靜態屬性
Js代碼
//input 最後用於匹配的字符串(傳遞給test,exec方法的字符串)
var re = /[A-Z]/;
var str = "Hello,World!!!";
var arr = re.exec(str);
alert(RegExp.input);//Hello,World!!!
re.exec("tempstr");
alert(RegExp.input);//仍然是Hello,World!!!,因爲tempstr不匹配
//lastMatch 最後匹配的字符
re = /[a-z]/g;
str = "hi";
re.test(str);
alert(RegExp.lastMatch);//h
re.test(str);
alert(RegExp["$&"]);//i ,$&是lastMatch的短名字,但由於它不是合法變量名,所以要。。
//lastParen 最後匹配的分組
re = /[a-z](\d+)/gi;
str = "Class1 Class2 Class3";
re.test(str);
alert(RegExp.lastParen);//1
re.test(str);
alert(RegExp["$+"]);//2
//leftContext 返回被查找的字符串中從字符串開始位置到最後匹配之前的位置之間的字符
//rigthContext 返回被搜索的字符串中從最後一個匹配位置開始到字符串結尾之間的字符
re = /[A-Z]/g;
str = "123ABC456";
re.test(str);
alert(RegExp.leftContext);//123
alert(RegExp.rightContext);//BC456
re.test(str);
alert(RegExp["$`"]);//123A
alert(RegExp["$'"]);//C456


multiline屬性返回正則表達式是否使用多行模式,這個屬性不針對某個正則表達式實例,而是針對所有正則表達式,並且這個屬性可寫.(IE與Opera不支持這個屬性)
Js代碼
alert(RegExp.multiline);
//因爲IE,Opera不支持這個屬性,所以最好還是單獨指定
var re = /\w+/m;
alert(re.multiline);
alert(RegExp["$*"]);//RegExp對象的靜態屬性不會因爲給RegExp某個對象實例指定了m標誌而改變
RegExp.multiline = true;//這將打開所有正則表達式實例的多行匹配模式
alert(RegExp.multiline);


使用元字符注意事項:元字符是正則表達式的一部分,當我們要匹配正則表達式本身時,必須對這些元字符轉義.下面是正則表達式用到的所有元字符
( [ { \ ^ $ | ) ? * + .
Js代碼
var str = "?";
var re = /?/;
alert(re.test(str));//出錯,因爲?是元字符,必須轉義
re = /\?/;
alert(re.test(str));//true


使用RegExp構造函數與使用正則表達式字面量創建正則表達式注意點

Js代碼
var str = "\?";
alert(str);//只會輸出?
var re = /\?/;//將匹配?
alert(re.test(str));//true
re = new RegExp("\?");//出錯,因爲這相當於re = /\?/
re = new RegExp("\\?");//正確,將匹配?
alert(re.test(str));//true


既然雙重轉義這麼不友好,所以還是用正則表達式字面量的聲明方式

如何在正則表達式中使用特殊字符?

Js代碼
//ASCII方式用十六進制數來表示特殊字符
var re = /^\x43\x4A$/;//將匹配CJ
alert(re.test("CJ"));//true
//也可使用八進制方式
re = /^\103\112$/;//將匹配CJ
alert(re.test("CJ"));//true
//還可以使用Unicode編碼
re =/^\u0043\u004A$/;//使用 Unicode,必須使用u開頭,接着是字符編碼的四位16進制表現形式
alert(re.test("CJ"));


另處,還有一些其它的預定義特殊字符,如下表所示:

字符 描述
\n 換行符
\r 回車符
\t 製表符
\f 換頁符(Tab)
\cX 與X對應的控制字符
\b 退格符(BackSpace)
\v 垂直製表符
\0 空字符("")

字符類 ---〉簡單類,反向類,範圍類,組合類,預定義類

Js代碼
//簡單類
var re = /[abc123]/;//將匹配abc123這6個字符中一個
//負向類
re = /[^abc]/;//將匹配除abc之外的一個字符
//範圍類
re = /[a-b]/;//將匹配小寫a-b 26個字母
re = /[^0-9]/;//將匹配除0-9 10個字符之處的一個字符
//組合類
re = /[a-b0-9A-Z_]/;//將匹配字母,數字和下劃線


下面是正則表達式中的預定義類


代碼 等同於 匹配
. IE下[^\n],其它[^\n\r] 匹配除換行符之外的任何一個字符
\d [0-9] 匹配數字
\D [^0-9] 匹配非數字字符
\s [ \n\r\t\f\x0B] 匹配一個空白字符
\S [^ \n\r\t\f\x0B] 匹配一個非空白字符
\w [a-zA-Z0-9_] 匹配字母數字和下劃線
\W [^a-zA-Z0-9_] 匹配除字母數字下劃線之外的字符


量詞(下表量詞單個出現時皆是貪婪量詞)

代碼 描述
* 匹配前面的子表達式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。 * 等價於{0,}。
+ 匹配前面的子表達式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等價於 {1,}。
? 匹配前面的子表達式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等價於 {0,1}。
{n} n 是一個非負整數。匹配確定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的兩個 o。
{n,} n 是一個非負整數。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等價於 'o+'。'o{0,}' 則等價於 'o*'。
{n,m} m 和 n 均爲非負整數,其中n <= m。最少匹配 n 次且最多匹配 m 次。劉, "o{1,3}" 將匹配 "fooooood" 中的前三個 o。'o{0,1}' 等價於 'o?'。請注意在逗號和兩個數之間不能有空格。


貪婪量詞與惰性量詞

•用貪婪量詞進行匹配時,它首先會將整會字符串當成一個匹配,如果匹配的話就退出,如果不匹配,就截去最後一個字符進行匹配,如果不匹配,繼續將最後一個字符截去進行匹配,直到有匹配爲止。直到現在我們遇到的量詞都是貪婪量詞
•用貪婪量詞進行匹配時,它首先將第一個字符當成一個匹配,如果成功則退出,如果失敗,則測試前兩個字符,依些增加,直到遇到合適的匹配爲止

惰性量詞僅僅在貪婪量詞後面加個"?"而已,如"a+"是貪婪匹配的,"a+?"則是惰性的
Js代碼
var str = "abc";
var re = /\w+/;//將匹配abc
re = /\w+?/;//將匹配a

多行模式
Js代碼
var re = /[a-z]$/;
var str = "ab\ncdef";
alert(str.replace(re,"#"));//ab\ncde#
re =/[a-z]$/m;
alert(str.replace(re,"#"));//a#\ncde#


分組與非捕獲性分組
Js代碼
re = /abc{2}/;//將匹配abcc
re = /(abc){2}/;//將匹配abcabc
//上面的分組都是捕獲性分組
str = "abcabc ###";
arr = re.exec(str);
alert(arr[1]);//abc
//非捕獲性分組 (?:)
re = /(?:abc){2}/;
arr = re.exec(str);
alert(arr[1]);//undefined


候選(也就是所說的“或”)
Js代碼
re = /^a|bc$/;//將匹配開始位置的a或結束位置的bc
str ="add";
alert(re.test(str));//true
re = /^(a|bc)$/;//將匹配a或bc
str ="bc";
alert(re.test(str));//true


當包含分組的正則表達式進行過test,match,search這些方法之後,每個分組都被放在一個特殊的地方以備將來使用,這些存儲是分組中的特殊值,我們稱之爲反向引用
Js代碼
var re = /(A?(B?(C?)))/;
/*上面的正則表達式將依次產生三個分組
(A?(B?(C?))) 最外面的
(B?(C?))
(C?)*/
str = "ABC";
re.test(str);//反向引用被存儲在RegExp對象的靜態屬性$1—$9中
alert(RegExp.$1+"\n"+RegExp.$2+"\n"+RegExp.$3);
//反向引用也可以在正則表達式中使用\1 ,\2...這類的形式使用
re = /\d+(\D)\d+\1\d+/;
str = "2008-1-1";
alert(re.test(str));//true
str = "2008-4_3";
alert(re.test(str));//false


使用反向引用可以要求字符串中某幾個位置上的字符必須相同.另外,在replace這類方法中可用特殊字符序列來表示反向引用
Js代碼
re = /(\d)\s(\d)/;
str = "1234 5678";
alert(str.replace(re,"$2 $1"));//在這個裏面$1表示第一個分組1234,$2則表示5678


其它——〉正向前瞻,用來捕獲出現在特定字符之前的字符,只有當字符後面跟着某個特定字符纔去捕獲它。與正向前瞻對應的有負向前瞻,它用匹配只有當字符後面不跟着某個特定字符時纔去匹配它。在執行前瞻和負向前瞻之類的運算時,正則表達式引擎會留意字符串後面的部分,然而卻不移動index

Js代碼
//正向前瞻
re = /([a-z]+(?=\d))/i;
//我們要匹配後面跟一個數字的單詞,然後將單詞返回,而不要返回數字
str = "abc every1 abc";
alert(re.test(str));//true
alert(RegExp.$1);//every
alert(re.lastIndex);//使用前瞻的好處是,前瞻的內容(?=\d)並不會當成一次匹配,下次匹配仍從它開始
//負向前瞻(?!)
re = /([a-z](?!\d))/;i
//將匹配後面不包含數字的字母,並且不會返回(?!\d)中的內容
str = "abc1 one";
alert(re.test(str));
alert(RegExp.$1);//one


構建一個驗證電子郵箱地址有效性的正則表達式。電子郵箱地址有效性要求(我們姑且這樣定義):用戶名只能包含字母數字以及下劃線,最少一位,最多25位,用戶名後面緊跟@,後面是域名,域名名稱要求只能包含字母數字和減號(-),並且不能以減號開頭或結尾,然後後面是域名後綴(可以有多個),域名後綴必須是點號連上2-4位英文字母
Js代碼
var re = /^\w{1,15}(?:@(?!-))(?:(?:[a-z0-9-]*)(?:[a-z0-9](?!-))(?:\.(?!-)))+[a-z]{2,4}$/;
發佈了63 篇原創文章 · 獲贊 2 · 訪問量 8285
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章