正則表達式(二)

           上次有個朋友來問了一個關於seo方面的問題,把Html文檔中的所有圖片的alt屬性值替換成指定的值。首先我們就想到用正則表達式,目標任務:只替換img標籤的alt屬性值。


    alt屬性可能不只有img有,所以限定只替換img的alt屬性。輸入的話,一個html文檔差不多有上萬行代碼。所以用簡單粗暴的查找替換是可恥的。正則纔是比較優雅的解決之道。


    現在我們來分析一下我們要替換的字符串的特徵。

    1、以“<img"開頭;

    2、帶有alt屬性;

    3、img標籤到alt屬性之間存在未知的字符。

    

    嗯,我們先解決第一步,找出img標籤,寫出如下:/<img[^>]*>/g

    接下來這就是找到有alt屬性的,寫出如下: /<img[^>]*alt=('|")(.*?)\1.*>/g

    其實解決第二步並沒有這麼簡單,都是碰到了很多問題後面才寫出來的,包括img到alt這一段之間的字符如何處理,以及alt到閉合標籤"/>"之間的情況,而且有些代碼的img標籤都沒有寫對正確的閉合標籤,類似:<img src="***.jpg" >,所以寫的正則表達式需要兼容這種錯誤的標籤的情形。

    好了, 借用電競三醜的一口頭禪:可以,不跟你多BB。上代碼:


	static void Main(string[] args)
        {
            try
            {
		//調用
                ReplaceAlt( 
                    "<\\s*img([^>]*?)alt=('|\")(.*?)\\2", 
                    RegexOptions.IgnoreCase | RegexOptions.Multiline, 
                    "<img$1alt='d.pan'", 
                    @"E:\MyJob\VS2012_Space\TestConsole\atesthtml.txt", 
                    @"E:\MyJob\VS2012_Space\TestConsole\output.txt"
               );

            }
            catch( Exception ex )
            {
            }
        }


        /// <summary>
        /// 對輸入文件執行替換的正則表達式
        /// </summary>
        /// <param name="RegStr">正則表達式</param>
        /// <param name="OptObj">正則對象選項枚舉</param>
        /// <param name="ReplaceStr">替換的表達式</param>
        /// <param name="InputPath">輸入文件路徑</param>
        /// <param name="OutputPath">輸出文件路徑</param>
        /// <returns></returns>
        public static bool ReplaceAlt( string RegStr, RegexOptions OptObj, string ReplaceStr, string InputPath , string OutputPath )
        {
            //輸入文檔,這裏是爲了摸擬
            StreamReader SR  = null; 

            //輸出文檔
            StreamWriter SW = null;

            try
            {
                SR = new System.IO.StreamReader( InputPath );

                SW = new System.IO.StreamWriter( OutputPath );

                string InputSt = SR.ReadToEnd();

                //正則表達式
                Regex ImgReg = new Regex( RegStr , OptObj );

                //執行替換
                SW.WriteLine( ImgReg.Replace( InputSt ,  ReplaceStr ) );

                return true;
            }
            catch( Exception Ex )
            {
                //異常處理
                return false;
            }
            finally
            {
                //關閉文件
                if( null != SR )
                {                 
                    SR.Close();
                    SR = null;
                }

                if( null != SW )
                {
                    SW.Close();
                    SW = null;
                }
            }
        }


這裏需要解釋一下,代碼中使用的正則表達式是:<\s*img([^>]*?)alt=('|")(.*?)\2,

替換的是:<img$1alt='這裏是我想要替換的值'。

因爲我們只需要替換alt的值,所以alt屬性之後的那一段字符串,我們不需要理會,因爲alt的值有可能使用了單引號或者是雙引號,我們這裏使用分組(第二個分組)從而解決這種問題,但是爲什麼前面的img到alt屬性之前也使用了一個分組(第一個分組)?這個分組是在替換時使用的,$1表示了上面正則表達式第一個分組的值,這樣就可以完全的複製過來,只需要替換alt的值就可以了。


測試結果:

輸入文本:



輸出結果:



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章