.NetCore實踐爬蟲系統（二）自定義規則

回顧

上篇文章NetCore實踐爬蟲系統（一）解析網頁內容
我們講了利用HtmlAgilityPack，輸入XPath路徑，識別網頁節點，獲取我們需要的內容。評論中也得到了大家的一些支持與建議。下面繼續我們的爬蟲系統實踐之路。本篇文章不包含依賴注入/數據訪問/UI界面等，只包含核心的爬蟲相關知識，只能作爲Demo使用，拋磚引玉，共同交流。

抽象規則

爬蟲系統之所以重要，正是他能支持各種各樣的數據。要支持識別數據，第一步就是要將規則剝離出來，支持用戶自定義。

爬蟲規則，實際上是跟商品有點類似，如動態屬性，但也有它特殊的地方，如規則可以循環嵌套，遞歸，相互引用，鏈接可以無限下去抓取。更復雜的，就需要自然語言識別，語義分析等領域了。

我用PPT畫了個演示圖。用於演示支持分析文章，活動，天氣等各種類型的規則。

編碼實現

先來定義個採集規則接口，根據規則獲取單個或一批內容。

    /// <summary>
    /// 採集規則接口
    /// </summary>
    public interface IDataSplider
    {
        /// <summary>
        /// 得到內容
        /// </summary>
        /// <param name="rule"></param>
        /// <returns></returns>
        List<SpliderContent> GetByRule(SpliderRule rule);

        /// <summary>
        /// 得到屬性信息
        /// </summary>
        /// <param name="node"></param>
        /// <param name="rule"></param>
        /// <returns></returns>
        List<Field> GetFields(HtmlNode node, SpliderRule rule);
    }

必不可少的規則類,用來配置XPath根路徑。

 /// <summary>
    /// 採集規則-能滿足列表頁/詳情頁。
    /// </summary>
    public class SpliderRule
    {
        public string Id { get; set; }

        public string Url { get; set; }
        /// <summary>
        /// 網頁塊
        /// </summary>
        public string ContentXPath { get; set; }
        /// <summary>
        /// 支持列表式
        /// </summary>
        public string EachXPath { get; set; }
        /// <summary>
        /// 
        /// </summary>
        public List<RuleField> RuleFields { get; set; }
    }

然後就是屬性字段的自定義設置,這裏根據內容特性，加入了正則支持。例如評論數是數字，可用正則篩選出數字。還有Attribute字段，用來獲取node的Attribute信息。

/// <summary>
    /// 自定義屬性字段
    /// </summary>
    public class RuleField
    {
        public string Id { get; set; }

        public string DisplayName { get; set; }
        /// <summary>
        /// 用於存儲的別名
        /// </summary>
        public string FieldName { get; set; }
        public string XPath { get; set; }
        public string Attribute { get; set; }
        /// <summary>
        /// 針對獲取的HTml正則過濾
        /// </summary>
        public string InnerHtmlRegex { get; set; }
        /// <summary>
        /// 針對獲取的Text正則過濾
        /// </summary>
        public string InnerTextRegex { get; set; }
        /// <summary>
        /// 是否優先取InnerText
        /// </summary>
        public bool IsFirstInnerText { get; set; }

    }

下面是根據文章爬蟲規則的解析步驟,實現接口IDataSplider

/// <summary>
    /// 支持列表和詳情頁
    /// </summary>
    public class ArticleSplider : IDataSplider
    {
        /// <summary>
        /// 根據Rule
        /// </summary>
        /// <param name="rule"></param>
        /// <returns></returns>
        public List<SpliderContent> GetByRule(SpliderRule rule)
        {
            var url = rule.Url;
            HtmlWeb web = new HtmlWeb();
            //1.支持從web或本地path加載html
            var htmlDoc = web.Load(url);
            var contentnode = htmlDoc.DocumentNode.SelectSingleNode(rule.ContentXPath);

            var list = new List<SpliderContent>();
            //列表頁
            if (!string.IsNullOrWhiteSpace(rule.EachXPath))
            {
                var itemsNodes = contentnode.SelectNodes(rule.EachXPath);
                foreach (var item in itemsNodes)
                {
                    var fields = GetFields(item, rule);
                    list.Add(new SpliderContent()
                    {
                        Fields = fields,
                        SpliderRuleId = rule.Id
                    });
                }
                return list;
            }
            //詳情頁
            var cfields = GetFields(contentnode, rule);
            list.Add(new SpliderContent()
            {
                Fields = cfields,
                SpliderRuleId = rule.Id
            });
            return list;
        }

        public List<Field> GetFields(HtmlNode item, SpliderRule rule)
        {
            var fields = new List<Field>();

            foreach (var rulefield in rule.RuleFields)
            {
                var field = new Field() { DisplayName = rulefield.DisplayName, FieldName = "" };

                var fieldnode = item.SelectSingleNode(rulefield.XPath);
                if (fieldnode != null)
                {

                    field.InnerHtml = fieldnode.InnerHtml;
                    field.InnerText = fieldnode.InnerText;
                    field.AfterRegexHtml = !string.IsNullOrWhiteSpace(rulefield.InnerHtmlRegex) ? Regex.Replace(fieldnode.InnerHtml, rulefield.InnerHtmlRegex, "") : fieldnode.InnerHtml;
                    field.AfterRegexText = !string.IsNullOrWhiteSpace(rulefield.InnerTextRegex) ? Regex.Replace(fieldnode.InnerText, rulefield.InnerTextRegex, "") : fieldnode.InnerText;

                    //field.AfterRegexHtml = Regex.Replace(fieldnode.InnerHtml, rulefield.InnerHtmlRegex, "");
                    //field.AfterRegexText = Regex.Replace(fieldnode.InnerText, rulefield.InnerTextRegex, "");
                    if (!string.IsNullOrWhiteSpace(rulefield.Attribute))
                    {
                        field.Value = fieldnode.Attributes[rulefield.Attribute].Value;
                    }
                    else
                    {
                        field.Value = rulefield.IsFirstInnerText ? field.AfterRegexText : field.AfterRegexHtml;
                    }
                    }
                fields.Add(field);
            }
            return fields;
        }
    }

還是以博客園爲例，配置內容和屬性的自定義規則

        /// <summary>
        /// 
        /// </summary>
        public void RunArticleRule()
        {
            var postitembodyXPath = "div[@class='post_item_body']//";
            var postitembodyFootXPath = postitembodyXPath+ "div[@class='post_item_foot']//";
            var rule = new SpliderRule()
            {
                ContentXPath = "//div[@id='post_list']",
                EachXPath = "div[@class='post_item']",
                Url = "https://www.cnblogs.com",
                RuleFields = new List<RuleField>() {
                         new RuleField(){ DisplayName="推薦", XPath="*//span[@class='diggnum']", IsFirstInnerText=true },
                         new RuleField(){ DisplayName="標題",XPath=postitembodyXPath+"a[@class='titlelnk']", IsFirstInnerText=true },
                         new RuleField(){ DisplayName="URL",XPath=postitembodyXPath+"a[@class='titlelnk']",Attribute="href", IsFirstInnerText=true },
                         new RuleField(){ DisplayName="簡要",XPath=postitembodyXPath+"p[@class='post_item_summary']", IsFirstInnerText=true },
                         new RuleField(){ DisplayName="作者",XPath=postitembodyFootXPath+"a[@class='lightblue']", IsFirstInnerText=true },
                         new RuleField(){ DisplayName="作者URL",XPath=postitembodyFootXPath+"a[@class='lightblue']",Attribute="href", IsFirstInnerText=true },
                         new RuleField(){ DisplayName="討論數", XPath="span[@class='article_comment']",IsFirstInnerText=true, InnerTextRegex=@"[^0-9]+"  },
                         new RuleField(){ DisplayName="閱讀數", XPath=postitembodyFootXPath+"span[@class='article_view']",IsFirstInnerText=true, InnerTextRegex=@"[^0-9]+"  },
                    }
            };
            var splider = new ArticleSplider();
            var list = splider.GetByRule(rule);
            foreach (var item in list)
            {
                var msg = string.Empty;
                item.Fields.ForEach(M =>
                {
                    if (M.DisplayName != "簡要" && !M.DisplayName.Contains("URL"))
                    {
                        msg += $"{M.DisplayName}:{M.Value}";
                    }
                });
                Console.WriteLine(msg);
            }
        }

運行效果

效果完美！

經過簡單的重構，我們已經達到了上篇的效果。

常用規則模型和自定義規則模型

寫到這裏，我想到了一般UML圖工具或Axsure原型等，都會內置各種常用組件，那麼文章爬蟲模型也是我們內置的一種常用組件了。後續我們完全可以按照上面的套路支持其他模型。除了常用模型之外，在網頁或客戶端上，高級的爬蟲工具會支持用戶自定義配置，根據配置來獲取內容。

上面的SpliderRule已經能支持大部分內容管理系統單頁面抓取。但無法支持規則相互引用，然後根據抓取的內容引用配置規則繼續抓取。（這裏也許有什麼專門的名詞來描述：遞歸爬蟲？）。

今天主要是在上篇文章的基礎上重構而來，支持了規則配置。爲了有點新意，就多提供兩個配置例子吧。

例子1：文章詳情

我們以上篇文章爲例，獲取文章詳情。
主要結點是標題，內容。其他額外屬性暫不處理。

編碼實現

        /// <summary>
        /// 詳情
        /// </summary>
        public void RunArticleDetail() {
           

            var rule = new SpliderRule()
            {
                ContentXPath = "//div[@id='post_detail']",
                EachXPath = "",
                Url = " https://www.cnblogs.com/fancunwei/p/9581168.html",
                RuleFields = new List<RuleField>() {
                         new RuleField(){ DisplayName="標題",XPath="*//div[@class='post']//a[@id='cb_post_title_url']", IsFirstInnerText=true },
                         new RuleField(){ DisplayName="詳情",XPath="*//div[@class='postBody']//div[@class='blogpost-body']",Attribute="", IsFirstInnerText=false }
                           }
            };
            var splider = new ArticleSplider();
            var list = splider.GetByRule(rule);
            foreach (var item in list)
            {
                var msg = string.Empty;
                item.Fields.ForEach(M =>
                {
                    Console.WriteLine($"{M.DisplayName}:{M.Value}");
                });
                Console.WriteLine(msg);
            }
        }

運行效果

效果同樣完美！

例子2：天氣預報

天氣預報的例子，我們就以上海8-15天預報爲例。

分析結構

點擊鏈接，我們發現今天/7天/8-15天/40天分別是不同的路由頁面，那就簡單了，我們只考慮當前頁面就行。還有個問題，那個晴天雨天的圖片，是按樣式顯示的。我們雖然能抓到html,但樣式還未考慮，，HtmlAgilityPack應該有個從WebBrowser獲取網頁的，似乎能支持樣式。本篇文章先跳過這個問題，以後再細究。

配置規則

根據網頁結構，配置對應規則。

 public void RunWeather() {

            var rule = new SpliderRule()
            {
                ContentXPath = "//div[@id='15d']",
                EachXPath = "*//li",
                Url = "http://www.weather.com.cn/weather15d/101020100.shtml",
                RuleFields = new List<RuleField>() {
                         new RuleField(){ DisplayName="日期",XPath="span[@class='time']", IsFirstInnerText=true },
                         new RuleField(){ DisplayName="天氣",XPath="span[@class='wea']",Attribute="", IsFirstInnerText=false },
                         new RuleField(){ DisplayName="區間",XPath="span[@class='tem']",Attribute="", IsFirstInnerText=false },
                         new RuleField(){ DisplayName="風向",XPath="span[@class='wind']",Attribute="", IsFirstInnerText=false },
                         new RuleField(){ DisplayName="風力",XPath="span[@class='wind1']",Attribute="", IsFirstInnerText=false },
                           }
            };
            var splider = new ArticleSplider();
            var list = splider.GetByRule(rule);
            foreach (var item in list)
            {
                var msg = string.Empty;
                item.Fields.ForEach(M =>
                {
                        msg += $"{M.DisplayName}:{M.Value} ";
                });
                Console.WriteLine(msg);
            }

        }

運行效果

效果再次完美！

源碼

上述代碼已提交到GitHub

總結探討

綜上所述，我們實現單頁面的自定義規則，但也遺留了一個小問題。天氣預報晴天陰天效果圖，原文是用樣式展示的。針對這種不規則問題，如果代碼定製當然很容易，但如果做成通用，有什麼好辦法呢？請提出你的建議！心情好的，順便點個推薦…

下篇文章，繼續探討多頁面/遞歸爬蟲自定義規則的實現。

.NetCore實踐爬蟲系統（二）自定義規則

回顧

抽象規則

編碼實現

運行效果

常用規則模型和自定義規則模型

例子1：文章詳情

編碼實現

運行效果

例子2：天氣預報

分析結構

配置規則

運行效果

源碼

總結探討

python gdal 安裝使用（Windows， python 3.6.8）

.NetCore高質量博客分享

.NetCore實踐爬蟲系統（二）自定義規則

.NetCore實踐爬蟲系統（一）解析網頁內容

.NetCore利用BlockingCollection實現簡易消息隊列

.Net業務搭配實用技術棧

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結