.NetCore實踐爬蟲系統（一）解析網頁內容

爬蟲系統的意義

爬蟲的意義在於採集大批量數據，然後基於此進行加工/分析，做更有意義的事情。谷歌，百度，今日頭條，天眼查都離不開爬蟲。

今日目標

今天我們來實踐一個最簡單的爬蟲系統。根據Url來識別網頁內容。

網頁內容識別利器：HtmlAgilityPack

GitHub地址

HtmlAgilityPack官網

HtmlAgilityPack的stackoverflow地址

至今Nuget已有超過900多萬的下載量，應用量十分龐大。它提供的文檔教程也十分簡單易用。

Parser解析器

HtmlParse可以讓你解析HTML並返回HtmlDocument

FromFile從文件讀取

/// <summary>
/// 從文件讀取
/// </summary>
public void FromFile() {          
    var path = @"test.html";
    var doc = new HtmlDocument();
    doc.Load(path);
    var node = doc.DocumentNode.SelectSingleNode("//body");
    Console.WriteLine(node.OuterHtml);
}

從字符串加載

/// <summary>
/// 從字符串讀取
/// </summary>
public void FromString()
{
    var html = @"<!DOCTYPE html>
    <html>
    <body>
    	<h1>This is <b>bold</b> heading</h1>
    	<p>This is <u>underlined</u> paragraph</p>
    	<h2>This is <i>italic</i> heading</h2>
    </body>
    </html> ";

    var htmlDoc = new HtmlDocument();
    htmlDoc.LoadHtml(html);

    var htmlBody = htmlDoc.DocumentNode.SelectSingleNode("//body");

    Console.WriteLine(htmlBody.OuterHtml);
}

從網絡加載

/// <summary>
/// 從網絡地址加載
/// </summary>
public void FromWeb() {
    var html = @"https://www.cnblogs.com/";

    HtmlWeb web = new HtmlWeb();

    var htmlDoc = web.Load(html);

    var node = htmlDoc.DocumentNode.SelectSingleNode("//div[@id='post_list']");

    Console.WriteLine("Node Name: " + node.Name + "\n" + node.OuterHtml);
}

Selectors選擇器

選擇器允許您從HtmlDocument中選擇HTML節點。它提供了兩個方法,可以用XPath表達式篩選節點。XPath教程

SelectNodes() 返回多個節點

SelectSingleNode(String) 返回單個節點

簡介到此爲止，更全的用法參考 http://html-agility-pack.net

查看網頁結構

我們以博客園首頁爲示例。用chrome分析下網頁結構，可採集出推薦數，標題，內容Url,內容簡要，作者，評論數，閱讀數。

編碼實現

建立一個Article用來接收文章信息。


public class Article
    {
        /// <summary>
        /// 
        /// </summary>
        public string Id { get; set; }
        /// <summary>
        /// 標題
        /// </summary>
        public string Title { get; set; }
        /// <summary>
        /// 概要
        /// </summary>
        public string Summary { get; set; }
        /// <summary>
        /// 文章鏈接
        /// </summary>
        public string Url { get; set; }
        /// <summary>
        /// 推薦數
        /// </summary>
        public long Diggit { get; set; }
        /// <summary>
        /// 評論數
        /// </summary>
        public long Comment { get; set; }
        /// <summary>
        /// 閱讀數
        /// </summary>
        public long View { get; set; }
        /// <summary>
        ///明細
        /// </summary>
        public string Detail { get; set; }
        /// <summary>
        ///作者
        /// </summary>
        public string Author { get; set; }
        /// <summary>
        /// 作者鏈接
        /// </summary>
        public string AuthorUrl { get; set; }
    }

然後根據網頁結構，查看XPath路徑，採集內容

/// <summary>
        /// 解析
        /// </summary>
        /// <returns></returns>
        public List<Article> ParseCnBlogs()
        {
            var url = "https://www.cnblogs.com";
            HtmlWeb web = new HtmlWeb();
            //1.支持從web或本地path加載html
            var htmlDoc = web.Load(url);
            var post_listnode = htmlDoc.DocumentNode.SelectSingleNode("//div[@id='post_list']");
            Console.WriteLine("Node Name: " + post_listnode.Name + "\n" + post_listnode.OuterHtml);

            var postitemsNodes = post_listnode.SelectNodes("//div[@class='post_item']");
            var articles = new List<Article>();
            var digitRegex = @"[^0-9]+";
            foreach (var item in postitemsNodes)
            {
                var article = new Article();
                var diggnumnode = item.SelectSingleNode("//span[@class='diggnum']");
                //body
                var post_item_bodynode = item.SelectSingleNode("//div[@class='post_item_body']");

                var titlenode = post_item_bodynode.SelectSingleNode("//a[@class='titlelnk']");

                var summarynode = post_item_bodynode.SelectSingleNode("//p[@class='post_item_summary']");
                //foot
                var footnode = item.SelectSingleNode("//div[@class='post_item_foot']");
                var authornode = footnode.ChildNodes[1];
                var commentnode = item.SelectSingleNode("//span[@class='article_comment']");
                var viewnode = item.SelectSingleNode("//span[@class='article_view']");


                article.Diggit = int.Parse(diggnumnode.InnerText);
                article.Title = titlenode.InnerText;
                article.Url = titlenode.Attributes["href"].Value;
                article.Summary = titlenode.InnerHtml;
                article.Author = authornode.InnerText;
                article.AuthorUrl = authornode.Attributes["href"].Value;

                article.Comment = int.Parse(Regex.Replace(commentnode.ChildNodes[0].InnerText, digitRegex, ""));
                article.View = int.Parse(Regex.Replace(viewnode.ChildNodes[0].InnerText, digitRegex, ""));

                articles.Add(article);
            }
            return articles;
        }

查看採集結果

看到結果就驚呆了，竟然全是重複的。難道是Xpath語法理解不對麼？

重溫下XPath語法

XPath 使用路徑表達式在 XML 文檔中選取節點。節點是通過沿着路徑或者 step 來選取的

表達式	    描述
nodename	選取此節點的所有子節點。
/	        從根節點選取。
//		    從匹配選擇的當前節點選擇文檔中的節點，而不考慮它們的位置。
.		    選取當前節點。
..		    選取當前節點的父節點。
@		    選取屬性。

XPath 通配符可用來選取未知的 XML 元素

通配符   	描述
*	        匹配任何元素節點。
@*	        匹配任何屬性節點。
node()	    匹配任何類型的節點。

我測試了幾個語法如：

//例1，會返回20個
var titlenodes = post_item_bodynode.SelectNodes("//a[@class='titlelnk']");

//會報錯，因爲這個a並不直接在bodynode下面，而是在子級h3元素的子級。
var titlenodes = post_item_bodynode.SelectNodes("a[@class='titlelnk']");

然後又實驗了一種：

//Bingo,這個可以，但是強烈指定了下級h3,這就稍微麻煩了點。
var titlenodes = post_item_bodynode.SelectNodes("h3//a[@class='titlelnk']");

這裏就引申出了一個小問題：如何定位子級的子級？用通配符*可以麼？

//返回1個。
var titlenodes= post_item_bodynode.SelectNodes("*//a[@class='titlelnk']")

能正確返回1，應該是可以了，我們改下代碼看下效果。

然後和博客園首頁數據對比，結果吻合。
所以我們可以得出結論：

XPath搜索以//開頭時，會匹配所有的項，並不是子項。

直屬子級可以直接跟上 node名稱。

只想查子級的子級，可以用*代替子級，實現模糊搜索。

改過後代碼如下：

public List<Article> ParseCnBlogs()
        {
            var url = "https://www.cnblogs.com";
            HtmlWeb web = new HtmlWeb();
            //1.支持從web或本地path加載html
            var htmlDoc = web.Load(url);
            var post_listnode = htmlDoc.DocumentNode.SelectSingleNode("//div[@id='post_list']");
            //Console.WriteLine("Node Name: " + post_listnode.Name + "\n" + post_listnode.OuterHtml);

            var postitemsNodes = post_listnode.SelectNodes("div[@class='post_item']");
            var articles = new List<Article>();
            var digitRegex = @"[^0-9]+";
            foreach (var item in postitemsNodes)
            {
                var article = new Article();
                var diggnumnode = item.SelectSingleNode("*//span[@class='diggnum']");
                //body
                var post_item_bodynode = item.SelectSingleNode("div[@class='post_item_body']");

                var titlenode = post_item_bodynode.SelectSingleNode("*//a[@class='titlelnk']");

                var summarynode = post_item_bodynode.SelectSingleNode("p[@class='post_item_summary']");
                //foot
                var footnode = post_item_bodynode.SelectSingleNode("div[@class='post_item_foot']");
                var authornode = footnode.ChildNodes[1];
                var commentnode = footnode.SelectSingleNode("span[@class='article_comment']");
                var viewnode = footnode.SelectSingleNode("span[@class='article_view']");


                article.Diggit = int.Parse(diggnumnode.InnerText);
                article.Title = titlenode.InnerText;
                article.Url = titlenode.Attributes["href"].Value;
                article.Summary = titlenode.InnerHtml;
                article.Author = authornode.InnerText;
                article.AuthorUrl = authornode.Attributes["href"].Value;

                article.Comment = int.Parse(Regex.Replace(commentnode.ChildNodes[0].InnerText, digitRegex, ""));
                article.View = int.Parse(Regex.Replace(viewnode.ChildNodes[0].InnerText, digitRegex, ""));

                articles.Add(article);
            }
            return articles;
        }

源碼

代碼已上傳至 GitHub

總結

demo到此結束。謝謝觀看！

下篇繼續構思如何構建自定義規則，讓用戶可以在頁面自己填寫規則去識別。

.NetCore實踐爬蟲系統（一）解析網頁內容

爬蟲系統的意義

今日目標

網頁內容識別利器：HtmlAgilityPack

Parser解析器

Selectors選擇器

查看網頁結構

編碼實現

查看採集結果

重溫下XPath語法

源碼

總結

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

.NetCore高質量博客分享

.NetCore實踐爬蟲系統（二）自定義規則

.NetCore實踐爬蟲系統（一）解析網頁內容

.NetCore利用BlockingCollection實現簡易消息隊列

.Net業務搭配實用技術棧

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結