c++解析html

原創

2020-06-21 16:19

https://github.com/cejutue/cjhtmlparser

基於gumbo-parser 和gumbo-query 改造成爲了可以適用 Windows和Linux的 html解析庫, 原gumbo爲google的開源c庫, 且僅僅hi喫Linux.

編譯: gumbo-parser 所有文件全部直接加入到工程直接編譯即可

基本用法如下:

#pragma once
#include "stdafx.h"

#include "enumtest.cpp"

#include "gumbo-parser/Selector.h"

#include "gumbo-parser/Document.h"
#include "gumbo-parser/Selection.h"
#include "gumbo-parser/Node.h"

void test_parser() {
	std::string page("<h1><a>wrong link</a><a class=\"special\"\\>some link</a></h1>");
	CDocument doc;
	doc.parse(page.c_str());

	CSelection c = doc.find("h1 a.special");
	CNode node = c.nodeAt(0);
	printf("Node: %s\n", node.text().c_str());
	std::string content = page.substr(node.startPos(), node.endPos() - node.startPos());
	printf("Node: %s\n", content.c_str());

}

void test_html() {
	std::string page = "<html><div><span>1\n</span>2\n</div></html>";
	CDocument doc;
	doc.parse(page.c_str());
	CNode pNode = doc.find("div").nodeAt(0);
	std::string content = page.substr(pNode.startPos(), pNode.endPos() - pNode.startPos());
	printf("Node: #%s#\n", content.c_str());
}

void test_escape() {
	std::string page = "<html><div><span id=\"that's\">1\n</span>2\n</div></html>";
	CDocument doc;
	doc.parse(page.c_str());
	CNode pNode = doc.find("span[id=\"that's\"]").nodeAt(0);
	std::string content = page.substr(pNode.startPos(), pNode.endPos() - pNode.startPos());
	printf("Node: #%s#\n", content.c_str());
}

int main() {
	test_parser();
	test_html();
	test_escape();
}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

「Qt Widget中文示例指南」如何實現行編輯功能

Qt 是目前最先進、最完整的跨平臺C++開發工具。它不僅完全實現了一次編寫，所有平臺無差別運行，更提供了幾乎所有開發過程中需要用到的工具。如今，Qt已被運用於超過70個行業、數千家企業，支持數百萬設備及應用。 Line Edits（行編輯）

2024-04-17 11:37:05

數據結構筆記淺記（九）存儲設備

物理結構在很大程度上決定了程序對內存和緩存的使用效率，進而影響算法程序的整體性能。由於存儲數據的需要長久保存，並且內存的價格比硬盤貴太多，因此內存無法取代硬盤。緩存的大容量和高速度難以兼得。隨着 L1、L2、L3 緩存的容量逐步增大

2024-04-08 23:38:13

Ascend C 自定義PRelu算子

本文分享自華爲雲社區《Ascend C 自定義PRelu算子》，作者： jackwangcumt。 1 PRelu算子概述 PReLU是 Parametric Rectified Linear Unit的縮寫，首次由何凱明團隊提出，和Le

2024-04-08 10:33:15

唐劉：關於產品質量的思考 - 我的基本認知

我在文章《 TiDB in 2023 - 一次簡單的回顧》中提到了一個我一直以來面臨的問題：每次 TiDB 發佈新版本後，我如何能夠非常自信地告訴客戶，這個版本的質量很好，大家可以放心使用呢？坦白地說，這個問題並不容易回答。我計

2024-04-05 22:23:19

數據結構筆記淺記（七）鏈表

「鏈表 linked list」是一種線性數據結構，其中的每個元素都是一個節點對象，各個節點通過“引用”相連接。引用記錄了下一個節點的內存地址，通過它可以從當前節點訪問到下一個節點。鏈表的設計使得各個節點可以分散存儲在內存各處，它們的內

2024-04-02 23:38:34

Higress 基於自定義插件訪問 Redis

作者：鈺誠簡介基於 wasm 機制，Higress 提供了優秀的可擴展性，用戶可以基於 Go/C++/Rust 編寫 wasm 插件，自定義請求處理邏輯，滿足用戶的個性化需求，目前插件已經支持 redis 調用，使得用戶能夠編寫有狀態的

2024-04-01 21:12:22

Qt/C++入門基礎學習001-繪圖基礎

這一節介紹 Qt 的繪圖基礎知識，我們都知道，Qt 裏繪圖使用的是 QPainter，但是首先需要弄明白：在什麼上繪圖和在哪裏繪圖，然後纔是怎麼繪圖，我們就圍繞這幾個問題來展開。在什麼上繪圖 The QPaintDevice class

2024-04-01 10:40:21

百億大規模圖在廣告場景的應用

本文通過搜索推薦項目進行外賣搜索廣告弱供給填充，提高流量變現效率。我們提出外賣多場景異構大圖、異構大圖在線建模技術演進路線，解決外賣搜索推薦業務多渠道、即時化的挑戰。相關成果發表CIKM2023會議一篇。聯合機器學習平臺搭建大規模圖訓練、

2024-03-29 21:16:38

LLM大模型推理加速實戰：vllm、fastllm與llama.cpp使用指南

隨着人工智能技術的飛速發展，大型語言模型（LLM）在諸如自然語言處理、智能問答、文本生成等領域的應用越來越廣泛。然而，LLM模型往往具有龐大的參數規模，導致推理過程計算量大、耗時長，成爲了制約其實際應用的關鍵因素。爲了解決這個問題，一系列大

2024-03-26 12:51:26

英特爾助力龍蜥加速 AI 應用及 LLM 性能

操作系統的發展離不開南北向軟硬件生態的擴展和支持，龍蜥社區也離不開各合作伙伴的共創。在 2023 龍蜥操作系統大會全面擁抱智算時代分論壇上，英特爾 AI 軟件工程師王華強從兩方面分享了英特爾至強處理器平臺上的兩個重點算力和內存帶寬，以及英特

2024-03-23 00:43:41

數據結構筆記淺記（三）空間複雜度

用於衡量算法佔用內存空間隨着數據量變大時的增長趨勢。這個概念與時間複雜度非常類似，只需將“運行時間”替換爲“佔用內存空間”。算法在運行過程中使用的內存空間主要包括以下幾種。 ‧ 輸入空間：用於存儲算法的輸入數據。

2024-03-23 00:43:15

「Qt Widget中文示例指南」如何實現文檔查看器？（三）

Qt 是目前最先進、最完整的跨平臺C++開發工具。它不僅完全實現了一次編寫，所有平臺無差別運行，更提供了幾乎所有開發過程中需要用到的工具。如今，Qt已被運用於超過70個行業、數千家企業，支持數百萬設備及應用。文檔查看器是一個顯示和打印JS

2024-03-22 00:23:04

定位windows客戶端鏈接問題

最近需要在客戶端添加一個定時查詢功能，能夠在客戶端登錄時查詢股票的中籤信息。需要去查詢中籤並在中籤時，彈窗提示用戶。最初的想法是定義一個全局靜態變量，然後再全局變量初始化的時候，去創建qt的定時器。在定時器超時

2024-03-19 01:10:17

gRPC-第二代rpc服務

背景在如今雲原生技術的大環境下，rpc服務作爲最重要的互聯網技術，蓬勃發展，誕生了許多知名基於rpc協議的框架，其中就有本文的主角gRPC技術。一款高性能、開源的通用rpc框架作者作爲一名在JD實習的Cpper，

2024-03-04 23:57:13

矩陣爆破逆向之條件斷點的妙用

不知道你是否使用過IDA的條件斷點呢？在IDA進階使用中，它的很多功能都有大作用，比如：ida-trace來跟蹤調用流程。同時IDA的斷點功能也十分強大，配合IDA-python的輸出語句能夠大殺特殺！那麼本文就介紹一下這個功能點，使用z

2024-03-01 23:34:32

24小時熱門文章

最新文章

最新評論文章