文本分析的三種典型設計模式

原創

2020-07-07 22:01

文本分析的三種典型設計模式

許式偉
2004-10-27

事件驅動：Parse-Handler模型（如：xml之SAX模型）

該模型主要有Parser和Handler兩個組件。其原型大體如下：

class xxxHandler
{
public:
   // any event sended from Parser
   ...
};

class xxxParser
{
public:
   xxxxParser(InputSource* source);

   HRESULT parse(xxxxHandler* handler)
   {
      // analyze source and send event to handler
      ...
   }
};

該模型不規定Handler類型的詳細規格，由Parser的實現者根據具體情況而定。
這種模型的核心思想就是由Parser類來具體分析文本的格式，而讓信息真正的處理者Handler類從具體的格式中脫離出來，不再需要關心文本物理組織細節。

Tokenizer模型（如：編譯器的詞法分析器）

這種模型僅涉及一個Tokenizer組件。該組件負責將文本分解爲一個個token。其原型大體如下：

class xxxTokenizer
{
public:
   xxxTokenizer(InputSource* source);

   //
   // 成功返回S_OK，如果遇到eof返回S_FALSE。
   //
   HRESULT next(TOKEN* token);
};

其中分析的結果以一個結構體TOKEN表示。這個結構體如何設計，同樣視具體情況而定。通常它看起來是這樣的：

struct TOKEN
{
UINT type;
union
{
  DATATYPE1 data1; // 當type = type1時
  DATATYPE2 data2; // 當type = type2時
  ...
};
};

有了Tokenizer，我們就可以輕易的遍歷整個文檔：

void visit(InputSource* source)
{
TOKEN token;
xxxTokenizer tokenizer(source);
while (tokenizer.next(&token) == S_OK)
{
print(token);
}
}

token應當如何劃分，其粒度如何，完全取決於設計者的考量。以以下一段xml文本爲例：
<elem attr="value">content</elem>
你可以劃分爲：

<elem    // element start
attr="value"  // attr-value pair
content    // content
</elem>    // element end

也可以將attr-value pair細分爲三個token：attr, assign-symbol, value。
你甚至也可以將整個element作爲一個token。

從廣義上來說，我們文件系統提供的字節流本身已經是一個Tokenizer了，只不過它劃分的token是一個個並無多少邏輯含義的character。

而我們後面提到的DOM模型，也可以算是一個Tokenizer。只不過它劃分的token只有一個，就是DOM樹，與文件系統的字節流走的是另一個極端。

Tokenizer方式與Parse-Handler方式設計思路，最大的不同在於具體處理信息的人主被動地位相異。在Tokenizer模式下，信息處理者調用Tokenizer得到分析數據，如果相鄰的token存在上下文關係，你可以根據需要去取得下一個token，故處於主動地位。

而Parse-Handler模式相關死板一些，一方面Handler類實現者纔是真正試圖處理信息的人，但是實際上對信息的劃分（token）卻是由Parse規定的，未必完全符合Handler類的需求。另一方面在token存在上下文關係，當前接受的數據信息不足時，Handler類無法隨心所欲的取得下一個token（因爲從流程上它是被動的數據接受方），而只能暫時緩存數據，等待下一條信息的到來。

文檔對象：DOM模型

DOM模型是最高級的一種模型。它的思路是將文檔完整地讀入內存，並提供數據訪問接口。
DOM模型消耗的內存最多，可提供的服務（我們可以聯想一下xml的諸多應用，如xslt等）也最爲完整。

這裏提到DOM模型消耗的內存最多，這種說法並不全面。例如，在將它與Parse-Handler模型相比時，我們只是計算了Parser的開銷，而Handler類是客戶實現的，內存開銷多少，無從計算。

另一方面，由於DOM模型可以按自己的方式組織數據，它在內存開銷上的可優化餘地很大，並且客戶在使用它時通常不再需要大量的內存分配操作；而Parse-Handler模型中，Handler類的實現者出現蹩腳的設計可能性非常高，計入Handler類的內存開銷的話，有時甚至可能遠遠超過採用DOM模型。

因此我個人認爲相對於DOM的能力而言，內存問題在DOM模型中並不算一個了不起的缺陷。實現者可以有很多技巧來進行內存優化。

但是DOM模型有一個問題，就是它一開始就將文檔完整的讀入了內存，使得它無法勝任那些對響應時間要求較高、希望能夠漸進處理的應用。而這一點是採用Parse-Handler模型和Tokenizer模型的好處。

後記

這篇文章寫得比較早，因爲最近寫WINX可視化開發工具相關的設計稿時用到，所以整理了下。我個人在文本文件和各種文檔格式的文件打交道較多，多年來也算是形成了一定的經驗。我個人現在越來越傾向於採用DOM模型來處理文件。原因在於採用DOM模型有很多優點：

DOM模型是提供了最高級的服務，模塊的客戶負擔少。
模塊劃分極其清晰，方便維護。通常DOM模型的內部仍然建立於SAX模型（或Tokenizer模型）上，但是這種依賴侷限在DOM模型的內部。因此，程序通常會劃分爲3層：
SAX（或Tokenizer） ==> DOM模型 ==> DOMClient（實際的應用）
內存管理方面的可優化餘地大。在多數情況下，我們建立的DOM模型是隻讀的（或允許進行少量修改），這種情形下，內存管理方案可以以最簡潔的方式實現。下文我們詳細討論這一點。在此之前，我推薦你回顧一下《C++內存管理變革：最袖珍的垃圾回收器》。
易獲得更好的性能。雖然理論上來講程序建立在SAX模型性能上可以獲得更好的性能，但是經驗表明，在團代開發的情形下，採用DOM模型的性能通常可優於建立在SAX模型之上的同樣功能的複雜程序（不是簡單打印或提取有限數據的情形）。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

工程中實踐的微服務設計模式

最近在讀《微服務架構設計模式》，開始的時候我非常的好奇，因爲在我印象中，設計模式是常說的那23種設計模式，而微服務的設計模式又是什麼呢？這個問題也留給大家，在文末我會附上我對這個問題的理解。本次文章的內容主要是工作中對微服務設計模式的應

2024-04-19 23:17:23

DDD落地指南-架構師眼中的餐廳

在去年、我整理了一篇名爲《如何做架構設計？》的文章，主要探討了架構設計的目標和過程，然而、那是一篇概括性的文章，用於啓發思路，並不是具體的實踐指南，因此、我一直期望給出具體參考案例。我幾乎忘了這件事，如今回顧、我發現並沒有合適的案例可供參

2024-04-16 11:16:34

WinForm應用實戰開發指南 - 如何實現類似事件總線的消息處理？

MediatR是一款進程內的消息訂閱、發佈框架，可實現請求/響應、命令、查詢、通知和事件的消息傳遞，解耦了消息處理器和消息之間耦合。提供了Send方法用於發佈到單個處理程序、Publish方法發佈到多個處理程序，使用起來非常方便。目前支持

界面開發小八哥

2024-04-15 11:35:27

萬字長文，聊聊我在錦禮成長的這一年

”學而不思則罔,思而不學則殆“，本文記錄了作者在錦禮側工作1年間遇到的思考與成長、挑戰與困難，也是對過去工作的總結與反思，分享出來，希望對大家有所幫助。本文約10000字如果覺得頁面很長那是因爲截圖和留言很多，哈哈 00引言光

2024-04-15 11:16:26

教你構建一個優秀的SD Prompt

2. 構建一個優秀的Prompt 在使用Stable Diffusion AI時，構建一個有效的提示（Prompt）是至關重要的第一步。這個過程涉及到創造性的嘗試和對AI行爲的理解。這裏我會對如何構建一個好的Prompt進行一個總結。什麼

2024-04-10 21:30:28

視頻創作者必備應用！三步幫你解決前置內容條件，打造專屬大片！

你還沒嘗試過 AI 視頻生成？AI 技術逐漸浸透我們的生活，太多的事物變得有了捷徑可走。AI 視頻生成爲創作者們提供更加便利快捷的輸出形式，更優質更契合的生產內容。嘗試 AI 視頻生成系列應用，迎接 AI 宇宙！生成劇本分鏡視頻創作，

2024-04-03 23:39:47

前端面試題 - 說一下原型和原型鏈？

前端面試題 - 說一下原型和原型鏈？ JavaScript 中，萬物皆對象，對象分爲普通對象和函數對象。所有的函數都是函數對象（typeof f === 'function'），其他都是普通對象（typeof o === 'object'

2024-04-24 23:51:10

ci 404 問題總結

protected function getNode(){ //$CONTROLLER_NAME = $this->_CI->router->fetch_class(); //$ACTION_NAME = $this->_

2024-04-20 00:28:27

AI從入門到入門之手寫數字識別模型java方式Dense全連接神經網絡實現

前言：授人以魚不如授人以漁.先學會用，在學原理，在學創造，可能一輩子用不到這種能力，但是不能不具備這種能力。這篇文章主要是介紹算法入門Helloword之手寫圖片識別模型java中如何實現以及部分解釋。目前大家對於人工智能-機器學習-神經網

2024-04-19 23:17:21

初探Java編程——開啓你的編程之旅

標題：初探Java編程——開啓你的編程之旅摘要：本文主要介紹了Java編程語言的基本概念、特點以及如何搭建Java開發環境。通過簡單的實例，讓讀者初步瞭解Java編程，爲其後續學習打下基礎。一、Java概述 Java是一種面

2024-04-17 00:39:23

鴻蒙原生應用再新丁！企查查碧藍航線入局鴻蒙

鴻蒙原生應用再新丁！企查查碧藍航線入局鴻蒙來自 HarmonyOS 微博13日消息，碧藍航線將啓動鴻蒙原生應用開發，雙方將基於HarmonyOS NEXT鴻蒙星河版的原生流暢等特性，進一步提升遊戲流暢度和畫面精美度，爲用戶提供更

2024-04-13 23:06:23

中間件漏洞攻防學習總結

前言面試常問的一些中間件，學習總結一下。以下環境分別使用vulhub和vulfocus復現。 Apache apache 文件上傳 (CVE-2017-15715) 描述: Apache(音譯爲阿帕奇)是世界使用排名第一的Web服務器

2024-04-09 22:46:34

Java中拼接字符串方式(+、StringBuilder/StringBuffer)分析

字符串是 Java 程序中最常用的數據結構之一。在 Java 中 String 類已經重載了"+"，字符串可以直接使用"+"進行連接，也可以用StringBuilder/StringBuffer（StringBuilder是J2SE5 及以

2024-04-09 21:31:20

jar包衝突組建設計書

. 背景實際開發過程中，使用maven管理jar給我們開發帶來了很多便利，不需要自己一個一個的jar包下載了，只需要配置個pom配置文件就可以了，寫上對應座標和倉庫地址就可以了。但是jar衝突沒問題沒有解決，有衝突的jar包maven不

2024-04-08 23:16:36

淺談JVM整體架構與調優參數

本文分享自華爲雲社區《【性能優化】JVM整體架構與調優參數說明》，作者：冰河。 JVM的分類這裏，我們先來說說什麼是VM吧，VM的中文含義爲：虛擬機，指的是使用軟件的方式模擬具有完整硬件系統功能、運行在一個完全隔離環境中的完整計算機

2024-04-02 10:32:25

24小時熱門文章

最新文章

最新評論文章