大數據處理

DMCTextFilter和HTMLFilter數據過濾器


我們已經進入了大數據處理時代,需要快速、簡單的處理海量數據,海量數據處理的三個主要因素:大容量數據、多格式數據和速度, DMCTextFilter和HTMLFilter是由北京紅櫻楓軟件有限公司研製和開發的純文本抽出和HTML轉換通用程序庫產品。本產品可以從各種各樣的文檔格式的數據中或從插入的OLE對象中,快速抽出純文本數據信息和轉換成HTML文件。便於用戶實現對多種文檔數據資源信息進行統一管理,編輯,檢索和瀏覽。

一、產品特點


1.   多格式數據處理,可以對近百種文件格式進行文本抽取


支持Microsoft Office、RTF、PDF、Visio、Outlook EML和MSG、Lotus1-2-3、HTML、AutoCAD DXF和DWG、IGES、PageMaker、ClarisWorks、AppleWorks、XML、WordPerfect、Mac Write、Works、Corel Presentations、QuarkXpress、DocuWorks、WPS、壓縮文件的LZH/ZIP/RAR以及一太郎、OASYS等文件格式的文字抽取和HTML轉換。

2.   對文件的操作不需要安裝其他任何第三方軟件


文件操作在數據轉換過程中完全獨立對文件格式進行分析轉換,不需要安裝生成文件的原軟件。特別是不依賴於原軟件的各種文檔的Image化、PDF化技術,在網絡服務器中的應用非常廣泛。這是一項世界上比較流行、且需求量很大的技術。

3.   支持多種操作系統環境、支持服務器併發操作


支持各種操作系統,如:Windows的32位和64位各種版本以及Sun SPARC版Solaris(32bit/64bit)、x86版Solaris10(64bit)、Linux32bit、Linux64bit、IBM AIX 5L、Macintosh等,並支持單線程或多線程操作,實現了多人共用機制。

4.   無與倫比的運行速度


程序全部用C/C++語言開發,執行速度無與倫比,即使是單線程運行,平均每秒鐘處理9個文件,當50個線程時,每秒鐘16個文件,隨着線程數的增加以及機器***能的提高。是目前世界上處理文檔效率最高的軟件。

5.   多種語言文字代碼的支持


抽出文本時,可以指定以下的字符集合作爲文本文件的字符集:GBK、GB18030、Big5、Shift_JIS、WINDOWS31J、EUC-JP、EUC-JP-FIX、ISO-2022-JP、KS X 1001、ISO-8859-1、ISO-10646-UCS-2、ISO-10646-UCS-4、UTF-16、UTF-8、Shift_JIS-2004、ISO-2022-JP-2004、EUC-JIS-2004

6.   C/C++、JAVA、.NET等功能強大的接口功能


程序庫除提供C/C++函數接口外,還提供了com接口、java接口、perl接口等各種調用方法。函數功能上有:文件格式識別函數、文本抽出函數(文件)、文本抽出函數(流Stream輸出)、文件屬***抽出函數、頁抽出函數、頁抽出函數(流Stream輸出)、設定User Password的PDF文件的文本抽出函數、設定User Password的PDF文件的頁抽出函數、設定User Password的PDF文件屬***的抽出函數等。

二 、廣泛的應用領域


軟件程序庫廣泛的應用於政府、企業等各個領域的信息資源開發利用、智能搜索引擎、情報分析和服務、信息安全、企業知識門戶、數字圖書館、電子商務等領域。在世界各地得到了衆多知名企業的青睞。本產品在***能和質量上都得到了用戶高度評價。

 

 

■應用舉例一: 某公司 中文文本挖掘軟件產品


此公司的文本挖掘軟件是國內外首推的實用化中文文本挖掘產品,它突破了文本處理機械匹配的基本模式,實現了智能化的信息處理,可有效解決目前普遍存在的信息過量、信息丟失、信息無關等問題。它集成了此公司最新推出的多項中文智能處理技術,爲中文文本挖掘應用提供開放的開發工具箱。在紅櫻楓軟件的通用文本抽出程序庫的基礎上,此軟件的下述功能得以實現。

文本挖掘軟件由四個邏輯模塊組成,即:文本分類、文本摘要、文本聚類和相似***檢索模塊。文本分類工具可自動地對文檔進行分類,賦予文檔一個預先定義的類別主題詞,實現文檔的自動組織,而無需人工干預。文本摘要可以提取文本主題,自動生成文本摘要,爲用戶快速瀏覽信息提供快捷有效的方式。文本聚類工具可以自動對文檔進行歸類,把內容相近的文檔歸爲一類,並自動爲該類生成主題詞。相似***檢索工具可以幫助用戶檢索與給定文檔相似的文檔,可以應用於文檔查重等諸多工作領域。

 

■應用舉例二:某公司數字圖書館解決方案


數字圖書館的本質就是以分佈式海量數據庫羣爲支撐的信息服務系統,圖書館內擁有大量的期刊、雜誌和圖書、圖片等館藏資源信息。因此,對數據的解析能力也是圖書館系統的一個重要衡量標誌。應用了紅櫻楓軟件文本抽出程序庫軟件的此公司圖書館管理系統實現了對海量數據信息的存儲與檢索,完成了數字信息資源的生產、加工、存儲、檢索、傳遞、保護、利用、歸檔、剔除等全過程。此圖書館解決方案所提供強大功能組件,建立起包括數字化進行資源建設與收集,數字資源的存儲和管理,全文搜索引擎,分佈式框架機制和安全信任機制等功能數字圖書館系統體系。利用iBASE DMC數據管理中心提供的方便快捷的建庫功能,用戶的圖書館建立起自己特色專業數據庫,同時還利用iBASE DMC完成對原有的書目數據庫、文摘數據庫、全文數據庫以及光盤數據倒入iBASE數據庫中,統一了數據格式,爲資源共享和數據交換奠定基礎。

三.產品價值


在實際的推廣和應用中,我公司的通用文本抽出程序軟件被應用到了多個領域,如:信息資源開發利用,智能搜索引擎,情報分析和服務,信息安全,企業知識門戶,數字圖書館,電子商務等領域。在世界各地得到了衆多知名企業的青睞。本產品在***能和質量上都得到了用戶高度評價。我司將不懈努力,繼續爲用戶提供品質優良,***能可靠的一流產品。爲用戶提供優良的技術服務,滿足用戶的各種需求。

目前主要突出體現出如下應用價值:

1.  爲海量非結構化資源提供了智能加工工具,提高信息資源加工效率;

2.  可爲政務信息資源服務的使用者提供智能檢索和挖掘分析的手段,放大政務信息資源增值效用。

3.  在國家相關部門的搜索引擎以及多個行業垂直搜索引擎服務的建設中,獲得了成功應用,可以爲提高垂直搜索引擎服務的智能化、行業化和知識化水平奠定了基礎。

4.  爲相關機構從事內容安全管理提供了智能化的技術,可以降低監管成本,提高監管效率。

5.  可以作爲信息資源利用和知識管理應用的基礎構件,爲企業信息資源的加工、分析和服務提供先進智能的文本轉換技術。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章