結構化數據(structured),半結構化數據(semi-structured),非結構化數據(unstructured)的定義和區別

相對於結構化數據(即行數據,存儲在數據庫裏,可以用二維表結構來邏輯表達實現的數據)而言,不方便用數據庫二維邏輯表來表現的數據即稱爲非結構化數據,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。
  非結構化數據庫是指其字段長度可變,並且每個字段的記錄又可以由可重複或不可重複的子字段構成的數據庫,用它不僅可以處理結構化數據(如數字、符號等信息)而且更適合處理非結構化數據(全文文本、圖象、聲音、影視、超媒體等信息)。
  非結構化WEB數據庫主要是針對非結構化數據而產生的,與以往流行的關係數據庫相比,其最大區別在於它突破了關係數據庫結構定義不易改變和數據定長的限制,支持重複字段、子字段以及變長字段並實現了對變長數據和重複字段進行處理和數據項的變長存儲管理,在處理連續信息(包括全文信息)和非結構化信息(包括各種多媒體信息)中有着傳統關係型數據庫所無法比擬的優勢。
  結構化數據(即行數據,存儲在數據庫裏,可以用二維表結構來邏輯表達實現的數據)
  非結構化數據,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等
  所謂半結構化數據,就是介於完全結構化數據(如關係型數據庫、面向對象數據庫中的數據)和完全無結構的數據(如聲音、圖像文件等)之間的數據,HTML文檔就屬於半結構化數據。它一般是自描述的,數據的結構和內容混在一起,沒有明顯的區分。
  數據模型:
  結構化數據:二維表(關係型)
  半結構化數據:樹、圖
  非結構化數據:無
  RMDBS的數據模型有:如網狀數據模型、層次數據模型、關係型
  其他:
  結構化數據:先有結構、再有數據
  半結構化數據:先有數據,再有結構
  隨着網絡技術的發展,特別是Internet和Intranet技術的飛快發展,使得非結構化數據的數量日趨增大。這時,主要用於管理結構化數據的關係數據庫的侷限性暴露地越來越明顯。因而,數據庫技術相應地進入了“後關係數據庫時代”,發展進入基於網絡應用的非結構化數據庫時代。
  我國非結構化數據庫以北京國信貝斯(iBase)軟件有限公司的iBase數據庫爲代表。IBase數據庫是一種面向最終用戶的非結構化數據庫,在處理非結構化信息、全文信息、多媒體信息和海量信息等領域以及Internet/Intranet應用上處於國際先進水平,在非結構化數據的管理和全文檢索方面獲得突破。它主要有以下幾個優點:
  (1)Internet應用中,存在大量的複雜數據類型,iBase通過其外部文件數據類型,可以管理各種文檔信息、多媒體信息,並且對於各種具有檢索意義的文檔信息資源,如HTML、DOC、RTF、TXT等還提供了強大的全文檢索能力。
  (2)它採用子字段、多值字段以及變長字段的機制,允許創建許多不同類型的非結構化的或任意格式的字段,從而突破了關係數據庫非常嚴格的表結構,使得非結構化數據得以存儲和管理。
  (3)iBase將非結構化和結構化數據都定義爲資源,使得非結構數據庫的基本元素就是資源本身,而數據庫中的資源可以同時包含結構化和非結構化的信息。所以,非結構化數據庫能夠存儲和管理各種各樣的非結構化數據,實現了數據庫系統數據管理到內容管理的轉化。
  (4)iBase採用了面向對象的基石,將企業業務數據和商業邏輯緊密結合在一起,特別適合於表達複雜的數據對象和多媒體對象。
  (5)iBase是適應Internet發展的需要而產生的數據庫,它基於Web是一個廣域網的海量數據庫的思想,提供一個網上資源管理系統iBase Web,將網絡服務器(WebServer)和數據庫服務器(Database Server)直接集成爲一個整體,使數據庫系統和數據庫技術成爲Web的一個重要有機組成部分,突破了數據庫僅充當Web體系後臺角色的侷限,實現數據庫和Web的有機無縫組合,從而爲在Internet/Intranet上進行信息管理乃至開展電子商務應用開闢了更爲廣闊的領域。
  (6)iBase全面兼容各種大中小型的數據庫,對傳統關係數據庫,如Oracle、Sybase、SQLServer、DB2、Informix等提供導入和鏈接的支持能力。
  通過從上面的分析後我們可以預言,隨着網絡技術和網絡應用技術的飛快發展,完全基於Internet應用的非結構化數據庫將成爲繼層次數據庫、網狀數據庫和關係數據庫之後的又一重點、熱點技術。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章