簡述結構化數據、非結構化數據、半結構化數據


在數據分析中,我們會接觸到很多的數據,而這些數據都是有類別之分的。這些數據根據結構分類被劃分爲三種,它們分別是結構化數據、非結構化數據、半結構化數據。在這篇文章中我們就簡單地給大家介紹一下這三種數據的相關知識。

首先我們說一下結構化數據,結構化的數據是指可以使用關係型數據庫表示和存儲,表現爲二維形式的數據。一般特點是:數據以行爲單位,一行數據表示一個實體的信息,每一行數據的屬性是相同的。能夠用數據或統一的結構加以表示,我們稱之爲結構化數據,如數字、符號。傳統的關係數據模型、行數據,存儲於數據庫,可用二維表結構表示。而結構化的數據的存儲和排列是很有規律的,這對查詢和修改等操作很有幫助。

然後我們說一下半結構化數據,半結構化數據是結構化數據的一種形式,它並不符合關係型數據庫或其他數據表的形式關聯起來的數據模型結構,但包含相關標記,用來分隔語義元素以及對記錄和字段進行分層。因此,它也被稱爲自描述的結構。半結構化數據,屬於同一類實體可以有不同的屬性,即使他們被組合在一起,這些屬性的順序並不重要。所謂半結構化數據,就是介於完全結構化數據和完全無結構的數據之間的數據,XML、HTML文檔就屬於半結構化數據。它一般是自描述的,數據的結構和內容混在一起,沒有明顯的區分。而不同的半結構化數據的屬性的個數是不一定一樣的。有些人說半結構化數據是以樹或者圖的數據結構存儲的數據,怎麼理解呢?

最後我們給大家介紹一下非結構化數據,非結構化數據顧名思義,就是沒有固定結構的數據。各種文檔、圖片、視頻、音頻等都屬於非結構化數據。對於這類數據,我們一般直接整體進行存儲,而且一般存儲爲二進制的數據格式。非結構化數據庫是指其字段長度可變,並且每個字段的記錄又可以由可重複或不可重複的子字段構成的數據庫,用它不僅可以處理結構化數據而且更適合處理非結構化數據。

在這篇文章中我們簡單地給大家介紹了結構化數據、非結構化數據以及半結構化數據的知識,其實現在很多的數據分析師都開始加大對非結構化數據的研究。由此可見,非結構化數據的前景還是十分明朗的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章