非結構化信息(數據)總結

非結構化信息 指信息的形式相對不固定,常常是各種格式的文件。它是相對結構化信息而言的,從宏觀上看也是結構化信息的一種形式。諸如電子文檔、電子郵件、網頁、視頻文件、多媒體等。
對於來源繁多的信息資料,專業人士根據信息的格式加以劃分,將其分爲結構化信息和非結構化信息兩大類。
結構化信息是可以數字化的數據信息,可以方便地通過計算機和數據庫技術進行管理。無法完全數字化的信息稱爲非結構化信息,如文檔文件、圖片、圖紙資料 、縮微膠片等。這些資源中擁有大量的有價值的信息。這類非結構化信息正以成倍的速度增長。
 
另一種定義:
結構化信息,我們通常接觸的數據庫所管理的信息,包括生產、業務、交易、客戶信息等方面的記錄。
非結構化信息,專業術語爲內容,所涵蓋的信息更爲廣泛,可分爲:營運內容(operationalcontent):如合約、發票、書信與採購記錄;部門內容(workgroupcontent):如文書處理、電子表格、簡報檔案與電子郵件;Web內容:如HTML與XML等格式的信息;多媒體內容(Rich MediaContent):如聲音、影片、圖形等。
90%的信息和知識在“結構化”世界之外,IT應用中還存在着一個“非結構化”的世界。對大多數企業來說,ERP等業務系統所管理的結構化數據只佔到企業全部信息和知識的10%左右,其他的90%都是數據庫難以存取到的非結構化信息和知識。來自IDC的分析顯示,雖然很多企業投資不菲建立了諸多業務支撐系統,但仍有72%的管理者認爲知識沒有在他們的組織得到重複利用,88%的人認爲他們沒有接觸到企業最佳實踐的機會。Gartner也曾預言,對非結構化信息和知識的管理將會帶來一個新IT應用潮流。
非結構化信息處理類似於上世紀70年代以前的結構化信息應用。割裂、無法進行數據互操作的應用是其主流。以人們最常用的文檔軟件來看,DOC文檔是MSWORD與WPS的專用格式,永中、中文2000等OFFICE產品廠商則各有各的“自留地”。這種情況下,由於文檔格式的束縛而使信息四分五裂,信息流無法通暢流轉,信息處理更加困難,信息資源因爲“信息流的不通暢”而喪失了其應有的巨大價值。
從非結構化到半結構化,從半結構化到結構化,從結構化到關聯數據體系,從關聯數據體系到數據挖掘,從數據挖掘到故事化呈現,從故事化呈現到決策導向。
互連網上出現的海量信息,大概分爲結構化、半結構化和非結構化三種。結構化信息如電子商務信息,信息的性質和量值的出現的位置是固定的;半結構化的信息如專業網站上的細分頻道,其標題和正文的語法相當規範,關鍵詞的範圍相當侷限;非結構化的信息如BLOG和BBS,所有內容都是不可預知的。
結構化信息和非結構化信息是IT應用的兩個世界,它們有着各自不同的應用進化特點和規律。但是,這兩個世界之間還缺少相互連接的橋樑,而這種缺失使企業中不可避免地存在“活動”、“信息和知識”的分離,其後果就是:雖然它們都在進行着“知識化”的努力,但兩個世界分離的IT應用模式,註定使其難以真正實現它們的初衷——“在最合適的時間,將最合適的信息傳送給最合適的人”。
 
 相比於交易型數據,非結構化數據(Unstructured Data)的增長速度要快很多。整理、組織並分析非結構化數據,能夠爲企業帶來更多的競爭優勢。每一個數據元素都有它的意義,儘管有些是和你不那麼相關的。在本文中,我就將解釋一些常見的非結構化數據問題。

  非結構化數據包括以下幾個類型:

  文本:在掌握了元數據結構時,機器生成的數據,如傳感器等就一定能夠進行解譯。當然,流數據中有一些字段需要更加高級的分析和發掘功能。

  交互數據:這裏指的是社交網絡中的數據,大量的業務價值隱藏其中。人們表達對人、產品的看法和觀點,並以文本字段的方式存儲。爲了自動分析這部分數據,我們需要藉助實體識別以及語義分析等技術。你需要將文本數據以實體集合的形式展現,並結合其中的關係屬性。

  圖像:圖像識別算法已經逐漸成爲了主流。此外,這些技術也會產生實體,儘管獲取關係以及輿情分析更加具有挑戰性。

  音頻:目前有許多研究是針對於解譯音頻流數據的內容,並能夠判斷說話者的情緒。然後在利用文本分析技術對這部分數據進行分析。

  視頻:毫無疑問,視頻是最具挑戰性的數據類型。圖像識別技術可以對每一幀圖像進行抽取,當然,要真正做到對視頻內容進行分析還需要技術的進一步發展。而視頻中又包括音頻,可以用上述的技術進行解譯。

  根據上述內容,我們需要一些新的數據處理與分析功能,來獲得這些數據類型的價值,下面就是其中一部分技術:

  動態元數據發現:該技術主要針對文本數據,它能夠動態地將元數據從結果集中抽取出來,比如新的REST結束點。在持續基礎上維護和控制元數據。在運行時間,從大量可用選項中,選擇適當的最佳匹配的元數據集。

  分類設置:你需要能夠針對其他分析層捕獲並表現你的業務及其實體,以對輸入的數據進行註釋和參考。由於業務元素的加入,這一分類將變得更加普遍。

  實體提取和語義分析:它能夠將分類利用到任何數據流當中,並將數據流中表達的實體和關係進行提取。這種分析可以存儲在一個關係型數據庫當中,也可以以圖表的形式進行存儲。

  多媒體識別技術:如上述所言,進行非結構化數據分析,我們就需要各種解譯圖片、音頻視頻的技術。

 

其層級如下所示:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章