什麼是信息集成(Information Integration)

wikipedia上面關於information integration的說明實在是不敢恭維(不少我看來是錯誤的或者非常片面):

Information integration (II) (also called information fusion , deduplication and referential integrity ) is the merging of information from disparate sources with differing conceptual, contextual and typographical representations. It is used in data mining and consolidation of data from unstructured or semi-structured resources. Typically, information integration refers to textual representations of knowledge but is sometimes applied to rich media content.

Among the technologies available to integrate information are string metrics that allow detection of similar text in different data sources by fuzzy matching .

信息集成,個人覺得還沒有成爲一門成熟的學科,所以並沒有嚴格的定義、方法、體系。下面都是我個人的一些看法了:

要集成,首先要明確目的,最終應該是形成一個knowledge base吧,將heterogeneous的信息整合(integrate)而不是收集(collect)到一起。其中heterogeneous是關鍵,也是最挑戰的地方。

其次信息存儲是否結構化 database -> XML -> ontology。這裏面最成熟的應該是數據庫級別的集成了,典型的解決方案就是data warehouse。但是數據倉庫裏面的集成需要很多認爲參與制定集成的規則,自動化程度很低,比如ETL的過程。

要集成,信息的mapping或者matching是核心。這就是最新很火的research topics: schema matching和ontology matching。

 

待續

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章