OLE DB for Data Mining中的基本概念

OLE DB for Data Mining 爲一系列的數據挖掘對象定義了通用的概念。下面分別來介紹這些概念。

實例(Case)

數據挖掘是用來分析實例的一個實例是一個基本的信息實體。它包括一系列的屬性,比如性別和年齡。屬性也可以叫做統計學中的變量。一個屬性可能有一系列的值,稱爲狀態。例如,性別屬性有2種狀態:男和女。

       一個實例可能是簡單的。例如,當你用客戶的統計信息分析客戶的貸款風險時,一個實例就是一個客戶。它與客戶表中的一行相當。

       一個實例也可能是複雜的。例如,當你基於客戶的歷史購買信息分析購買行爲時,一個實例就是一個帶有購買商品列表的客戶。這種實例叫做嵌套實例。一個嵌套實例至少包括一個表。下圖顯示了幾個客戶以及歷史購買信息的嵌套實例。

      

 

OLE DB for Data Mining,數據挖掘算法提供了消費實例。如果一個實例是嵌套實例,數據挖掘算法要求輸入帶等級行集格式的實例

 

注意:在OLE DB for Data Mining中,嵌套實例概念的提出是極其重要的。它能處理複雜的一對多的關係。它爲模型建立增加了許多功能。如果沒有嵌套實例的概念,你就得在數據轉換階段,將要嵌套的實例作爲實例的屬性。這是一個具有挑戰性的工作。因爲大部分關係型數據庫對錶中列的數量有限制,如果你的實例中有很多不同的產品,很難轉換整個購買表。

 

實例鍵(The Case Key)

       實例鍵是實例的屬性,是實例的唯一標誌符。一個實例鍵通常是關係表的主鍵。有時候實例鍵是組合實例鍵。例如,姓和名一起被作爲實例鍵。

 

嵌套鍵(The Nested Key)

       儘管實例鍵可以認爲關係中的主鍵,但嵌套鍵並不等同於關係中的外鍵。實例鍵僅僅是標誌符,不包括任何模式,然而嵌套鍵是嵌套實例的一個重要屬性。嵌套實例的其他屬性都是用來描述嵌套鍵的。例如,設計一個模型描述客戶購買行爲的模式,嵌套鍵是產品。數量描述產品的購買。嵌套鍵並不是一個標誌符,它包括了模式的有用信息。例如,我們用產品這個嵌套鍵作爲輸入,可以預測實例的性別屬性。

實例表和嵌套表(Case Tables and Nested Tables

       實例表包含實例的直屬信息。嵌套表包含實例的嵌套信息。嵌套表通常是事務表,比如客戶的歷史購買記錄。嵌套表通過實例鍵與實例表連接。爲了連接實例表與嵌套表,形成了分等級的行集,因此OLE DB定義了操作符shape。以後的章節將介紹操作符shape的語法。

 

       提示:對於熟悉數據倉庫和olap的人來說,實例表通常是維表,而嵌套表是事實表。

 

標量列和表列(Scalar Columns and Table Columns

       挖掘模型中的列與關係表中的列類似;統計術語中也叫做變量或者屬性。按照用法挖掘模型中的列有4種:鍵列,輸入列,預測列,輸入和預測列。預測列是挖掘模型的目的。大部分挖掘模型使用輸入列來預測輸出列。一些算法中,比如聚類,不需要有預測列。在這種情況下,挖掘模型可能僅僅包含輸入列。

有兩種列結構:標量和表。大部分列都是標量列。一條記錄中每個標量列是單一的值。例如,性別和年齡都是標量列。表列是特殊的列。一個表列嵌入了一個表。例如,購買列就是一個表列,它存儲了每個客戶的購買信息。它包括表中的兩列:產品和數量。OLE DB 有個概念是分等級的行集。行集的直屬部分是標量列,分等級的部分是表列。

數據挖掘模型

一個數據挖掘模型或者說挖掘模型,可以看作關係型的表。它包括關鍵列,輸入列和預測列。每個模型都與相應的挖掘算法相關聯。訓練挖掘模型就是用指定的帶有合適參數的挖掘算法,發現訓練數據集中的模式。訓練後,被發現的模式存儲到挖掘模型中。就像關係型表包含一系列的記錄,一個數據挖掘模型中包含一系列的模式。

 

模型創建

模型創建就是創建一個空的挖掘模型,這個概念與創建表的含義相似。

模型訓練

模型訓練也叫模型處理. 它調用數據挖掘算法發掘訓練數據集中的知識。訓練後,模式被存儲到挖掘模型中。

模型預測

模型預測是用已經訓練過的挖掘模型的模式匹配新數據集,並且預測每個實例可預測列的值。

 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章