數據挖掘邏輯體系結構的內容類型有哪些

在 Microsoft SQL Server Analysis Services 中,可以定義挖掘結構中各列的數據類型,以便影響創建挖掘模型時算法對這些列中數據的處理方式。不過,定義列數據類型只向算法提供有關列中數據的類型的信息,而不提供有關該數據的行爲的信息。因此,Analysis Services 中的每個數據類型都支持一種或多種數據挖掘內容類型,可以使用這些內容類型來說明列包含的內容的行爲。例如,如果列內容以特定的間隔(如一週中的某幾天)重複,則可以將該列的內容類型指定爲循環。

  有些算法要求提供特定的數據類型和內容類型才能正常工作。例如,Microsoft Naive Bayespdf 算法的輸入不能爲連續列,並且不能預測連續值。某些內容類型(如 Key Sequence)只能由特定算法使用。有關算法以及每種算法所支持的內容類型的列表,請參閱數據挖掘算法(Analysis Services – 數據挖掘)。

  下表介紹了數據挖掘中使用的內容類型,並標識了支持每種類型的數據類型。

  Discrete
  離散意味着列包含數值之間沒有連續體的有限數量的數值。例如,性別列是一個典型的離散屬性列,這是因爲該數據表示特定數量的類別。

  離散屬性列中的值不能意味着排序,即使這些值爲數值也是如此。此外,即使用於離散列的值爲數值,也無法計算小數值。電話區號即爲數值離散數據的典型示例。

  所有數據挖掘數據類型均支持 Discrete 內容類型。

  Continuous
此列包含的值表示某一允許中間值的範圍中的數值數據。與表示有限、可數數據的離散列不同,連續列表示可縮放度量,且數據可能包含無限數目的小數值。溫度列即爲連續屬性列的示例。

  以下數據類型支持 Continuous 內容類型:Date、Double 和 Long。

  Discretized
  該列包含表示組或存儲桶的值,這些值屬於從連續列派生的值。存儲桶被視爲有序的離散值。

  離散化是將一組連續數據的值放入存儲桶的過程,以便得到有限數目的可能值。只能離散數值數據。

  您可以手動離散數據,以確保獲取所需的存儲桶,還可以使用 SQL Server Analysis Services 中提供的離散方法。某些算法自動執行離散。有關詳細信息,請參閱如何更改挖掘模型中列的離散化。

  以下數據類型支持 Discretized 內容類型:Date、Double、Long 和 Text。

  Key
  該列唯一地標識一行。在事例表中,鍵列通常爲數值或文本標識符。將內容類型設置爲 key 可指示該列不應用於分析,而僅應用於跟蹤記錄。

  嵌套表也有鍵,但嵌套表鍵的用法稍有不同。如果某列是您需要分析的屬性,則在嵌套表中將內容類型設置爲 key。嵌套表鍵的值對於每個事例來說都必須唯一,但在整個事例集中可以重複。

  例如,如果分析的是客戶購買的產品,則可以對於事例表中 CustomerID 列將內容類型設置爲鍵,然後對於嵌套表中 PurchasedProducts 列再次將內容類型設置爲鍵。

  注意:
  只有在使用已被定義爲 Analysis Services 數據源視圖的外部數據源中的數據時,嵌套表纔可用。
 
  以下數據類型支持此內容類型:Date、Double、Long 和 Text。

  Key Sequence
  將內容類型設置爲 key sequence 時,它指示列包含表示一個事件序列的值。這些值是有序值,但不必按等差排列。

  以下數據類型支持此內容類型:Double、Long、Text 和 Date。

  Key Time
  將內容類型設置爲 key time 時,它指示兩件事情:第一,值按順序排列並表示時間刻度。第二,模型必須爲時序模型或順序分析和聚類分析模型。只有在這些模型中,您纔可以將列指定爲鍵時間。

  以下數據類型支持此內容類型:Double、Long 和 Date。

  Table
  嵌套表爲列的一種特殊類型,它包含另外一個數據表,該數據表中有一列或多列和一行或多行。對於事例表中的任意特定行,此列可以包含多個值,所有的值均與父事例記錄相關。例如,如果主事例表包含一個客戶列表,則可能有多個包含嵌套表的列,例如,ProductsPurchased 列,嵌套表在該列中列出了此客戶過去購買的產品,Hobbies 列出了該客戶的興趣。

  此列的數據類型始終爲 Table。

  Cyclical pdf
  該列包含表示循環有序集的值。例如,一週內順序編號的七天便是循環有序集,因爲第一天緊跟第七天。

  循環列就內容類型而言既有序又離散。

  Analysis Services 中所有的數據挖掘數據類型都支持此內容類型。但是,大多數算法將循環值視爲離散值,不會進行特殊處理。

  Orderedpdf 
  Ordered 內容類型定義了序列或順序;但是,用於排序的值並不表示該集中值之間的任何差或量級關係。例如,如果有序屬性列包含按照等級順序從一到五排列的有關技術等級的信息,則技術等級之間的差並不包含什麼暗示信息;技術等級五不一定比技術等級一好五倍。

  有序屬性列就內容類型而言是離散的。

  Analysis Services 中所有的數據挖掘數據類型都支持此內容類型。但是,大多數算法會將已排序值視爲離散值,不會進行特殊處理。

  Classified
  除了前面列出的可通用於所有模型的內容類型以外,對於某些數據類型,還可以使用已分類列定義內容類型。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章