原创 貝葉斯網絡--概率推理

一、概述 貝葉斯網絡是用來表示變量間連接概率的圖形模式,它提供了一種自然的表示因果信息的方法,用來發現數據間的潛在關係。在這個網絡中,用節點表示變量,有向邊表示變量的依賴關係。 貝葉斯方法以其獨特的不確定性知識表達形式、豐富的

原创 讀書筆記 -- 006_數據挖掘_聚類_概念知識

概論 聚類是把數據對象集劃分成多個組或簇的過程,使得簇內的對象具有很高的相似性,但是與其他簇中的對象很不相似。相異性和相似性根據描述對象的屬性值評估,並且通常涉及距離度量。聚類作爲一種數據挖掘工具已經根植於許多應用領域,如生物學

原创 讀書筆記 -- 008_數據挖掘_聚類_基於層次的方法

概述 儘管基於劃分的聚類算法滿足把對象劃分成一些互斥的組羣的基本聚類要求,但是在某些情況下,我們希望把數據劃分成不同層次的組羣,如層次。層次聚類方法(hierarchical clustering method)將數據對象組成層

原创 機器學習 --- 入門

計劃 : ------------------------------------------------------------------------------------------------------------------

原创 Hash表算法

作者:July、wuliming、pkuoliver  轉載於從頭到尾徹底解析Hash表算法這篇文章   說明:本文分爲三部分內容, 第一部分爲一道百度面試題Top K算法的詳解;第二部分爲關於Hash表算法的詳細闡述;第三部分爲打造

原创 相似性度量總結

整理自 《機器學習中的相似性度量》 、 《餘弦距離、歐氏距離和傑卡德相似性度量的對比分析》 在做分類時常常需要估算不同樣本之間的相似性度量(Similarity Measurement),這時通常採用的方法就是計算樣本間的

原创 讀書筆記 -- 003_數據預處理_數據歸約

概述 數據歸約(data reduction)技術可以用來得到數據集的歸約表示,它小得多,但是保持原始數據的完整性。也就是說,在歸約後的數據集上挖掘更有效果,仍然產生相同( 或幾乎形同)的分析結果。注意:用於數據歸約的時間

原创 讀書筆記 -- 007_數據挖掘_聚類_基於劃分的方法

- - 概述 - - 聚類分析最簡單、最基本的版本是劃分,它把對象組織成多個互斥的組或簇。爲了使得問題說明簡潔,我們假定簇的個數作爲背景知識給定。這個參數是劃分方法的起點。 形式地,給定 n 個數據對象的數據集 D,以及要生成的

原创 讀書筆記 -- 004_數據預處理_數據規範化

概述 所用的度量單位可能影響數據分析。例如,把height的度量單位從米制換成英寸,把weight的度量單位從公斤換成磅,可能導致的結果不一樣。一般而言,用較小的單位表示屬性將導致該屬性具有較大的值域,因此趨向於使這樣的屬

原创 NumPy學習 -- 001_數組

#-*- coding: UTF-8 -*- ''' ################################################# # Author : 烤魚想睡覺 # Date : Dec 14,

原创 讀書筆記 -- 001_數據預處理_數據清理

1、概述 實際的數據庫極易受噪聲、缺失值和不一致數據的侵擾,因爲數據庫太大,並且多半來自多個異種數據源。低質量的數據將會導致低質量的挖掘結果。有大量的數據預處理技術: - - 數據清理:可以用來清楚數據中的噪聲,糾正不一致

原创 讀書筆記 -- 005_數據挖掘_度量數據的相似性和相異性

1、概述 相似性和相異性都成爲鄰近性(Proximity)。相似性和相異性是有關聯的。典型地,如果兩個對象i和j不相似,則他們的相似性度量將返回0。 2、數據矩陣和相異性矩陣 假設我們有n個對象,每個對象由p個屬性進行刻畫。那

原创 讀書筆記 -- 002_數據預處理_數據集成

概述 數據挖掘經常需要數據集成 – 合併來自多個數據源的數據。小心集成有助於減少結果數據集的冗餘和不一致。這有助於提高其後數據挖掘的準確性和速度。 1、實體識別問題 數據分析多半涉及數據集成。數據集成將多個數據源中的數

原创 讀書筆記 -- 011_數據挖掘_頻繁模式_關聯性_相關性_1

概念 頻繁模式(frequent pattern):是頻繁地出現在數據集中的模式(如項集、子序列或子結構)。頻繁模式挖掘搜索給定數據集中反覆出現的聯繫。 支持度(support)和置信度(confidence)是關聯規則的兩種

原创 詞語在文檔中的重要性 -- TF-IDF算法

1、  對於一個單詞來說,文檔向量中的一個維度就是該文檔中的一個單詞,其值就是該詞在文檔中出現的次數。這稱之爲TF(Term Frequency)權重。 2、   設一個文檔中的單詞的集合爲:WD = {w1, w2, w3 ….. w