原创 KNN算法(K近鄰學習)

KNN算法 鄰近算法,或者說K最近鄰(kNN,k-NearestNeighbor)分類算法是數據挖掘分類技術中最簡單的方法之一。 所謂K最近鄰,就是k個最近的鄰居的意思,說的是每個樣本都可以用它最接近的k個鄰居來代表。 Cov

原创 GAN網絡(Generative Adversarial Networks )

要理解生成對抗模型(GAN),首先要知道生成對抗模型拆開來是兩個東西:一個是判別模型,一個是生成模型。 兩個例子: 兩個人比賽,看是 A 的矛厲害,還是 B 的盾厲害。比如,我們有一些真實數據,同時也有一把亂七八糟的假數據。A

原创 三支決策與三支聚類

文章目錄三支決策1. 三支決策發展2. 對象和簇關係2.1 怎麼確定關係3. 三支聚類分析3.1 符號含義3.2 三支聚類表示3.3 三支聚類區域關係3.4 三支聚類定義方案3.5 聚類簇的表示3.6 三支軟聚類條件4.

原创 決策粗糙集

文章目錄寫在前面決策粗糙集1 決策粗糙集的引入2. Pawlaw經典粗糙集回顧3. 決策粗糙集3.1 問題引入3.2 基本理論3.3 待解決的問題4. 問題處理4.1 閾值$\beta$ 和 $\alpha$ 的解釋和計算(貝葉斯

原创 數據挖掘引入:基礎知識

好多的數據 全球每天都在產生數以兆兆的數據,每個人的行爲都會產生數據;數據的爆炸式增長並且廣泛可用讓我們真正進入數據時代。 普通人面對這數據海洋就是束手無策+一臉懵逼(我是誰?我從哪兒來?我要去哪兒?)。但是在這數據海洋中有着無

原创 粗糙集理論

文章目錄寫在前面粗糙集1 . 粗糙集相關概念2 . 概念、可定義集2.1 信息表2.2 決策邏輯語言 $\mathbb{L}$2.3 可定義集 的 形式化定義定義一(子集可定義):2.4 等價關係E(A)| 不可分辨關係3 . 近

原创 條件信息熵的決策表約簡

條件信息熵的決策表約簡 文章目錄條件信息熵的決策表約簡寫在前面信息論觀點描述定義1:P,Q 概率分佈定義2:熵 H( P ) 定義定義3:條件熵`H(Q|P)`定義定理1:條件熵`H(Q|P)`計算定理2:不可分辨關係和熵定理3:

原创 數據對象、屬性和相似性

文章目錄數據對象、屬性和相似性數據對象屬性屬性類型數據對象相似性、相異性 數據對象、屬性和相似性 數據對象 別名:樣本、實例、數據點 或 對象 一般使用屬性對應屬性值來描述數據對象 哈士奇:傻、大、黑白、撕家 屬性

原创 信息論在機器學習中的常見概念

文章目錄信息論在機器學習中的常見概念1. 信息量2. 熵3. 聯合熵4. 條件熵5. 相對熵6. 互信息7. 信息增益公式與推導 信息論在機器學習中的常見概念 信息的不確定度表示。 1. 信息量 定義:消除事件不確定性所需的信息量

原创 數據倉庫、OLAP和數據立方體

文章目錄數據倉庫、OLAP和數據立方體1. 數據倉庫1.1. 數據倉庫定義1.2. 關鍵術語解釋2. 數據倉庫和數據庫的區別3. OLAP3.1. 基本概念1) 維2)操作3.2. OLAP分類4. 數據立方體4.1. 維災難

原创 C++ 內存問題

介紹 在C++中,內存分成5個區,他們分別是堆、棧、自由存儲區、全局/靜態存儲區和常量存儲區。   棧: 在執行函數時,函數內局部變量的存儲單元都可以在棧上創建,函數執行結束時這些存儲單元自動被釋放。棧內存分配運算內置於處理器的

原创 C++的STL標準模板庫思維導圖

STL標準模板庫思維導圖 C++ 語言的核心優勢之一就是便於軟件的重用。C++ 中有兩個方面體現重用: 一是面向對象的繼承和多態機制; 二是通過模板的概念實現了對泛型程序設計的支持。 C++ 的標準模板庫(Standard Te

原创 數據挖掘–聚類思維導圖

數據挖掘–聚類思維導圖 資源文件:請稍後

原创 數據挖掘-樸素貝葉斯分類

數據挖掘-樸素貝葉斯分類 什麼是分類? 分類是一種重要的數據分析形式,它提取刻畫重要數據類的模型。這種模型稱爲分類器,預測分類的(離散的,無序的)類標號。例如醫生對病人進行診斷是一個典型的分類過程,醫生不是一眼就看出病人得了哪種

原创 頻繁模式增長Frequent-Pattern Growth(FP-Growth)

頻繁模式增長Frequent-Pattern Growth(FP-Growth) 由於Apriori算法的兩大缺陷: 大量候選集問題 多次訪問數據庫 FP-Growth特點: 將代表頻繁項集的數據庫壓縮成一棵頻繁模式樹 無候