原创 聚類算法-K-means

**********************K-means算法**************************** 步驟: 1.從訓練數據中隨機選取k個初始點,作爲k個初始簇的中心點 2.計算每個點到中心點的歐式距離,將其歸併到距離最

原创 支持向量機SVM(生)

*********************支持向量機的通俗解釋************************ 支持向量機是用來解決分類問題的。 先考慮最簡單的情況,豌豆和米粒,用曬子很快可以分開,小顆粒漏下去,大顆粒保留。 用一個

原创 關聯規則算法-Aprior

數據挖掘是一個比較龐大的領域,它包括數據預處理(清洗去噪)、數據倉庫、分類聚類、關聯分析等。關聯分析可以算是數據挖掘最貼近我們生活的一部分了,打開卓越亞馬遜,當挑選一本《Android4高級編程》時,它會不失時機的列出你可能還會感興趣的書

原创 用隨機森林做特徵選擇

關於隨機森林的介紹,可見本博客中http://blog.csdn.net/u014755493/article/details/70168009 首先提出兩個指標,特徵重要性和分類精確度。 一.特徵重要性 對於隨機森林中的一顆決策樹,其訓

原创 常見損失函數

轉自:http://blog.csdn.net/shenxiaoming77/article/details/51614601 損失函數(loss function)是用來估量你模型的預測值f(x)與真實值Y的不一致程度,它是一個非負

原创 大數定律

什麼是大數定律   大數定律是指在隨機試驗中,每次出現的結果不同,但是大量重複試驗出現的結果的平均值卻幾乎總是接近於某個確定的值。   其原因是,在大量的觀察試驗中,個別的、偶然的因素影響而產生的差異將會相互抵消,從而使現象的必

原创 中心極限定理以及其和大數定律的區別

一.中心極限定理 下圖形象的說明了中心極限定理 當樣本量N逐漸趨於無窮大時,N個抽樣樣本的均值的頻數逐漸趨於正態分佈,其對原總體的分佈不做任何要求,意味着無論總體是什麼分佈,其抽樣樣本的均值的頻數的分佈都隨着抽樣數的增多而趨於正態分佈,

原创 zsore和經驗法則(統計學原理)

正態分佈:z score和經驗法則 其中以對稱的μ爲中心,±σ範圍的概率是68.3%。也就是說z=(x-μ)/σ在範圍(-1,1)內,概率爲68.3%。 也就是說z在範圍(-1,1)內,概率爲68.3%。 所謂的經驗法則(Em

原创 機器學習特徵選擇方法

有一句話這麼說,特徵決定上限,模型逼近上限。特徵選擇對後面的模型訓練很重要,選擇合適重要的特徵,對問題求解尤爲重要,下面介紹一些常見的特徵選擇方法。 通常來說,從兩個方面考慮來選擇特徵: 特徵是否發散:如果一個特徵不發散,例如方差接近

原创 層次聚類算法

層次聚類的基本概念 層次聚類方法是古老而且常用的聚類方法。層次聚類方法又有兩種產生層次聚類的基本方法。凝聚的:該方法是自底向上的方法,初始每個對象看做一個簇,每一步合併最相近的簇,最終形成一個簇。分類的:該方法是自頂向下的方法,從包含的所

原创 python-字典get方法

字典是Python中常用的數據結構,get()方法可用來判斷字典中是否存在對應的key,但是當該key的對應value爲0時,使用該方法來判斷key是否存在容易出錯。  get()方法使用如下: mydict.get(1) #假如字典

原创 機器學習&數據挖掘精華集錦

原文地址:http://www.cnblogs.com/tornadomeet/p/3395593.html 樸素貝葉斯:   有以下幾個地方需要注意:   1. 如果給出的特徵向量長度可能不同,這是需要歸一化爲通長度的向量(這

原创 SQL-內外連接

在查詢多個表時,我們經常會用“連接查詢”。連接是關係數據庫模型的主要特點,也是它區別於其它類型數據庫管理系統的一個標誌。    什麼是連接查詢呢?        概念:根據兩個表或多個表的列之間的關係,從這些表中查詢數據。  

原创 python-列表分割

①list[a::b] 從list列表下標a起取值,每次加b在取值,直到大於或等於list長度減1 list1 = ['x',1,'y',2,'z',3] print list1[::2] 輸出:['x','y','z'] list

原创 17個新手常見的python運行錯誤

轉自:https://www.oschina.net/question/89964_62779