原创 分類聚類區別及聚類概述

在初學分類聚類時,對這兩個概念不是很瞭解。隨着深入的瞭解,現有了一些基本的認識。現對聚類進行個人理解上的總結,歡迎大家批評指正。 一、分類和聚類的區別 分類和聚類的概念是比較容易混淆的。 對於分類來說,在對數據集分類時,我們是知道這個數

原创 樸素貝葉斯原理及python實現

一、貝葉斯算法引入       樸素貝葉斯算法是基於貝葉斯定理和特徵條件獨立假設的分類法,是一種基於概率分佈的分類算法。       貝葉斯分類算法,通俗的來講,在給定數據集的前提下,對於一個新樣本(未分類),在數據集中找到和新樣本特徵相

原创 相關性檢驗之Pearson係數及python實現

一、Pearson相關係數 皮爾森相關係數是用來反應倆變量之間相似程度的統計量,在機器學習中可以用來計算特徵與類別間的相似度,即可判斷所提取到的特徵和類別是正相關、負相關還是沒有相關程度。 Pearson係數的取值範圍爲[-1,1],當

原创 python實現數據離散化

數據挖掘中有些算法,特別是分類算法,只能在離散型數據上進行分析,然而大部分數據集常常是連續值和離散值並存的。因此,爲了使這類算法發揮作用,需要對數據集中連續型屬性進行離散化操作。 那麼,如何對連續型屬性離散化呢?常見的有等寬分箱法,等頻分

原创 Ubuntu16.04完全離線安裝mysql

申明:本博客的行文思路和大致內容轉載自http://www.cnblogs.com/JasonTech0713/p/6690949.html  與轉載博客的區別在於,本博客屬於在完全無網絡下安裝及配置mysql,包括依賴包的安裝和相關包的

原创 數據結構之單鏈表及python實現

      線性表的鏈式存儲又稱爲單鏈表,特色指通過一組任意存儲單元來存儲線性表種的數據元素,爲數據元素之間建立起線性關係。每個元素間邏輯上相鄰,物理位置不相鄰。       鏈式存儲優點在於插入刪除,缺點查找速度慢,以下是鏈式表的pyt

原创 從基礎出發:統計學習方法三要素

統計學習方法,初聽起來感覺很陌生,到底什麼是統計學習方法,怎麼去理解?李航老師版的《統計學習方法》給了詳細的解釋,以下是我的理解,如理解有偏差,還望指教。 統計學習方法由三個要素構成,即 模型 、策略和算法。 模型是來確定一個假設

原创 數據預處理之異常值處理

定義: 異常值,即在數據集中存在不合理的值,又稱離羣點。比如年齡爲-1,筆記本電腦重量爲1噸等,都屬於異常值的範圍。從集合角度來看,異常值即離羣點,如下圖所示: 判別方法: 1.簡單統計分析 對屬性值進行一個描述性的統計,從而查看哪些值

原创 淺談感知機算法

感知機是一種二分類算法,其輸入的實例爲一特徵向量,輸出的實例的實例類別只有+1,-1兩個值。 感知機屬於線性分類模型,是判別模型的一種。其原理是,通過訓練集求出一個分離超平面,將正負樣本進行分離。 談到超平面,我們自然地就想到了到這個

原创 python實現二叉樹及插入,遍歷操作

coding:utf-8 ”’ author:xzfreewind ”’ 構建二叉樹的樹形結構 class TreeNode(object): def init(self,value,left=None,right=None

原创 用python寫入和查詢mysql及注意事項

      python的mysql操作參照  python操作mysql數據庫  ,python對mysql的操作基本都可以在教程中學會,由於初次用python使用mysql,經歷了一些坑,爲了警醒自己和幫助小白少走彎路,在博客中記錄

原创 數據挖掘之建模過程

研一的時候跟着實驗室師兄做各種論文實驗,如有特徵選擇及穩定性分析、遷移學習、標籤推薦等,那時候只知道我在做一個叫“數據挖掘”這一個大類的東西,但因爲做的東西太零碎,無法對數據挖掘有一個整體的認識。隨着“閱歷”的增長,漸漸的對數據挖掘有了一

原创 Ubuntu16.04 微信網頁版安裝

1.從github上下載微信版本,網址: https://github.com/geeeeeeeeek/electronic-wechat/releases 2.我下載的版本是v2.0 linux-x64.tar.gz,下載並解壓,

原创 數據預處理之數據標準化

數據標準化的意義 在對數據集建模前,常常要對數據的某一特徵或幾個特徵進行規範化處理,其目的在於將特徵值歸一到同一個維度,消除比重不平衡的問題。 常用的標準化方法有 最大-最小標準化、零-均值標準化 和 小數定標標準化。 最大-最小標準化

原创 用python實現文件夾文件讀取及刪除操作

python可以通過os包對文件進行操作。以下代碼分別實現一文件夾下所有文件名的讀取和文件刪除操作 import os #讀取path目錄下的文件名,返回文件名list列表 def readFileName(path): list