原创 數據的探索分析及處理

數據清洗與預處理的必要性 在實際數據挖掘過程中,我們拿到的初始數據,往往存在缺失值、重複值、異常值或者錯誤值,通常這類數據被稱爲“髒數據”,需要對其進行清洗。另外有時數據的原始變量不滿足分析的要求,我們需要先對數據進行一定的處理,

原创 數據挖掘——數據可視化

數據獲取 從本地讀取iris數據集,將列名命名爲:‘sepal length’, 'sepal width ', ‘petal length’,‘petal width’, ‘species’。 #數據獲取 iris_data=p

原创 毒蘑菇數據集的分類及評估

1、數據獲取 數據下載: https://archive.ics.uci.edu/ml/index.php https://sonj.me/projects/2018/09/05/poisonous-mushroom-classi

原创 數據挖掘——決策樹分類算法

算法原理 決策樹算法依據對一系列屬性取值的判定得出最終決策。在每個非葉子節點上進行一個特徵屬性的測試,每個分支表示這個特徵屬性在某個值域上的輸出,而每個葉子節點對應於最終決策結果。使用決策樹進行決策的過程就是從根節點開始,測試待分

原创 數據挖掘——關聯分析(關聯規則產生)

基礎概念 1、關聯分析(association analysis):從大規模數據集中尋找商品的隱含關係; 2、項集 (itemset):包含0個或者多個項的集合稱爲項集 3、頻繁項集:那些經常一起出現的物品集合 4、支持度計數(s

原创 數據挖掘——對鳶尾花數據進行聚類分析

算法原理 k-means算法是一種聚類算法,所謂聚類,即根據相似性原則,將具有較高相似度的數據對象劃分至同一類簇,將具有較高相異度的數據對象劃分至不同類簇。聚類與分類最大的區別在於,聚類過程爲無監督過程,即待處理數據對象沒有任何先

原创 泰坦尼克沉船數據預測及可視化分析

1、背景介紹 泰坦尼克號沉船事件發生在1912年4月。泰坦尼克號是當時世界上最大的客運輪船,首航泰坦尼克號從英國南安普敦出發,途經法國瑟堡-奧克特維爾以及愛爾蘭昆士敦,計劃中的目的地爲美國紐約。由於航行途中瞭望員沒有及時發現前方的

原创 數據挖掘——最近鄰、樸素貝葉斯方法

算法原理 1、KNN原理 KNN(K-Nearest Neighbor)在輸入沒有標籤的數據後,將新數據中的每個特徵與樣本集中數據對應的特徵進行比較,提取出樣本集中特徵最相似數據(最近鄰)的分類標籤。一般來說,我們只選擇樣本數據集

原创 數據挖掘——推薦系統(分別基於用戶和商品)

近年來,推薦系統充分應用於我們生活中,我們購物時,購物軟件會根據我們日常購物以及瀏覽信息向我們推薦系統自認爲我們需要的東西;看小視頻時,軟件會記錄我們瀏覽信息,向我們推薦我們經常瀏覽的類型等。通過這個實驗瞭解這些推薦系統的原理及實

原创 基於OpenCV的人臉識別考勤系統

考勤系統設計 學生上課考勤系統最初的方式是採用的人工紙質點名,目前仍舊有一部分學校依舊採用此種方法點名,這種方法也一直是被認爲最有效的簽到點名方式。但由於課程繁多加上學生人數衆多, 代替點名現象普遍存在, 而且傳統的現場點名簽到方

原创 Mysql中存在的錯誤

Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that uses a KEY col

原创 Zookeeper簡介、安裝以及簡單使用

Zookeeper zookeeper Zookeeper是一個開源的分佈式,爲分佈式應用提供協調服務的Apache項目 存儲和管理數據節點,一旦數據節點的狀態發生變化,zookeeper通知在zookeeper上註冊的客戶端

原创 擬合不足與過擬合

擬合不足 由於屬性預測太少,決策樹生長不足,導致訓練集和預測及的誤差均偏大。 過擬合 過擬合指訓練誤差較小,但測試集誤差較大,即模型的泛化能力差,對未知樣本預測誤差較大,形成過擬合。 形成過擬合的原因有: 缺乏代表性樣本 訓練集樣

原创 Eclipse開發環境下開發Web項目環境部署

前提:已安裝JDK,若未安裝參考https://blog.csdn.net/weixin_43333607/article/details/103934802中的JDK安裝 安裝及配置tomcat服務器 下載tomcat服務器

原创 CentOS環境下安裝MYSQL

下載並安裝MySQL官方的 Yum Repository 安裝Yum Repository wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-