原创 Linux環境MySQL安裝命令

一、安裝前準備: 查是否已經安裝過mysql: [root@localhost /]#rpm -qa | grep mysql 若出現則刪除:mysql-libs-5.1.73-5.el6_6.x86_64 [root@localhos

原创 Linux環境Python源碼安裝命令

# wget https://www.python.org/ftp/python/3.6.1/Python-3.6.1.tgz mkdir -p /home/datamining/hnq/python361 tar -zxvf Pyt

原创 python多重規則多條件字典排序

mydict = {'b':10, 'c':10, 'a':10, 'd':20} 字典根據key排序 >>> sorted(mydict.iteritems(), key=lambda x:x[0]) [('a', 10), ('b

原创 決策樹[sklearn.tree/DecisionTreeClassifier/scatter/np.meshgrid/np.concatenate/Kfold/Cross-validation]

決策樹 概念舉栗子 import numpy as np 引入數據: s= '''在1948年,香農引入了信息熵,將其定義爲離散隨機事件出現的概率,一個系統越是有序,信息熵就越低,反之一個系統越是混亂,它的信息熵就越高。所以信息熵可以

原创 Pandas組間組內分類排序抽樣/rank/groupby/apply/sample/sort_values多種組合隨機抽數據

舉栗子 test=pd.DataFrame({'a':[1,2,3,4,5,11,22],'b':[6,7,8,9,10,12,33],'c':['x','z','y','z','x','y','z']}) 1  組間排序     組

原创 pandas統計表類別個數df.value_counts()

統計數據表裏某列的類別個數:value_counts() import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib inline

原创 詞頻統計

詞頻統計: """ @file: cipin.py @Time: 2018/11/08 @Author:hnq """ import os, codecs import jieba from collections import Co

原创 Git版本控制:Git安裝與配置

@概述 Git是GitHub開源社區的版本管理系統; 下載地址:https://git-scm.com/download/ Git的安裝:一路使用默認設置進行安裝即可,最後一步時選擇將GitBash添加到桌面和快速啓動菜單; 雙擊啓動Gi

原创 Python與MySQL的連接

封裝Python與MySQL的連接 # -*- coding: UTF-8 -*- import re import MySQLdb as mdb class MysqldbHelper(object): """操作mysql

原创 Linux命令集合

命令速查手冊地址:【更加推薦】命令手冊字典:http://man.linuxde.net/ -------Linux常用命令100條-----------------------------------------------------

原创 Linux常用工具的安裝

centos 安裝anaconda【Centos6.5下配置anaconda3】 1.確定服務器是32位的還是64位的 $ file /bin/ls 輸出爲: /bin/ls: ELF 64-bit LSB executable, x

原创 K-means[np.argwhere/圖片壓縮/kmeans.cluster_centers_]

K均值算法(K-means)聚類 【關鍵詞】K個種子,均值 一、K-means算法原理 聚類的概念:一種無監督的學習,事先不知道類別,自動將相似的對象歸到同一個簇中。 K-Means算法是一種聚類分析(cluster analysis)的

原创 SVM[sklearn.svm/SVC/SVR/拉格朗日乘子法]

支持向量機SVM(Support Vector Machine) 【關鍵詞】支持向量,最大幾何間隔,拉格朗日乘子法 一、支持向量機的原理 Support Vector Machine。支持向量機,其含義是通過支持向量運算的分類器。其中“機

原创 邏輯斯蒂迴歸分類算法[sklearn.linear_model/LogisticRegression/最大似然/梯度下降]

【關鍵詞】Logistics函數,最大似然估計,梯度下降法 1、Logistics迴歸的原理 利用Logistics迴歸進行分類的主要思想是:根據現有數據對分類邊界線建立迴歸公式,以此進行分類。這裏的“迴歸” 一詞源於最佳擬合,表示要找到

原创 【轉】分類/迴歸模型評估—ROC,AUC,RMSE等指標/調參—Grid Search

看到此篇文章內容乾貨較多,轉載過來學習。 鏈接:https://www.52ml.net/20410.html 參考:https://blog.csdn.net/shenxiaoming77/article/details/7262621