(轉)Python 數據挖掘 工具包整理

連接器與io

數據庫

類別 Python R
MySQL mysql-connector-python(官方) RMySQL
Oracle cx_Oracle ROracle
MongoDB pymongo RMongo, rmongodb
ODBC pyodbc RODBC

IO類

類別 Python R
excel xlsxWriter, pandas.(from/to)_excel, openpyxl openxlsx::read.xlsx(2), xlsx::read.xlsx(2)
csv csv.writer read.csv(2), read.table
json json jsonlite
圖片 PIL jpeg, png, tiff, bmp

統計類

描述性統計

類別 Python R
描述性統計彙總 scipy.stats.descirbe summary
均值 scipy.stats.gmean(幾何平均數), scipy.stats.hmean(調和平均數), numpy.mean, numpy.nanmean, pandas.Series.mean mean
中位數 numpy.median, numpy.nanmediam, pandas.Series.median median
衆數 scipy.stats.mode, pandas.Series.mode 未知
分位數 numpy.percentile, numpy.nanpercentile, pandas.Series.quantile quantile
標準差 scipy.stats.std, scipy.stats.nanstd, numpy.std, pandas.Series.std sd
方差 numpy.var, pandas.Series.var var
變異係數 scipy.stats.variation 未知
協方差 numpy.cov, pandas.Series.cov cov
(Pearson)相關係數 scipy.stats.pearsonr, numpy.corrcoef, pandas.Series.corr cor
峯度 scipy.stats.kurtosis, pandas.Series.kurt e1071::kurtosis
偏度 scipy.stats.skew, pandas.Series.skew e1071::skewness
直方圖 numpy.histogram, numpy.histogram2d, numpy.histogramdd 未知

迴歸

類別 Python R
普通最小二乘法迴歸(ols) statsmodels.ols, sklearn.linear_model.LinearRegression lm,
廣義線性迴歸(gls) statsmodels.gls nlme::gls, MASS::gls

假設檢驗

類別 Python R
t檢驗 statsmodels.stats.ttest_ind, statsmodels.stats.ttost_ind, statsmodels.stats.ttost.paired; scipy.stats.ttest_1samp, scipy.stats.ttest_ind, scipy.stats.ttest_ind_from_stats, scipy.stats.ttest_rel t.test
Pearson相關係數檢驗 scipy.stats.pearsonr cor.test

時間序列

類別 Python R
AR statsmodels.ar_model.AR ar
ARIMA statsmodels.arima_model.arima arima
VAR statsmodels.var_model.var 未知

SVM(支持向量機)

類別 Python R
支持向量分類器(SVC) sklearn.svm.SVC e1071::svm
非支持向量分類器(nonSVC) sklearn.svm.NuSVC 未知
線性支持向量分類器(Lenear SVC) sklearn.svm.LinearSVC 未知

基於臨近

類別 Python R
k-臨近分類器 sklearn.neighbors.KNeighborsClassifier 未知
半徑臨近分類器 sklearn.neighbors.RadiusNeighborsClassifier 未知
臨近重心分類器(Nearest Centroid Classifier) sklearn.neighbors.NearestCentroid 未知

貝葉斯

類別 Python R
樸素貝葉斯 sklearn.naive_bayes.GaussianNB e1071::naiveBayes
多維貝葉斯(Multinomial Naive Bayes) sklearn.naive_bayes.MultinomialNB 未知
伯努利貝葉斯(Bernoulli Naive Bayes) sklearn.naive_bayes.BernoulliNB 未知

決策樹

類別 Python R
決策樹分類器 sklearn.tree.DecisionTreeClassifier tree::tree, party::ctree
決策樹迴歸器 sklearn.tree.DecisionTreeRegressor tree::tree, party::tree
隨機森林分類器 sklearn.ensemble.RandomForestClassifier randomForest::randomForest, party::cforest
隨機森林迴歸器 sklearn.ensemble.RandomForestRegressor randomForest::randomForest, party::cforest

聚類

類別 Python R
kmeans scipy.cluster.kmeans.kmeans kmeans::kmeans
分層聚類 scipy.cluster.hierarchy.fcluster (stats::)hclust

關聯規則

類別 Python R
apriori算法 apriori(可靠性未知,不支持py3), PyFIM(可靠性未知,不可用pip安裝) arules::apriori
FP-Growth算法 fp-growth(可靠性未知,不支持py3), PyFIM(可靠性未知,不可用pip安裝) 未知

神經網絡

類別 Python R
神經網絡 neurolab.net, keras.* nnet::nnet, nueralnet::nueralnet
深度學習 keras.* 不可靠包居多以及未知

文本基本操作

 

 

類別

Python R
tokenize nltk.tokenize(英), jieba.tokenize(中) tau::tokenize
stem nltk.stem RTextTools::wordStem, SnowballC::wordStem
stopwords stop_words.get_stop_words tm::stopwords, qdap::stopwords
中文分詞 jieba.cut, smallseg, Yaha, finalseg, genius jiebaR
TFIDF gensim.models.TfidfModel 未知

 

本文來源:Python 數據挖掘 工具包整理

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章