一些有用的文章的集合

csdn的文章當然可以直接收藏，但是其他的一些十分有幫助或是寫的十分好的文章就沒法收藏了，然後轉載的話太麻煩了，感覺也沒必要，所以單獨開一個博文，記錄一下寫的非常好的文章，也是類似於收藏夾這樣子。

機器學習/統計

python計算spearman相關係數（同時進行顯著性檢驗）
因子分析
python package factor-analyzer 0.3.2(網上有一些這個包的信息，但是可能是改版了吧，語句會報錯，這個應該是這個包最新的信息了，這個相對於skilearn的factor analysis可以做因子旋轉)
factor analysis 教學，結合上一個鏈接中的官方信息，裏面是較老版本的，有些代碼要改改
 驗證性因子分析介紹CFA
驗證性因子分析實例介紹
（上面兩篇都是SPSSAU出的，所以很偏應用，很容易理解，小白看看很好的）

輪廓係數計算
 對一個turple組成的list進行排序（排序的key可以是turple中的一個元素）
SPSS做卡方檢驗詳細介紹
 3種t檢驗介紹
 醫咖會SPSS教學（質量很高）
醫咖會官網
 效度分析介紹
arima模型
python進行arima預測1
python進行arima預測2

啞變量是什麼以及何時需要啞變量
 離羣值、強槓桿點、強影響點
 多元迴歸是否需要歸一化操作
 穩健性檢驗
spss數據離散化
spss數據離散化具體操作方法
 SPSS數據離散化介紹和最優離散化方法
調節迴歸
SPSS帶有調節變量的分層迴歸1
SPSS帶有調節變量的分層迴歸2
自己寫的調節迴歸的博文
 調節變量的解釋
GBDT
gbdt文章介紹1（粗略介紹，可以形成一個大致的概念，裏面似乎有一些問題，我在下面評論了）
gbdt2（寫的很好，看後基本可以理解gbdt了）
gbdt算法詳解，更深入一些，可惜有些地方排版似乎出現了一些問題，只需要看最後作者自己的體會那一部分（“二. 對於GBDT的一些理解”）就可以，前面的是copy第二篇博文的
XGBOOST
看了下面這篇XGBOOST的文章，基本有個大概的瞭解，感覺xgboost主要是在優化函數上和gbdt有些不同，做了些改進，然後用了並行化，其他基本是一模一樣的。
關於xgboost，講得很不錯。裏面數學推導部分沒完全看懂，頭暈暈。
xgboost實戰，寫的非常清晰易懂，代碼寫的也很好
 xgboost實戰（我感覺沒上面那篇好，這篇不看也沒事）

推薦系統概述
特徵選擇
特徵選擇RFE方法
 特徵選擇Relief算法
博文裏有些地方沒寫清楚這裏補充下：下面圖中的N是特徵數目的意思，A是特徵，W（A）也就是特徵A的權重，diff(A,R,M)是樣本R和M在特徵A上的差值，所以該行公式的意思就是利用同類最近鄰和不同類最近鄰樣本來更新權重，同類最近鄰樣本比不同類最近鄰樣本近的話，權重增加，否則減小。

正交實驗設計
簡單接觸正交實驗設計
 很好地介紹了正交實驗設計
 如何理解空白列
 spss做正交實驗方差分析
 一篇寫的不錯的介紹文章
 我對空白列的理解

sklearn交叉驗證各種方法講得很清晰
 網格搜索法進行參數選擇
 PCA做人臉識別講得很清楚
 計算距離矩陣
 決策樹隨機森林等模型的特徵重要性繪圖
 調查問卷和量表的區別及常用的分析方法
 SEM結構方程介紹

廣義估計方程
廣義估計方程spss
醫咖會的廣義估計方程spss教學

總體均值的置信區間等於樣本均值加減估計誤差，其中的估計誤差等於所要求置信水平的臨界值乘以樣本均值的抽樣標準差。
樣本均值的抽樣標準差

工具變量及兩階段最小二乘法的介紹
順序看下面三個鏈接可以瞭解工具變量和兩階段最小二乘法是什麼，用來幹什麼。
工具變量和兩階段迴歸法
 工具變量的解釋
 二階段最小二乘法的介紹

線性迴歸和局部線性迴歸，講得很不錯

斷點回歸法介紹
《基本無害的計量經濟學》第三部分，有點點難
斷點回歸法簡單介紹，作爲概述還可以
 這個也可一看
餘靜文 ,王春超 [J]新“擬隨機實驗”方法的興起——斷點回歸及其在經濟學中的應用.2011（對這兩個方法的應用流程介紹的比較清晰了）
陳強老師的《高級計量經濟學及Stata應用》（很清楚，而且看完就能用stata實操了）
我整理的斷點回歸資料
鏈接：https://pan.baidu.com/s/18Mm709wlAZgrN80ByllUjw
提取碼：m1l0

二維正態分佈通俗解釋
 多維正態分佈
 機器學習模型融合stacking1
機器學習模型融合stacking2
stacking講解及實現代碼

其他數據挖掘方法

python實現TOPSIS方法
 位圖法（對於位圖法我還希望進行一些補充說明：該文章中的N*sizeof(int)*8的sizeof實際上指的是一個int所需佔用的Byte數目。位圖法實際上就是新建一個array，然後這個array中的第幾個數也就是第幾個byte，然後這個數中的第幾位爲1就是所記錄的數的位是多少。所以每一個數的存儲實際上只需要一個bit。舉個例子：一個int用32bit進行存儲，然後我們new一個array[1000]，那麼假如有一個數字5000，首先計算byte數5000/32=156，然後計算bit數5000%32=8，於是將array[156]的第8位從0變爲1，就將5000這個數字存儲好了。）

層次分析法
層次分析法介紹，看完這個ppt就可以完全理解了
 一個層次分析法的計算案例以及大佬寫的python代碼
 對第二個鏈接中的AHP的python代碼做了一些註釋

一些基本的計算機知識

python3中encode、decode解讀，各種編碼方式說明

數據結構

Trie樹介紹

Linux

刪除不需要的RAID（首先用umount取消掛載後，fdisk -l查看依然存在磁盤陣列，然後vim /etc/fstab刪除相關的RAID後，fdisk -l查看依然存在磁盤陣列，最後通過該文章裏的方法終於成功刪除掉了。）

python

地圖可視化：folium
一個點位可視化的代碼

其他

可以直接訪問的wiki 1
可以直接訪問的wiki 2

一些有用的文章的集合

機器學習/統計

其他數據挖掘方法

一些基本的計算機知識

數據結構

Linux

python

其他

druid數據源 xml配置

windows下遠程連接

cent os7文件系統和硬件

networkx pagerank

cent os7虛擬機下配置網絡及綁定雙網卡模式

時間序列模型之Arima Model

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結