sklearn中fit_transform,fit,transform區別和作用詳解

原創

tristan_tian

2020-07-05 23:54

本篇是因爲寫的好所以轉載。感謝原作者啊噗不是阿婆主

原文鏈接：https://blog.csdn.net/weixin_38278334/article/details/82971752

寫在前面

fit和transform沒有任何關係，僅僅是數據處理的兩個不同環節，之所以出來fit_transform這個函數名，僅僅是爲了寫代碼方便，會高效一點。

sklearn裏的封裝好的各種算法使用前都要fit，fit相對於整個代碼而言，爲後續API服務。fit之後，然後調用各種API方法，transform只是其中一個API方法，所以當你調用transform之外的方法，也必須要先fit。

fit原義指的是安裝、使適合的意思，其實有點train的含義，但是和train不同的是，它並不是一個訓練的過程，而是一個適配的過程，過程都是確定的，最後得到一個可用於轉換的有價值的信息。

fit,transform,fit_transform常用情況分爲兩大類
1. 數據預處理中方法

fit(): Method calculates the parameters μ and σ and saves them as internal objects.
解釋：簡單來說，就是求得訓練集X的均值，方差，最大值，最小值,這些訓練集X固有的屬性。

transform(): Method using these calculated parameters apply the transformation to a particular dataset.
解釋：在fit的基礎上，進行標準化，降維，歸一化等操作（看具體用的是哪個工具，如PCA，StandardScaler等）。

    fit_transform(): joins the fit() and transform() method for transformation of dataset.
    解釋：fit_transform是fit和transform的組合，既包括了訓練又包含了轉換。
    transform()和fit_transform()二者的功能都是對數據進行某種統一處理（比如標準化~N(0,1)，將數據縮放(映射)到某個固定區間，歸一化，正則化等）

fit_transform(trainData)對部分數據先擬合fit，找到該part的整體指標，如均值、方差、最大值最小值等等（根據具體轉換的目的），然後對該trainData進行轉換transform，從而實現數據的標準化、歸一化等等。

根據對之前部分trainData進行fit的整體指標，對剩餘的數據（testData）使用同樣的均值、方差、最大最小值等指標進行轉換transform(testData)，從而保證train、test處理方式相同。所以，一般都是這麼用：

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
sc.fit_tranform(X_train)
sc.tranform(X_test)

2. 各種算法的fit，transform方法

舉兩個例子：

1. CountVectorizer舉例，sklearn的CountVectorizer庫是根據輸入數據獲取詞頻矩陣（稀疏矩陣）

fit(raw_documents) :根據CountVectorizer參數規則進行操作，比如濾除停用詞等，擬合原始數據，生成文檔中有價值的詞彙表；

transform(raw_documents):使用符合fit的詞彙表或提供給構造函數的詞彙表，從原始文本文檔中提取詞頻，轉換成詞頻矩陣。

fit_transform(raw_documents, y=None):學習詞彙詞典並返回術語 - 文檔矩陣(稀疏矩陣)。

2. TfidfTransformer舉例，TF-IDF(Term frequency * Inverse Doc Frequency)詞權重

在較低的文本語料庫中，一些詞非常常見（例如，英文中的“the”，“a”，“is”），因此很少帶有文檔實際內容的有用信息。如果我們將單純的計數數據直接餵給分類器，那些頻繁出現的詞會掩蓋那些很少出現但是更有意義的詞的頻率。

爲了重新計算特徵的計數權重，以便轉化爲適合分類器使用的浮點值，通常都會進行tf-idf轉換。詞重要性度量一般使用文本挖掘的啓發式方法：TF-IDF。IDF，逆向文件頻率（inverse document frequency）是一個詞語普遍重要性的度量（不同詞重要性的度量）。

fit(raw_documents, y=None)：根據訓練集生成詞典和逆文檔詞頻由fit方法計算的每個特徵的權重存儲在model的idf_屬性中。

transform(raw_documents, copy=True)：使用fit（或fit_transform）學習的詞彙和文檔頻率（df），將文檔轉換爲文檔 - 詞矩陣。返回稀疏矩陣，[n_samples, n_features]，即，Tf-idf加權文檔矩陣（Tf-idf-weighted document-term matrix）。

總結：

上述第一類和第二類等價。算法中的fit方法的應用等價於第一類的fit，只不過產生的結果意義不同（不是均值等統計意義，而是根據算法本身擬合獲取不同信息以備後用），transform根據fit的結果轉換成目標形式，具體需深究代碼實現。

Note:

必須先用fit_transform(trainData)，之後再transform(testData)
如果直接transform(testData)，程序會報錯
如果fit_transfrom(trainData)後，使用fit_transform(testData)而不transform(testData)，雖然也能歸一化，但是兩個結果不是在同一個“標準”下的，具有明顯差異。(一定要避免這種情況)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

sklearn中fit_transform,fit,transform區別和作用詳解

寫在前面

fit,transform,fit_transform常用情況分爲兩大類
1. 數據預處理中方法

2. 各種算法的fit，transform方法

1. CountVectorizer舉例，sklearn的CountVectorizer庫是根據輸入數據獲取詞頻矩陣（稀疏矩陣）

2. TfidfTransformer舉例，TF-IDF(Term frequency * Inverse Doc Frequency)詞權重

總結：

Note:

CPU中的DVFS

硬件架構的藝術（二）

數據挖掘——sklearn瞭解

硬件架構的藝術(一)

System Verilog我的學習之路（一）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

sklearn中fit_transform,fit,transform區別和作用詳解

寫在前面

fit,transform,fit_transform常用情況分爲兩大類 1. 數據預處理中方法

2. 各種算法的fit，transform方法

1. CountVectorizer舉例，sklearn的CountVectorizer庫是根據輸入數據獲取詞頻矩陣（稀疏矩陣）

2. TfidfTransformer舉例，TF-IDF(Term frequency * Inverse Doc Frequency)詞權重

總結：

Note:

fit,transform,fit_transform常用情況分爲兩大類
1. 數據預處理中方法