Scaling

數據縮放的實質就是對數據進行無量綱化處理或弱化量綱，下面介紹幾種常用的縮放方式。

Linear Scale

歸一化(Normalization)通常指把數據縮放到 $[0,1]$ 區間或 $[-1,1]$ 區間，其轉換公式分別爲：

$\begin{aligned} x&=\frac{x-x_{min}}{x_{max}-x_{min}} \\ x&=\frac{x-\frac{1}{2}(x_{max}+x_{min})}{x_max-x_min} \\ \end{aligned}$

標準化(Standardization)的實質就是計算Z-分數(Z-score)：

$x=\frac{x-\mu}{\sigma}$

標準化後的數據服從標準正態分佈。

分別對歸一化與標準化的式子做一下變形：

$\begin{aligned} x_{norm}&=\frac{x-x_{min}}{x_{max}-x_{min}} \\ &=\frac{1}{x_{max}-x_{min}}x-\frac{x_{min}}{x_{max}-x_{min}} \\ x_{z}&=\frac{x-\mu}{\sigma} \\ &=\frac{1}{\sigma}x-\frac{\mu}{\sigma} \\ \end{aligned}$

可以看出歸一化與標準化實質上都相當於對數據的一個線性變換，只不過是線性變換的係數不同。由此可以探究兩者之間的區別。

首先不難看出歸一化的縮放係數只由數據中的兩個值決定： $x_{min}$ 與 $x_{max}$ ，這一特性就決定了歸一化變換是不穩定的，它容易被異常值或離羣值影響。並且歸一化的輸出範圍固定爲 $[0,1]$ 或者 $[-1,1]$ 。

而反觀標準化，它的線性變換系數是由數據統計量 $\mu$ 與 $\sigma$ 決定的，不難看出當 $\sigma>1$ 時標準化會縮小數據的分佈，而當 $sigma<1$ 的時候會放大數據的分佈，總而言之標準化就會使得變換後的數據呈一個固定的分佈狀態。標準化並沒有對變換後的數據範圍作規定，它只保證數據整體的分佈。

Non-Linear Scale

當數據的取值跨度非常大時，考慮使用對數變換來縮小數據在量級上的差距。常用的對數變換有：

$\begin{aligned} x=\log_{2}(x+1) \\ x=\log_{10}(x+1) \\ \end{aligned}$

除了對數變換外，還可以使用開方變換：

$x=\sqrt[p]{x}$

Transformation

待補充

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據縮放與轉換Data Scaling and Transformation

Scaling

Linear Scale

Non-Linear Scale

Transformation

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

線性迴歸Linear Regression

序列最小優化Sequential Minimal Optimization

樸素貝葉斯Naive Bayes

協同過濾Collaborative Filtering

K近鄰K Nearest Neighbor

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結