非線性優化

文章目錄

最速下降法(梯度下降)

定義問題：
對於一個非線性函數 $f(\textbf{x})$ ，目標求： $\min f(\boldsymbol{x}) ， \; \mathbf{x}\in\mathbb{R}^n$
數學理論：

我們需要找到一個下降的方向，使得 $f(\mathbf{x})$ 隨着x的迭代而逐漸減小，直到 $\mathbf{x}$ 收斂於 $\mathbf{x^*}$ ：
$f(\mathbf{x_{k+1}})<f((\mathbf{x_k})$
我們需要選擇適當的方向 $\mathbf{d}$ 和步長 $\alpha$ ， $f(\mathbf{x_{k}+\alpha\mathbf{d}})<f((\mathbf{x_k})$
將 $f(x)$ 在進行一階泰勒展開： $f(\boldsymbol{x}+\alpha\mathbf{d}) = f(\mathbf{x})+\alpha\triangledown f(\mathbf{x})^T\mathbf{d}，\triangledown f(\mathbf{x})$ 是 $f(x)$ 的梯度， $\triangledown f(\mathbf{x})^T$ 可以用 $J$ 雅克比代替：
$f(\boldsymbol{x}+\alpha\mathbf{d}) = f(\mathbf{x})+\alpha \mathbf{J} \mathbf{d}$
因爲 $\alpha>0$ ，所以 $\mathbf{J} \mathbf{d}<0$ ，有： $\mathbf{J} \mathbf{d}= \parallel \mathbf{J}\parallel \parallel \mathbf{d}\parallel \cos\theta$
當 $\theta$ 取 $-\pi$ 也就是d取負梯度的方向： $-\mathbf{J}^T$ ，到達最小值。
對於 $\alpha$ ，我們在最速下降的方向進行－維的搜索，即 $\alpha$ 滿足 $f(\boldsymbol{x_k}+\alpha_k\mathbf{d_k}) = \arg \min_{\alpha\geqslant 0}f(\boldsymbol{x_k}+\alpha\mathbf{d_k})$

算法：

給定初始點 $\mathbf{x_0}$ ，和允許的誤差 $\varepsilon>0$ ，置 $k=0$ ；
計算搜索方向 $\mathbf{d_k}=- \triangledown f(\mathbf{x_k})$ ；
若 $\parallel\mathbf{d_k}\parallel\leqslant\varepsilon$ ，則停止；否則從 $\boldsymbol{x_k}$ 出發，沿着 $\mathbf{d_k}$ 進行一維的搜索，求出 $\alpha_k$ 使得： $f(\boldsymbol{x_k}+\alpha_k\mathbf{d_k}) = \arg \min_{\alpha\geqslant 0}f(\boldsymbol{x_k}+\alpha\mathbf{d_k})$
令 $\mathbf{x_{k+1}}=\mathbf{x_k}+\alpha_k\mathbf{d_k}$ ，置 $k=k+1$ ，轉步驟2；

算法評價：

缺點：

因爲每次迭代的梯度方向和下一次的梯度方向是正交的，當到了最優值的附近，震動收斂慢。
另外，如果 $f(x)$ 的海森矩陣正定，最大和最小特徵值的比 $r=\frac{A}{a}$ 稱爲條件數，條件數越小，收斂越快，相反則慢。

Trick：

一般最大特徵值和最小特徵值和數據維度裏面的數據Scale有關，也就是說可能是因爲數據的量級差的比較多，這時候可以通過Scale進行數據的縮放，來達到收斂更快的效果。

例題：參考最優化理論和算法p283,例10.1.1

牛頓法－>阻尼牛頓->修正阻尼牛頓

定義問題：
對於一個非線性函數 $f(\textbf{x})$ ，目標求： $\min f(\boldsymbol{x}) ， \; \mathbf{x}\in\mathbb{R}^n$
數學理論：

將 $f(\textbf{x})$ 進行二階泰勒展開：
$f(\boldsymbol{x}+\Delta \mathbf{x}) = f(\mathbf{x})+J\Delta\mathbf{x}+\frac{1}{2}\Delta \mathbf{x}^TH\Delta \mathbf{x}\tag{1}$
在 $\mathbf{x_k}$ 處，求 $\Delta\mathbf{x_k}＝\arg \min_{\Delta\mathbf{x}} f(\mathbf{x_k}+\Delta\mathbf{x})$
讓二次的1式對 $\Delta\mathbf{x}$ 求導，並令其爲０，得到穩定點：
$J^T+H\Delta \mathbf{x}=0\tag{2}$
得到 $\Delta\mathbf{x_k}=-H^{-1}J^T$

注意，在局部最優解的附近， $\boldsymbol{x}+\Delta \mathbf{x}$ 是最優解，但是當初始點遠離極小點的時候，牛頓法可能不收斂，原因之一牛頓方向： $\Delta\mathbf{x_k}=-H^{-1}J^T$ 不一定是下降的方向，目標值有可能上升。因此對牛頓法提出了修正，提出阻尼牛頓法

阻尼牛頓法在原始的牛頓法的基礎上添加：沿着牛頓方向進行一維的搜索，迭代公式：
$\boldsymbol{x_k}+\lambda_k\mathbf{d_k}$
其中 $\mathbf{d_k}=-H_k^{-1}J_k^T$ 爲牛頓方向， $\lambda_k$ 爲搜索步長，滿足：
$f(\boldsymbol{x_k}+\lambda_k\mathbf{d_k}) = \arg \min_{\lambda}f(\boldsymbol{x_k}+\lambda\mathbf{d_k})$

注意，原始牛頓法和阻尼牛頓法有着共同的缺點，一是可能奇異，而是可能非正定，這樣無法確定後繼點，進而做進一步修正

阻尼牛頓法的進一步修正，阻尼牛頓法用的搜索方向也是牛頓方向，解決海森矩陣非正定的基本思想就是：修正 $H_k$ 構造一個對稱的正定矩陣 $G_k$ ，用 $G_k$ 代替2式中的H得到方程：
$G_k\mathbf{d_k} = -J^T\tag{3}$
算出 $\mathbf{d_k}$ 再以此方向做一維的搜索
構造 $G_k$ 的方法之一就是另 $G_k=H+\varepsilon_kI$ ， $I$ 是單位陣，只要 $\varepsilon_k$ 是一個適當的正數， $G_k$ 就是一個對稱的正定矩陣。事實上，如果 $\alpha_k$ 是 $H_k$ 的特徵值，那麼 $\alpha_k+\varepsilon_k$ 是 $G_k$ 的特徵值，只要 $\varepsilon_k$ 取的足夠大， $G_k$ 所有的特徵值爲正，保證了正定性。
注意的是，當 $\mathbf{x_k}$ 爲鞍點的時候，即梯度爲０，海森矩陣不定：
$-J^T_k=0；H不定$
那麼根據3式無法求出牛頓方向 $\mathbf{d_k}$ ，這時候 $\mathbf{d_k}$ 可以取負曲率方向，即滿足： $\mathbf{d_k} ^TH\mathbf{d_k} <0$ 再進行一維搜索，必定能使目標函數下降。

阻尼牛頓算法：

給定初始點 $\mathbf{x_0}$ ，和允許的誤差 $\varepsilon>0$ ，置 $k=0$ ；
計算 $J_k^T$ 和 $H_k^{-1}$
若 $\parallel J\parallel<\varepsilon$ 則停止迭代，否則令： $\mathbf{d_k}=-H_k^{-1}J_k^T$
從 $\mathbf{x_k}$ 出發，沿着 $\mathbf{d_k}$ 做一維的搜索，滿足： $f(\boldsymbol{x_k}+\lambda_k\mathbf{d_k}) = \arg \min_{\lambda}f(\boldsymbol{x_k}+\lambda\mathbf{d_k})$
$\mathbf{x_{k+1}}=\mathbf{x_k}+\lambda_k\mathbf{d_k}；k=k+1$ 轉步驟2

算法評價：

牛頓法：

優點：對於二次正定函數，經過一次迭代便達到最優點，對於非二次函數，若二次性較強或者迭代點已經進入極點附近收斂很快
缺點：H矩陣計算困難，奇異，非正定等情況

阻尼牛頓法：

優點：能保證每次迭代基本會下降，絕不會上升
缺點：H矩陣計算困難，奇異，非正定等情況

阻尼牛頓法的修正：

優點：保證了每次迭代能夠下降，且解決了海森矩陣非正定，奇異的問題
缺點：G矩陣計算困難，多了 $\varepsilon$ 的選取策略，算法變得複雜

高斯牛頓法

高斯牛頓法主要解決非線性最小二乘問題。

定義問題：
對於一個殘差函數 $f(\textbf{x})$ ，目標求： $\min F(\mathbf{x}) =\min \sum_{i=1}^{m}\frac{1}{2}\left \| f_i(\mathbf{x}) \right \|_2^2$
數學理論：

定義爲 $\mathbf{f}(\mathbf{x})=\begin{bmatrix} f_1(x) \\ \cdots \\ f_m(x) \\ \end{bmatrix}；\, \, \, \mathbf{f}(\mathbf{x})^T\mathbf{f}(\mathbf{x})=\sum_{i=1}^{m}\left \| f_i(\mathbf{x}) \right \|_2^2；\, \, \,\mathbf{J}=\begin{bmatrix} J_1(\mathbf{x})\\ \cdots \\ J_m(\mathbf{x}) \end{bmatrix}$
將 $\mathbf{f}(\mathbf{x})$ 進行一階泰勒展開：(這裏是殘差函數，不是目標函數，和最速下降、牛頓法不同)
$\mathbf{f}(\boldsymbol{x}+\Delta \mathbf{x}) = \mathbf{f}(\mathbf{x})+\mathbf{J}\Delta\mathbf{x}\tag{1}$
將1式帶入F(x)：
$F(\mathbf{x}+\Delta \mathbf{x})\approx L\left (\Delta \mathbf{x} \right )=\frac{1}{2}\mathbf{f}(\boldsymbol{x}+\Delta \mathbf{x})^T\mathbf{f}(\boldsymbol{x}+\Delta \mathbf{x}) \\ =\frac{1}{2}\mathbf{f}^T\mathbf{f}+\mathbf{f}^T\mathbf{J}\Delta \mathbf{x}+\frac{1}{2}\Delta \mathbf{x}^T\mathbf{J}^T\mathbf{J}\Delta \mathbf{x}\\=F(\mathbf{x})+\mathbf{f}^T\mathbf{J}\Delta \mathbf{x}+\frac{1}{2}\Delta \mathbf{x}^T\mathbf{J}^T\mathbf{J}\Delta \mathbf{x}\tag{2}$
令２式對 $\Delta x$ 求導＝０：
$\left ( \mathbf{J}^T\mathbf{J} \right )\Delta \mathbf{x}=-\mathbf{J}^T\mathbf{f}\tag{3}$
3式也稱作normal equation，或者也叫Gauss-Newton 公式。另外由2式得： $F^{'} (\mathbf{x})=\mathbf{f}^T\mathbf{J},F^{''} (\mathbf{x})\approx\mathbf{J}^T\mathbf{J}$

高斯牛頓算法：

給定初始點 $\mathbf{x_0}$ ，運行誤差 $\varepsilon>0$
計算函數值和一階導數： $f_i(\mathbf{x_k})=\begin{bmatrix} f_1(\mathbf{x_k})\\ f_2(\mathbf{x_k})\\ \cdots\\ f_m(\mathbf{x_k}) \end{bmatrix}；\mathbf{J}=\begin{bmatrix} \frac{\partial f_1(\mathbf{x_k})}{\partial x_1}& \cdots & \frac{\partial f_1(\mathbf{x_k})}{\partial x_n} \\ \vdots & \ddots & \vdots & \\ \frac{\partial f_m(\mathbf{x_k})}{\partial x_1}& \cdots & \frac{\partial f_m(\mathbf{x_k})}{\partial x_n} & \end{bmatrix}$
根據式３求出高斯-牛頓方向 $\mathbf{d_k}$
從 $\mathbf{x_k}$ 出發，沿着 $\mathbf{d_k}$ 做一維的搜索，滿足： $F(\boldsymbol{x_k}+\lambda_k\mathbf{d_k}) = \arg \min_{\lambda}F(\boldsymbol{x_k}+\lambda\mathbf{d_k})$
令 $\mathbf{x_{k+1}}=\mathbf{x_k}+\lambda_k\mathbf{d_k}$
若 $\left \| \mathbf{x_{k+1}}-\mathbf{x_k }\right \|\leqslant \varepsilon$ ，則停止，否則 $k=k+1,$ 返回步驟2

注意：有時候 $J^TJ$ 是奇異或接近奇異的，這時候解３式會有很大困難，下面一種方法對其做了修正

列文伯格-馬夸爾特

Marquardt對高斯牛頓做了修正，主要思想就是在 $J^TJ$ 上加正定的對角矩陣：
$\left ( \mathbf{J}^T\mathbf{J} +\mu \mathbf{I}\right )\Delta \mathbf{x}_{lm}=-\mathbf{J}^T\mathbf{f}$

假如 $\mathbf{J}^T\mathbf{J}$ 特徵值 $\lambda_j$ 對應特徵向量 $\mathbf{v_j}$ ，得到的 $\Delta \mathbf{x}_{lm}=$
$-\sum_{j=1}^{n}\frac{\mathbf{v}_j^\top \mathbf{F}^{'\top}}{\lambda_j+\mu }\mathbf{v}_j$

阻尼因子 $\mu$ 的作用：

$\mu>0$ 保證 $\left ( \mathbf{J}^T\mathbf{J} +\mu \mathbf{I}\right )$ 正定，朝着迭代的方向進行
$\mu$ 非常大是時候，則 $\Delta \mathbf{x}_{lm}=-\frac{1}{\mu}\mathbf{J}^T\mathbf{f}=-\frac{1}{\mu}F^{'} (\mathbf{x})^T$ 接近最速下降法
$\mu$ 比較小的時候，則 $\Delta \mathbf{x}_{lm}\approx\Delta \mathbf{x}_{gn}$ 接近高斯牛頓法

阻尼因子的選取與跟新策略

初始值的選取
$\mu_0=\tau *\max\left \{ \left ( \mathbf{J}^T\mathbf{J} \right )_{ii} \right \}；\tau \in[10^{-8},1]$
跟新策略

定性分析：
如果： $\Delta x\rightarrow F(x)\uparrow$ ，則 $\mu \uparrow \rightarrow \Delta x\downarrow$ ，增大阻尼減小步長，拒絕本次迭代
如果： $\Delta x\rightarrow F(x)\downarrow$ ，則 $\mu \downarrow \rightarrow \Delta x\uparrow$ ，減小阻尼增大步長，加快收斂，較少迭代次數
定量分析
阻尼因子 $\mu$ 的跟新，通過比例因子 $\rho$ 來確定
$\rho=\frac{F(\mathbf{x})-F(\mathbf{x}+\Delta \mathbf{x_{lm}})}{L(\mathbf{0})-L(\Delta \mathbf{x_{lm}})}$
其中 $L(\mathbf{0})-L(\Delta \mathbf{x_{lm}})=-\mathbf{f}^T\mathbf{J}\Delta \mathbf{x_{lm}}-\frac{1}{2}\Delta \mathbf{x_{lm}}^T\mathbf{J}^T\mathbf{J}\Delta \mathbf{x_{lm}}$

(1). Marquardt策略

首先比例因子的分母始終　>　0（L(x)下降的），如果：

$\rho<0$ ，則 $F(x)\uparrow$ ，則 $\mu \uparrow \rightarrow \Delta x\downarrow$ ，增大阻尼減小步長
如果 $\rho>0$ 且比較大，減小 $\mu$ ，讓LM接近Gauss-Newton，加快收斂
反之，如果是比較小的正數，增大阻尼 $\mu$ ，縮小迭代步長。

$if :\rho<0.25\\ \mu:=u*2\\\;\\else\; if:\rho>0.75\\\mu:=\mu/3$

(2). Nielsen策略(g2o, ceres採用)

$if :\rho>0\\ \mu:=\mu*\max\left \{ \frac{1}{3},1-\left ( 2\rho-1 \right )^3 \right \};\;\;\nu:=2\\ \; \\else\\ \\ \mu:=\mu*\nu;\; \;\nu:=2*\nu$

文章目錄

最速下降法(梯度下降)

牛頓法－>阻尼牛頓->修正阻尼牛頓

高斯牛頓法

列文伯格-馬夸爾特

魯棒核函數

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

evo工具評測slam系統

段錯誤調試(core )

Linux sigaction函數捕獲鍵盤信號

代碼規範-google_style

J-linkage

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結