非線性最優化方法

引言

最優化的問題的一般形式爲：
$\min f(\mathbf{x}) , \ s.t. \mathbf{x}\in X$
$f(\mathbf{x})$ 爲目標函數， $\mathbf{X\in E^n}$

非線性特點：

不是線性
複雜彎曲
沒有通解

無約束問題的最優條件：
$\min f(\mathbf{x}),\mathbf{x} \in R^n$ 的最優性條件：
設 $g(x)=\nabla f(x),G(x)=\Delta f(x)$ 分別爲 $f$ 的一階和二階導數。
定理（一階必要條件）：設 $f:D \subset R^n \to R^1$ 在開集 $D$ 上連續可微，若 $x^* \in D$ 是局部極小點，則 $g(x^*)=0.$
定理（二階必要條件）：設 $f:D \subset R^n \to R^1$ 在開集 $D$ 上二階連續可微，若 $x^* \in D$ 是局部極小點，則 $g(x^*)=0,\ G(x^*) \geq 0$

迭代優化方法的基本思想

給定一個初始點 $x_0$ ,
按照某一迭代規則產生一個點列 $\{x_k\}$ , 使得
當 $\{x_k\}$ 是有窮點列時，其最後一個點是最優化模型問題的最優解。
當 $\{x_k\}$ 是無窮點列時，其極限點爲最優解。

最優化方法的結構：
給定初始點 $\mathbf{x}_0$

確定搜索方向 $\mathbf{d}_k$ ，即依照一定規則構造 $f$ 在 $\mathbf{x}_k$ 點處的下降方向爲搜索方向
確定步長因子 $\alpha_k$ ，使目標函數值有某種意義下降
令 $\mathbf{x}_{k+1}=\mathbf{x}_{k}+\alpha_k\mathbf{d}_{k}$
若 $\mathbf{x}_{k+1}$ 滿足某種終止條件，則停止迭代，得到近似最優解，否則重複以上步驟。

一個好的算法應具備的典型特徵爲:

迭代點 $x_k$ 能穩定地接近局部極小點x*的鄰域，然後迅速收斂於 $x_k$ ;
當給定的某種收斂準則滿足時，迭代即終止。

收斂速度：
一般認爲，具有超線性和二階收斂速度的方法是比較快速的。

一維搜索

確定包含問題最優解的搜索區間
再用某種分割技術或插值方法縮小這個區間，進
行搜索求解

搜索區間:包含最優值的閉區間。
確定搜索區間的簡單方法——進退法。
- 從一點出發，試圖確定出函數值呈現“高-低-高” 的三點。一個方向不成功，就退回來，再沿相反方向尋找。

改進

實際上所遇到的函數不一定是單峯函數，這時搜索出的值有可能大於初始區間的端點值。
改進:每次縮小區間時，不只比較兩個內點處的函數值，而是比較兩個內點和兩個端點處的函數值:
- 當左邊第一個或第二個點是這四個點中函數值最小的點時，丟棄右端點;
- 否則，丟棄左端點。

0.618 法

Fibonacci法

插值法

插值法是一類重要的搜索方法，其基本思想是:

在搜索區間中不斷用低次(通常不超過三次)多項式來近似目標函數，並逐步用插值多項式的極小點來逼近一維搜索問題的極小點。
當函數具有比較好的解析性質時，插值方法比直接方法(0.618 法或Fibonacci法)效果更好。

二次插值法:

一點二次插值(牛頓法)
- 利用一點處的函數值、一階和二階導數值構造二次插值函數。牛頓法的優點是收斂速度快，具有局部二階收斂速度。
二點二次插值法
- 給出兩點的函數值和其中一點的導數值，構造二次插值函數。二點二次插值法的收斂階爲1.618，超線性收斂。
三點二次法(拋物線法)
二點三次插值法
……

牛頓型方法

1. 最速下降法

以負梯度方向作爲極小化算法的搜索方向，即
$\mathbf{d}_k=-\mathbf{g}_k$

具有總體收斂性：
產生的迭代點列的每一個聚點都是平穩點。
最速下降方向僅是局部性質
對於許多問題並非下降方向，而且下降非常緩慢；
接近極小點時，步長越小前進越緩慢。

2. 牛頓法

基本思想
利用目標函數的二次Taylor展開，並將其極小化。
函數 $\ f(x)$ 在 $\ x_k$ 處的二次Taylor展開爲：
$f(x_k+s)\approx q^{(k)}(s)=f(x_k)+\nabla f(x_x)^Ts+\frac{1}{2}s^T\nabla^2f(x_k)s$
其中 $\ s=x-x_k$ ，將 $\ q^{(k)}(s)極小化，得到$
$x_{k+1}=x_k-[\nabla^2 f(x_k)]^{-1}\nabla f(x_x)=x_k-G_k^{-1}g_k$
對於正定二次函數，一步即可得最優解。
由於目標函數在極點附近近似於二次函數，所以在初始點接近極小點時，牛頓法收斂速度較快。
牛頓法具有局部收斂性，爲二階收斂。

正定二次函數：
正定二次函數(positive definite quadratic function)是係數矩陣爲對稱正定矩陣的二次函數。設 $x\in R_n$ ， $A$ 爲 $n×n$ 對稱正定矩陣， $b\in R_n$ 爲常向量， $c$ 爲常數，則二次函數 $f(x)=\frac{1}{2}x^TAx+b^Tx+c$ 稱爲正定二次函數。

正定矩陣：
一個 $n\times n$ 的實對稱矩陣 $M$ 是正定的，當且僅當對於所有的非零實係數向量 $z$ ，都有 $z^TMz > 0$ 。其中 $z^T$ 表示 $z$ 的轉置。

牛頓法適用於初始點距離最優解很近的情況下，當初始解遠離最優解時， $G_k$ 不一定是正定的，則牛頓方向不一定爲下降方向，其收斂性不能保證。
說明恆取步長因子爲1不合適，應採用一維搜索。（僅當步長因子{ $α_k$ }收斂1時，牛頓法纔是二階收斂的。迭代公式：
$d_k=-G_k^{-1}g_k, X_{k+1}=X_k+α_kd_k$
帶步長因子的牛頓法是總體收斂的。

修正牛頓法

Gill-Murray穩定牛頓法

Goldfeld修正牛頓法

3.信賴域方法

不僅可以用來代替一維搜索，而且也可以解決Hessen矩陣不正定等困難。
主要思想：
- 首選選擇一個步長r，使得在 $||\mathbf{x}-\mathbf{x}_k||<r$ 範圍內（信賴域）
- 目標函數用n維二次模型來逼近，並以此選擇一個搜索方向 $\mathbf{s_k}$ ，取 $\mathbf{x_{k+1}}=\mathbf{x_k}+\mathbf{s_k}$
具有牛頓法的快速局部收斂性，又具有理想的總體收斂性。

Levenberg-Marquardt方法

最重要的一類的信賴域是取 $l_2$ 範數，此時原模型等效於
$minq^{(k)}(\mathbf{s})=f_k+\mathbf{g}_k^T\mathbf{s}+\frac{1}{2}\mathbf{s}^TG_k\mathbf{s},\quad s.t.||\mathbf{s}||_2\leq h_k$
引入 $Lagrange$ 函數
$L(\mathbf{s},\mu)=q^{(k)}(\mathbf{s})+\frac{1}{2}\mu(\mathbf{s}^T\mathbf{s}-h_k^2)$
根據約束最優化的最優性條件知：
$\nabla_sL=0,\ \mu\geq 0$
從而推出
$L(\mathbf{s},\mu_k)=q^{(k)}(\mathbf{s}_k)+\frac{1}{2}(\mathbf{s}-\mathbf{s}_k)^T(G_k+\mu_kI)(s-s_k)$
可以證明：
總體解的二階必要條件爲 $(G_k+\mu_kI)$ 半正定。
總體解嚴格最小的充分條件爲 $(G_k+\mu_kI)$ 正定。
因此，LM方法都是要確定一個 $\mu_k\geq 0$ ，使得 $(G_k+\mu_kI)$ 正定，並用 $\nabla_sL=0$ 求解 $\mathbf{s}_k$ 。同時可以證明 $||\mathbf{s}||_2$ 隨 $\ \mu$ 單調減小。
算法步驟

給定初始點 $x_0, \mu_0>0, k=1$
計算 $g_k$ 和 $G_k$
若 $||g_k||<\epsilon$ ，停止
分解 $G_K+\mu_kI$ ，若不正定，置 $\mu_k=4\mu_k$ ，重複4直到正定
解 $(G_k+\mu_kI)s=-g_k$ ，求出 $s_k$
求 $f(x_k+s_k), q^{(k)}(s_k)$ 和 $r_k=\frac{\triangle f_k}{\triangle q^{(k)}}$
若 $r_k<0.25$ ，置 $\mu_{k+1}=4\mu_k$ ；若 $r_k>0.75$ ，置 $\mu_{k+1}=\mu_k/2$ ；否則， $\mu_{k+1}=\mu_k$
若 $r_k\leq0$ ，置 $x_{k+1}=x_k+s_k$
令k=k+1，轉2

LM方法比較適合於x維度不高的非線性函數優化。

（未完待續）

[非線性最優化方法]（牛頓法、LM方法）（未完）

目錄

非線性最優化方法

引言

一維搜索

0.618 法

Fibonacci法

插值法

牛頓型方法

1. 最速下降法

2. 牛頓法

修正牛頓法

Gill-Murray穩定牛頓法

Goldfeld修正牛頓法

3.信賴域方法

Levenberg-Marquardt方法

[leetcode 209]長度最小的子數組（Python）

[leetcode 63] 不同路徑 II（Python 動態規劃+滾動數組優化）

[leetcode 11] 盛最多水的容器（Python 雙指針）

[leetcode 41]缺失的第一個正數（Python）

[解決方案]clion中the file does not belong to any project 問題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結