工作中遇到優化的問題，回顧一下當初學過的基本優化算法。

本博客主要考慮無約束且非線性的極小化優化問題：

$\underset{\mathbf{x}}{min} f(\mathbf{x})$

$\mathbf{x}=(x_1,x_2,...,x_N)^T\in \mathbb{R}^N$

在工作中遇到的變量和函數值均爲1維變量，方便理解和處理。

一、牛頓法

直接貼合工作目標，考慮變量 $\mathbf{x}$ 的維度爲的情形。

牛頓法的算法思想：給定一個隨機初始點，在該點附近對目標函數作二階泰勒展開，找到下一個迭代點，重複上述方式直至找到極值點。

設爲當前迭代點(即當前極值點)，則當前泰勒展開式如下所示：

$f(x)=f(x_k)+f^{'}(x_k)(x-x_k)+\frac{1}{2}f^{''}(x_k)(x-x_k)^2+o((x-x_k)^2),$

$\phi(x)=f(x_k)+f^{'}(x_k)(x-x_k)+\frac{1}{2}f^{''}(x_k)(x-x_k)^2$

其中，表示的高於2階的無窮小，忽略該值後使用 $\phi(x)$ 近似表示。

此時，對於函數 $\phi(x)$ 根據求極值的必要條件(極值點導數趨近於0)有：

$\phi^{'}(x)=f^{'}(x_k)+f^{''}(x_k)(x-x_k)=0,$

$x=x_k-\frac{f^{'}(x_k)}{f^{''}(x_k)}$

根據上述公式及牛頓法算法思想，給定初試迭代點，則可以構造如下迭代公式：

$x_{k+1}=x_k-\frac{f^{'}(x_k)}{f^{''}(x_k)},k=0,1,2,...$

從初始迭代點開始可以通過公式迭代產生序列 $\{x_k\}$ 逼近目標函數的極小值點。

對於的情況，可以將二階泰勒展開式作如下推廣：

$\phi(\mathbf{x})=f(\mathbf{x}_k)+\bigtriangledown f(\mathbf{x}_k)(\mathbf{x}-\mathbf{x}_k)+\frac{1}{2}(\mathbf{x}-\mathbf{x}_k)^T\bigtriangledown ^2 f(\mathbf{x}_k)(\mathbf{x}-\mathbf{x}_k),$

$\bigtriangledown f$ 爲的梯度向量（簡記爲 $\mathbf{g}$ ， $\bigtriangledown f(x_k)=\mathbf{g}_k$ ）， $\bigtriangledown ^2 f$ 爲的海塞矩陣(Hessian Matrix，簡記爲 $\mathbf{H}$ ， $\bigtriangledown ^2 f(x_k)=\mathbf{H}_k$ )，即：

$\bigtriangledown f=\begin{bmatrix} \frac{\partial f}{\partial x_1}\\ \frac{\partial f}{\partial x_2}\\ ...\\ \frac{\partial f}{\partial x_N} \end{bmatrix}, \bigtriangledown^2 f=\begin{bmatrix} \frac{\partial^2f}{\partial x_1^2} & \frac{\partial^2f}{\partial x_1 \partial x_2} & ... & \frac{\partial^2f}{\partial x_1 \partial x_N}\\ \frac{\partial^2f}{\partial x_2 \partial x_1} & \frac{\partial^2f}{\partial x_2^2} & ... & \frac{\partial^2f}{\partial x_2 \partial x_N} \\ ... & ... & ... & ... \\ \frac{\partial^2f}{\partial x_N \partial x_1} & \frac{\partial^2f}{\partial x_N \partial x_2} & ... & \frac{\partial^2f}{\partial x_N^2} \end{bmatrix}$

根據極值的必要條件對公式求導可得：

$\bigtriangledown \phi(x)=\mathbf{g}_k+\mathbf{H}_k(\mathbf{x}-\mathbf{x}_k)=0$

此時，根據公式可知，那麼類似公式可得基本迭代公式如下所示：

矩陣 ${\color{Red} \mathbf{H}_k}$ 非奇異 => ${\color{Purple} \mathbf{x}_{k+1}=\mathbf{x}_k-\mathbf{H}_k^{-1}\mathbf{g}_k}$ => 原始牛頓迭代法

該迭代公式的搜索方向定義爲 $\mathbf{d}_k = -\mathbf{H}_k^{-1}\mathbf{g}_k$ ，也稱爲牛頓方向。

注意：原始牛頓法中，只有搜索方向，而缺少步長。那麼當遇到非二次型目標函數時，可能出現更新後目標函數值變大的的情況，即原始牛頓法不能保證目標函數值一直下降。

二、擬牛頓法

第一節詳細介紹了牛頓法的公式推導，整個原始牛頓法的核心就是公式。

注意其中需要計算當前迭代點 $\mathbf{x}_k$ 的一階導數 $\mathbf{g}_k$ 、二階導數的逆 $\mathbf{H}_k^{-1}$ ，這可能導致計算複雜度加大、且有可能遇到Hessian矩陣非正定而無法求逆的情況，從而導致原始牛頓迭代法失效。

爲了克服上述問題，擬牛頓法就被提出了。顧名思義，擬牛頓法類似牛頓法，不同的是：擬牛頓法不直接求二階導數，而是採用近似的方式擬合Hessian矩陣或Hessian矩陣的逆，該近似矩陣保證正定，從而進行優化迭代。

2.0 擬牛頓條件

對求極值的必要條件（即公式）代入 $\mathbf{x}=\mathbf{x}_{k+1}$ 可得：

$\bigtriangledown \phi(\mathbf{x_{k+1}})=\mathbf{g}_k+\mathbf{H}_{k+1}(\mathbf{x}_{k+1}-\mathbf{x}_k)\approx =\mathbf{g}_{k+1},$

$\mathbf{g}_{k+1}-\mathbf{g}_k\approx \mathbf{H}_{k+1}(\mathbf{x}_{k+1}-\mathbf{x}_k)=0,$

在公式中引入記號：

$\mathbf{y}_k=\mathbf{g}_{k+1}-\mathbf{g}_k,\mathbf{s}_k=\mathbf{x}_{k+1}-\mathbf{x}_k$

則公式可以通過公式的記號轉化爲：

$\mathbf{y}_{k}\approx \mathbf{H}_{k+1}\mathbf{s}_{k},$

$\mathbf{s}_{k}\approx \mathbf{H}_{k+1}^{-1}\mathbf{y}_{k},$

公式和公式即爲擬牛頓條件。在擬牛頓法中使用 $\mathbf{B}_{k+1}$ 近似矩陣 $\mathbf{H}_{k+1}$ or 使用 $\mathbf{D}_{k+1}$ 近似矩陣 $\mathbf{H}_{k+1}^{-1}$ ：

${\color{Red} \mathbf{y}_{k} = \mathbf{B}_{k+1}\mathbf{s}_{k}},$

${\color{Red} \mathbf{s}_{k}= \mathbf{D}_{k+1}\mathbf{y}_{k}}.$

接下來，就按照不同的近似方式介紹擬牛頓法的具體實現方式。

2.1. DFP ${\color{Red} \mathbf{s}_{k}= \mathbf{D}_{k+1}\mathbf{y}_{k}}.$

DFP算法的核心思想：使用 $\mathbf{D}_{k+1}$ 近似Hessian矩陣的逆 $\mathbf{H}_{k+1}^{-1}$ ，

DFP算法的迭代格式：

$\mathbf{D}_{k+1}=\mathbf{D}_{k}+\bigtriangledown \mathbf{D}_{k},k=0,1,2,...$

其中，初始化的 $\mathbf{D}_{0}$ 取單位矩陣 $\mathbf{I}$ ，接下來推導校正矩陣 $\bigtriangledown \mathbf{D}_{k}$ 的構造方式，

TRICKY METHOD:

爲保證 $\bigtriangledown \mathbf{D}_{k}$ 的對稱正定性，直接假設

$\bigtriangledown \mathbf{D}_{k}=\alpha \mathbf{u} \mathbf{u}^T + \beta \mathbf{v} \mathbf{v}^T,$

將公式和公式代入公式可得，

$\mathbf{s}_{k}= (\mathbf{D}_{k}+\bigtriangledown \mathbf{D}_{k})\mathbf{y}_{k}=(\mathbf{D}_{k}+\alpha \mathbf{u} \mathbf{u}^T + \beta \mathbf{v} \mathbf{v}^T)\mathbf{y}_{k},$

$\mathbf{s}_{k}= \mathbf{D}_{k}\mathbf{y}_{k}+\alpha \mathbf{u} \mathbf{u}^T\mathbf{y}_{k} + \beta \mathbf{v} \mathbf{v}^T\mathbf{y}_{k},$

$\mathbf{s}_{k}= \mathbf{D}_{k}\mathbf{y}_{k} +\mathbf{u} {\color{Red} (\alpha \mathbf{u}^T\mathbf{y}_{k} )} + \mathbf{v} {\color{Red} (\beta \mathbf{v}^T\mathbf{y}_{k})},$

$\mathbf{s}_{k}= \mathbf{D}_{k}\mathbf{y}_{k} +{\color{Red} (\alpha \mathbf{u}^T\mathbf{y}_{k} )}\mathbf{u} + {\color{Red} (\beta \mathbf{v}^T\mathbf{y}_{k})}\mathbf{v} ,$

注意，公式和公式中紅色括號內的內容均爲實值，所以DFP的Tricky1就是對這兩個數字做簡單賦值：

${\color{Red} \alpha \mathbf{u}^T\mathbf{y}_{k} } =1,$

${\color{Red} \beta \mathbf{v}^T\mathbf{y}_{k}}=-1,$

通過公式和公式可得 $\alpha$ 和 $\beta$ 的值：

$\alpha =\frac{1}{\mathbf{u}^T\mathbf{y}_{k}},$

$\beta =-\frac{1}{\mathbf{v}^T\mathbf{y}_{k}},$

至此，我們想要求 $\bigtriangledown \mathbf{D}_{k}$ 依舊需要確定 $\mathbf{u}$ 和 $\mathbf{v}$ 的值，通過將公式代入公式可得：

$\mathbf{s}_{k}= \mathbf{D}_{k}\mathbf{y}_{k} +\mathbf{u} - \mathbf{v},$

$\mathbf{s}_{k}- \mathbf{D}_{k}\mathbf{y}_{k} =\mathbf{u} - \mathbf{v},$

此時，DFP的Tricky2就是直接將公式左右兩邊對應位置的元素取相等，即：

$\mathbf{u}=\mathbf{s}_{k},$

$\mathbf{v}= \mathbf{D}_{k}\mathbf{y}_{k},$

將公式分別代入公式可得 $\alpha$ 和 $\beta$ 的值：

$\alpha =\frac{1}{\mathbf{s}_k^T\mathbf{y}_{k}},$

$\beta =-\frac{1}{\mathbf{y}_{k}^T \mathbf{D}_{k} \mathbf{y}_{k}},$

此時，根據公式可推導出 $\bigtriangledown \mathbf{D}_{k}$ 的值：

$\mathbf{{\color{Red} \bigtriangledown \mathbf{D}_{k}=\frac{\mathbf{s}_k \mathbf{s}_k^T}{\mathbf{s}_k^T\mathbf{y}_{k}} -\frac{\mathbf{D}_{k}\mathbf{y}_{k}\mathbf{y}_{k}^T\mathbf{D}_{k}}{\mathbf{y}_{k}^T \mathbf{D}_{k} \mathbf{y}_{k}}}},$

DFP算法流程：

1 給定初始迭代點 $\mathbf{x}_0$ 和迭代精確到閾值 $\epsilon$ ，初始的近似Hessian矩陣 $\mathbf{D}_{0}=I$ ，迭代次數；

2 計算 $\mathbf{g}_k$ 和 $\mathbf{D}_{k}$ 來確定搜索方向 $\mathbf{d}_k = -\mathbf{D}_k\mathbf{g}_k$ ；

3 利用Wolfe方法(步長搜索的方式)得到搜索步長 $\lambda _k$ ，更新迭代點位置 $\mathbf{x}_{k+1}=\mathbf{x}_k+\lambda _k \mathbf{d}_k$ ；

4 若滿足 $||\mathbf{g}_{k+1}||\leqslant \epsilon$ ，達到終止條件，結束；

5. 否則，計算 $\mathbf{y}_k=\mathbf{g}_{k+1}-\mathbf{g}_k,\mathbf{s}_k=\mathbf{x}_{k+1}-\mathbf{x}_k$ ；

6 計算 $\mathbf{D}_{k+1}=\mathbf{D}_{k}+\frac{\mathbf{s}_k \mathbf{s}_k^T}{\mathbf{s}_k^T\mathbf{y}_{k}} -\frac{\mathbf{D}_{k}\mathbf{y}_{k}\mathbf{y}_{k}^T\mathbf{D}_{k}}{\mathbf{y}_{k}^T \mathbf{D}_{k} \mathbf{y}_{k}}$ ；

7 令，轉至步驟2繼續。

2.2. BFGS ${\color{Red} \mathbf{y}_{k} = \mathbf{B}_{k+1}\mathbf{s}_{k}},$

BFGS算法的思想與DFP類似，推導流程也類似。

算法的核心思想：使用使用 $\mathbf{B}_{k+1}$ 近似Hessian矩陣 $\mathbf{H}_{k+1}$ ，

BFGS算法的迭代格式：

$\mathbf{B}_{k+1}=\mathbf{B}_{k}+\bigtriangledown \mathbf{B}_{k},k=0,1,2,...$

其中，初始化的 $\mathbf{B}_{0}$ 取單位矩陣 $\mathbf{I}$ ，接下來類似DFB直接推導校正矩陣 $\bigtriangledown \mathbf{B}_{k}$ 的構造方式，

TRICKY METHOD:

爲保證 $\bigtriangledown \mathbf{B}_{k}$ 的對稱正定性，直接假設

$\bigtriangledown \mathbf{B}_{k}=\alpha \mathbf{u} \mathbf{u}^T + \beta \mathbf{v} \mathbf{v}^T,$

之後就是完完全全的公式推導過程：

$\\ \mathbf{y}_{k} = (\mathbf{B}_{k}+\bigtriangledown \mathbf{B}_{k})\mathbf{s}_{k}, \\\mathbf{y}_{k} = (\mathbf{B}_{k}+\alpha \mathbf{u} \mathbf{u}^T + \beta \mathbf{v} \mathbf{v}^T)\mathbf{s}_{k}, \\\mathbf{y}_{k} = \mathbf{B}_{k}\mathbf{s}_{k}+\alpha \mathbf{u} \mathbf{u}^T \mathbf{s}_{k}+ \beta \mathbf{v} \mathbf{v}^T\mathbf{s}_{k}, \\\mathbf{y}_{k} = \mathbf{B}_{k}\mathbf{s}_{k}+{\color{Red} (\alpha \mathbf{u}^T \mathbf{s}_{k}) }\mathbf{u} + {\color{Red} (\beta \mathbf{v}^T\mathbf{s}_{k} ) }\mathbf{v} ,$

進入BFGS的Tricky：

${\color{Red} \alpha \mathbf{u}^T\mathbf{s}_{k} } =1,{\color{Red} \beta \mathbf{v}^T\mathbf{s}_{k}}=-1$

$\mathbf{u}=\mathbf{y}_{k},\mathbf{v}= \mathbf{B}_{k}\mathbf{s}_{k},$

此時，根據公式可推導出 $\bigtriangledown \mathbf{D}_{k}$ 的值：

$\mathbf{{\color{Red} \bigtriangledown \mathbf{B}_{k}=\frac{\mathbf{y}_k \mathbf{y}_k^T}{\mathbf{y}_k^T\mathbf{s}_{k}} -\frac{\mathbf{B}_{k}\mathbf{s}_{k}\mathbf{s}_{k}^T\mathbf{B}_{k}}{\mathbf{s}_{k}^T \mathbf{B}_{k} \mathbf{s}_{k}}}},$

$\mathbf{B}_{k+1}=\mathbf{B}_{k}+\frac{\mathbf{y}_k \mathbf{y}_k^T}{\mathbf{y}_k^T\mathbf{s}_{k}} -\frac{\mathbf{B}_{k}\mathbf{s}_{k}\mathbf{s}_{k}^T\mathbf{B}_{k}}{\mathbf{s}_{k}^T \mathbf{B}_{k} \mathbf{s}_{k}},$

對比DFP的公式和BFGS的公式可以發現，更新方式只是 $\mathbf{s}_{k}$ 和 $\mathbf{y}_{k}$ 的位置互換。

通過公式可以得到近似的Hessian矩陣，但在實際更新中使用的搜索方向是 $\mathbf{d}_k = -\mathbf{B}_k^{-1}\mathbf{g}_k$ ，這裏使用 $\mathbf{Sherman-Morrison}$ 公式直接給出 $\mathbf{B}_{k+1}^{-1}$ 與 $\mathbf{B}_{k}^{-1}$ 間的關係：

$\mathbf{B}_{k+1}^{-1}=(I-\frac{\mathbf{s}_k \mathbf{y}_k^T}{\mathbf{y}_k^T\mathbf{s}_{k}}) \mathbf{B}_{k}^{-1} (I-\frac{\mathbf{y}_k \mathbf{s}_k^T}{\mathbf{y}_k^T\mathbf{s}_{k}}) + (I-\frac{\mathbf{s}_k \mathbf{s}_k^T}{\mathbf{y}_k^T\mathbf{s}_{k}}),$

$\mathbf{B}_{k+1}^{-1}=\mathbf{B}_{k}^{-1}+(\frac{1}{\mathbf{s}_{k}^T\mathbf{y}_{k}}+\frac{\mathbf{y}_{k}^T\mathbf{B}_{k}^{-1}\mathbf{y}_{k}}{(\mathbf{s}_{k}^T\mathbf{y}_{k})^2})\mathbf{s}_{k}\mathbf{s}_{k}^T-\frac{1}{\mathbf{s}_{k}^T\mathbf{y}_{k}}(\mathbf{B}_{k}^{-1}\mathbf{y}_{k}\mathbf{s}_{k}^T+\mathbf{s}_{k}\mathbf{y}_{k}^T\mathbf{B}_{k}^{-1}),$

至此，BFGS算法可以使用類似DFP的算法流程進行迭代更新。

優化算法——牛頓法與擬牛頓法(DFP / BFGS)

一、牛頓法

二、擬牛頓法

2.0 擬牛頓條件

2.1. DFP ${\color{Red} \mathbf{s}_{k}= \mathbf{D}_{k+1}\mathbf{y}_{k}}.$

2.2. BFGS ${\color{Red} \mathbf{y}_{k} = \mathbf{B}_{k+1}\mathbf{s}_{k}},$

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

.NET週刊【5月第2期 2024-05-12】

優化算法——牛頓法與擬牛頓法(DFP / BFGS)

學習筆記3——LFM算法(Latent Factor Model)

學習筆記1——個性化推薦算法綜述

學習筆記2——個性化召回算法綜述

Hive SQL——技能 - 解析json列表，直至字段維度

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結