离散LQR：原理，求解与拓展

该文档用以总结离散LQR的基本原理，反馈控制率的求解和一些拓展（时变系统，跟踪命题等）。主要参考的是Stanford的课程EE363: Linear Dynamical Systems的部分课件。

1 有限时域离散LQR的基本原理

这里我们首先考虑一个离散的线性系统：

x t + 1 = A x t + B u t, x 0 = x i n i t

LQR的目标就在于，找到一组控制序列

u0,u1,... 能够使得：

x0,x1,... 尽量小，即将状态调节到零点；
u0,u1,... 尽量小，即控制器付出较小的努力；

然而，这两个目标往往是冲突的，因为较大的控制作用u 能更快地将状态调节到零点。因此LQR就是根据需要设计出一组控制率来实现上面两个目标的权衡。

为此，我们定义如下的二次代价函数（quadratic cost function）：

J (U) = \sum τ = 0 N - 1 (x T τ Q x τ + u T τ R u τ) + x T N Q f x N

这里

U=(u0,u1,...,uN−1) ，且

Q = Q T \geq 0, Q f = Q T f \geq 0, R = R T > 0

分别被称为 state cost, final state cost, input cost 矩阵。

代价函数中的三项分别用来衡量状态偏差，输入偏差以及最终状态偏差。Q 和 R 用来确定状态和输入的相对权重。
因此，LQR的问题就是，找到一组序列：ulqr0,...,ulqrN−1 来最小化代价函数 J(U) 。

通常 Q 和 R 的形式为：

R = ρ I, Q = Q f = C T C

这里

C∈Rp×n,ρ∈R,ρ>0 。

于是，代价函数就可以变形为：

J (U) = \sum τ = 0 N ∥ y τ ∥ 2 + ρ \sum τ = 0 N - 1 ∥ u τ ∥ 2

这里

y=Cx ，

ρ√ 在这里给出了输出和输入的相对权重。

2 基于动态规划（Dynamic Programming）的求解

LQR命题也可以通过最小二乘（least-squares）的方法求解，但这里我们只讨论基于动态规划的求解方法。
这里我们首先定义一个价值函数（value function）Vt:Rn→R

V t (z) = min u t, . . ., u N - 1 \sum τ = t N - 1 (x T τ Q x τ + u T τ R u τ) + x T N Q f x N

满足约束

xt=z,xτ+1=Axτ+Buτ,τ=t,...,N−1

即，Vt(z) 给出的是从 t 时刻的状态 z 开始的LQR的代价函数。当 t=0 时，V0(x0) 就是原始的LQR代价函数。

我们可以证明 Vt 是二次型，即Vt(z)=zTPtz ，其中 Pt=PTt≥0 。
首先，我们可以知道，当 t=N 时有：

V N (z) = z T Q f z

因此我们有

PN=Qf 。

现在我们假设Vt+1(z) 已知，根据动态规划（DP）的原理，有：

V t (z) = min w (z T Q z + w T R w + V t + 1 (A z + B w))

zTQz+wTRw 是从当前时刻的代价值
Vt+1(A+Bwz) 是从下一时刻到 N 时刻的代价值。

因此这就是一个典型的动态规划问题。

因为当前状态 z 与优化命题无关，因此上面的优化命题也可以改写为：

V t (z) = z T Q z + min w (w T R w + V t + 1 (A z + B w))

也就是说，当前时刻

t 的控制率

ut 取值应该如下：

u lqr t = arg min w (w T R w + V t + 1 (A z + B w))

假设Vt+1(z)=zTPt+1z,Pt+1=PTt+1≥0 ，我们可以证明Vt 具有同样的形式。
将Vt+1(z)=zTPt+1z 代入上面Vt(z) 的表达式，即有：

V t (z) = z T Q z + min w (w T R w + (A z + B w) T P t + 1 (A z + B w))

对于这样一个无约束的凸优化命题令其导数等于0即可以得到最优解。导数等于0得到的等式为：

2 w T R + 2 (A z + B w) T P t + 1 B = 0

因此，当前时刻的最优控制率为：

w * = - (R + B T P t + 1 B) - 1 B T P t + 1 A z

将上面的结果代入Vt(x) 的表达式，即

V t (z) = z T Q z + w * T R w * + (A z + B w *) T P t + 1 (A z + B w *) = z T (Q + A T P t + 1 A - A T P t + 1 B (R + B T P t + 1) - 1 B T P t + 1 A) z = z T P t z

其中，

Pt=Q+ATPt+1A−ATPt+1B(R+BTPt+1)−1BTPt+1A

容易证明 Pt=PTt≥0

因此，LQR的求解过程可以总结如下：

set PN:=Qf
for t=N,...,1, $P t - 1 : = Q + A T P t A - A T P t B (R + B T P t) - 1 B T P t A$
for t=0,...,.N−1 , define Kt:=−(R+BTPt+1B)−1BTPt+1A
for t=0,...,.N−1 , ulqrt=Ktxt

从上面的推导我们可以看出，LQR中，最优控制率是状态的线性反馈。

当t 远小于 N 的时候，稳态的 Pss 可以近似收敛并满足下面的方程：

P s s = Q + A T P s s A - A T P s s B (R + B T P s s) - 1 B T P s s A

这个方程被称为代数黎卡提方程（algebraic Riccati equation, ARE）。
因此，当时刻

t 距时域终点

N 较远时，LQR的控制率可以近似看作状态

x 的常数反馈，即

u t = K s s x t, K s s = - (R + B T P s s B) - 1 B T P s s A

3 一些拓展

针对时变系统

x t + 1 = A t x t + B t u t

我们可以定义对应的时变代价函数

J = \sum τ = 0 N - 1 (x T τ Q τ x τ + u T τ R τ u τ) + x T N Q f x N

可以看到，终点时刻的加权阵 Qf 并没有发生变化，因此前面根据DP推导得到的LQR的架构可以直接拓展到时变系统。显然，前面提到的稳态情况下的常值反馈在时变系统中将不复存在。

针对跟踪命题，代价函数可以写成

J = \sum τ = 0 N - 1 (x τ - x ¯ τ) T Q τ (x τ - x ¯ τ) + \sum τ = 0 N - 1 (u τ - u ¯ τ) T R τ (u τ - u ¯ τ)

（简要起见这里舍去了终端状态的代价）
其中，

x¯τ 和

u¯τ 分别是状态和输入要跟踪的轨迹。
通过一些附加的推导，前面DP推导的结果也可以运用在这样的跟踪命题中。

Ref.
Stanford, EE363: Linear Dynamical Systems

dymodi

发布了21 篇原创文章 · 获赞 79 · 访问量 15万+

私信关注

离散LQR：原理，求解与拓展

目录

1 有限时域离散LQR的基本原理

2 基于动态规划（Dynamic Programming）的求解

3 一些拓展

【面试准备】又一次失败的面试经历，题目离谱～资深软件测试工程师

TI C6678 DSP與PC Matlab 串口通信研究

離散LQR：原理，求解與拓展

優化命題的對偶性（Duality）

有效集法介紹（Active Set Method）

Entrance and Departure Detection Base on BLE Beacon RSSI - Filtering and Shaving

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結