优化问题
优化问题的一般形式
最小化: f 0 ( x ) f_0(x) f0(x)
条件: f i ( x ) ≤ b i , i = 1 , … , m f_i(x)\leq b_i, i=1,\ldots,m fi(x)≤bi,i=1,…,m
其中 f 0 ( x ) f_0(x) f0(x)为目标函数, 条件里的不等式是限制条件
举例:
极大似然估计
如果 L ( μ , σ ) L(\mu,\sigma) L(μ,σ)是一个极大似然估计问题中的似然函数, 其中 μ , σ \mu,\sigma μ,σ分别是期望和方差, 那么极大似然估计的问题转化为
最小化: − L ( μ , σ ) -L(\mu,\sigma) −L(μ,σ)
条件: σ ≥ 0 \sigma \geq0 σ≥0
最小二乘
如果 A x × k A_{x\times k} Ax×k是一个矩阵, b ∈ R n b\in\mathbb{R}^n b∈Rn是一个向量, 对于 x ∈ R k x\in\mathbb{R}^k x∈Rk
最小化: f 0 ( x ) = ∣ A x − b ∣ 2 f_0(x)=|Ax-b|^2 f0(x)=∣Ax−b∣2
凸优化问题
- 凸优化问题的条件, f 0 , f 1 , … , f m f_0,f_1,\dots,f_m f0,f1,…,fm都是凸函数
- 凸优化问题的特点, 局部最优等价于全局最优
- 凸优化问题的求解, 几乎总是现成的工具来求解
凸优化的应用
- 凸优化问题逼近非凸优化问题, 寻找非凸问题的初始点
- 利用对偶问题的凸性给原问题提供下界估计
- 凸优化问题可以给非凸问题带来一些启发
凸集合与凸函数
凸集合定义
如果一个集合 Ω \Omega Ω中任何两个点之间的线段上任何一个点还属于 Ω \Omega Ω, 那么 Ω \Omega Ω就是一个凸集合
λ x 1 + ( 1 − λ ) x 2 ∈ Ω , ∀ x 1 , x 2 ∈ Ω , λ ∈ ( 0 , 1 ) \lambda x_1+(1-\lambda)x_2\in\Omega ,\forall x_1, x_2\in\Omega,\lambda\in(0,1) λx1+(1−λ)x2∈Ω,∀x1,x2∈Ω,λ∈(0,1)
凸函数定义
如果一个函数 f f f定义域 Ω \Omega Ω是凸集, 而且对于任何两点, 以及两点之间线段上任意一个点都有
f ( λ x 1 + ( 1 − λ ) x 2 ≤ λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) , ∀ x 1 , x 2 ∈ Ω , λ ∈ ( 0 , 1 ) f(\lambda x_1+(1-\lambda)x_2\leq\lambda f(x_1)+(1-\lambda)f(x_2),\forall x_1,x_2\in\Omega,\lambda\in(0,1) f(λx1+(1−λ)x2≤λf(x1)+(1−λ)f(x2),∀x1,x2∈Ω,λ∈(0,1)
函数的上境图
假设 f f f是一个定义在 Ω \Omega Ω上的函数, 区域 { ( x , y ) : y ≥ f ( x ) , ∀ x ∈ Ω } \{(x,y):y\geq f(x),\forall x\in\Omega\} {
(x,y):y≥f(x),∀x∈Ω}就是 f f f的上境图
上境图就是函数图像上方的部分区域
凸集合与凸函数
一个函数是凸函数当且仅当 f f f的上境图是凸集合
凸集合与凸函数有很多相对应的性质可以由这个结论来进行链接
凸组合
对于任何 n n n个点 { x i } i = 1 n \{x_i\}^n_{i=1} {
xi}i=1n, 以及权重系数 { w i } i = 1 n \{w_i\}^n_{i=1} {
wi}i=1n, 若权重系数非负 w 1 ≥ 0 w_1\geq 0 w1≥0而且 ∑ i = 1 n w i = 1 \sum\limits^n_{i=1}w_i=1 i=1∑nwi=1, 则线性组合
S = ∑ i = 1 n w i x i S=\sum\limits^n_{i=1}w_ix_i S=i=1∑nwixi
为一个凸组合
凸组合的物理意义可以理解成 n n n个重量为 w i w_i wi的点的整体重心
集合的凸包
n n n个点 { x i } i = 1 n 的 全 部 凸 组 合 就 构 成 \{x_i\}^n_{i=1}的全部凸组合就构成 { xi}i=1n的全部凸组合就构成{x_1}^n_{i=1}$$的凸包
函数的凸闭包
如果 C C C是函数 f f f的上境图, C ˉ \bar{C} Cˉ是 C C C的凸包, 那么以 C ˉ \bar C Cˉ为上境图的函数称为 f f f的凸闭包
集合的凸包的性质
若 C ˉ \bar C Cˉ是 C C C凸包, 那么
- C ⊂ C ˉ C\subset\bar C C⊂Cˉ
- C C C的支撑平面也是 C ˉ \bar C Cˉ的支撑平面, 反之亦然
函数的凸闭包的性质
若 g g g是 f f f的凸闭包, 那么
- g ≤ f g\leq f g≤f
- inf { g } = inf f \inf\{g\}=\inf f inf{ g}=inff
凸集合性质
- 假设 Ω \Omega Ω是一个凸集合, 那么 Ω \Omega Ω任何子集的凸包仍包含于 Ω \Omega Ω
琴身不等式
如果 f : Ω → R f:\Omega\rightarrow\mathbb{R} f:Ω→R是一个凸函数, 则对于任何 { x i ∈ Ω } i = 1 n \{x_i\in\Omega\}^n_{i=1} {
xi∈Ω}i=1n, 以及凸组合 ∑ i = 1 n w i x i \sum\limits^n_{i=1}w_ix_i i=1∑nwixi都有
∑ i = 1 n w i f ( x i ) ≥ f ( ∑ i = 1 n w i x i ) \sum\limits^n_{i=1}w_if(x_i)\geq f(\sum\limits^n_{i=1}w_ix_i) i=1∑nwif(xi)≥f(i=1∑nwixi)
- 任意多个凸集合的交集仍然是凸集合
- 任意多个凸函数的逐点上确界仍是凸函数
- 固定一个凸函数的若干个变量, 所得的函数仍然是凸函数
- 凸函数的sublevel set都是凸集合
- 假设 T : V → W T:V \rightarrow W T:V→W是一个线性映射, 则
- 若 Ω V \Omega_V ΩV是 V V V中的凸集合, 则 Ω W = T ( Ω v ) \Omega_W=T(\Omega_v) ΩW=T(Ωv)是 W W W中的凸集合
- 若 Ω W \Omega_W ΩW是 W W W中的凸集合, 则 Ω V = T − 1 ( Ω W ) \Omega_V=T^{-1}(\Omega_W) ΩV=T−1(ΩW)是 V V V中的凸集合
-
凸函数的非负线性组合仍是凸函数, f 1 , … , f k f_1,\dots,f_k f1,…,fk是凸函数, 而且 w i ≥ 0 w_i\geq 0 wi≥0, 则 ∑ i = 1 k w i f k \sum\limits^k_{i=1}w_if_k i=1∑kwifk也是凸函数
若 f : R n → R f:\mathbb{R}^n\rightarrow\mathbb{R} f:Rn→R是凸函数, A ∈ R n × m , b ∈ R n A\in\mathbb{R}^{n\times m},b\in\mathbb{R}^n A∈Rn×m,b∈Rn, 那么复合函数 g ( x ) = f ( A x + b ) g(x)=f(Ax+b) g(x)=f(Ax+b)还是凸函数 -
若凸集合 Ω \Omega Ω的边界 C C C是一个可微曲线, 则 C C C在任何一点上的切线(平面)都是这个凸集合的支撑线(平面)
若凸集合 Ω \Omega Ω的边界 C C C是一个二阶可微曲线, 则C在任何一点上的曲率向量都指向 Ω \Omega Ω内部
曲率向量的物理意义是加速方向或者受力方向
-
若一个凸函数一阶可微, 那么凸函数的一阶近似不大于函数本身
f ( x ) ≥ f ( x 0 ) + ( Δ f ( x 0 ) ) T ⋅ ( x − x 0 ) f(x)\geq f(x_0)+(\Delta f(x_0))^T\cdot(x-x_0) f(x)≥f(x0)+(Δf(x0))T⋅(x−x0)
若一个凸函数二阶可微, 那么这个函数的二阶导数非负(半正定) -
若 Ω \Omega Ω是凸集合, 那么 Ω \Omega Ω在任何一个平面上的投影仍是凸集合(平行光源投影)
若 Ω ⊂ R n \Omega\subset\mathbb{R}^n Ω⊂Rn是凸集合, 那么
Ω n ^ = { ( x 1 / x n , … , x n − 1 / x n , 1 ) : ( x 1 , … , x n ) ∈ Ω 且 x n ≠ 0 } \Omega_{\hat{n}}=\{(x_1/x_n,\dots,x_{n-1}/x_n,1):(x_1,\dots,x_n)\in\Omega且x_n\neq 0\} Ωn^={ (x1/xn,…,xn−1/xn,1):(x1,…,xn)∈Ω且xn=0}也是凸集合(点光源投影)
若 Ω ⊂ R n \Omega\subset\mathbb{R}^n Ω⊂Rn是一个凸集合, 那么椎体 t x : x ∈ Ω , t ∈ R + tx:x\in\Omega,t\in\mathbb{R}_+ tx:x∈Ω,t∈R+也是凸集合(点光源) -
若 f ( x , y ) f(x,y) f(x,y)是凸函数, 那么 g ( x ) = inf ( x , y ) ∈ Ω f ( x , y ) g(x)=\inf\limits_{(x,y)\in\Omega}f(x,y) g(x)=(x,y)∈Ωinff(x,y), 也是凸函数
若 f : R n → R f:\mathbb{R}^n\rightarrow\mathbb{R} f:Rn→R是凸函数, 那么 g ( x , t ) = t f ( x / t ) : R n + 1 → R g(x,t)=tf(x/t):\mathbb{R}^{n+1}\rightarrow\mathbb{R} g(x,t)=tf(x/t):Rn+1→R也是个凸函数
凸集分离定理
若 C , D C,D C,D分别是 R n \mathbb{R}^n Rn中的两个不交的非空凸集合, 如 C ∩ D = ∅ C\cap D=\empty C∩D=∅, 则一定存在向量 a ∈ R n a\in\mathbb{R}^n a∈Rn以及实数 b ∈ R b\in\mathbb{R} b∈R使得任何 x C ∈ C , x D ∈ D x_C\in C,x_D\in D xC∈C,xD∈D有 a T x C ≤ b a^Tx_C\leq b aTxC≤b以及 a T x D ≥ b a^Tx_D\geq b aTxD≥b
定理不等式的几何意义在于 C , D C,D C,D分别位于超平面 a T x = b a^Tx=b aTx=b的两边
共轭函数
如果 f : R n → R f:\mathbb{R}^n\rightarrow\mathbb{R} f:Rn→R是一个函数, 那么 f f f的共轭函数
f ∗ ( y ) = sup x ∈ d o m f ( y T x − f ( x ) ) f^*(y)=\sup\limits_{x\in domf}(y^Tx-f(x)) f∗(y)=x∈domfsup(yTx−f(x))
其中 f ∗ ( y ) f^*(y) f∗(y)的定义域是是的等式右边有上界的那些y
共轭函数的基本性质
- 共轭函数 f ∗ f^* f∗是一个凸函数
- 如果 g g g是 f f f的凸闭包, 那么 g ∗ = f ∗ g^*=f^* g∗=f∗
- 对一般的函数 f , f ∗ ∗ ≤ f f,f^{**}\leq f f,f∗∗≤f
- 如果 f f f是一个凸函数, 那么 f ∗ ∗ = f f^{**}=f f∗∗=f
- f ( x ) + f ∗ ( y ) ≥ x T y f(x)+f^*(y)\geq x^Ty f(x)+f∗(y)≥xTy
- 如果 f f f是凸函数而且可微, 那么 f ∗ ( y ) = x T ∇ f ( x ∗ ) − f ( x ∗ ) f^*(y)=x^T\nabla f(x^*)-f(x^*) f∗(y)=xT∇f(x∗)−f(x∗), 其中 x ∗ x^* x∗满足 ∇ f ( x ∗ ) = y \nabla f(x^*)=y ∇f(x∗)=y
- 如果 g ( x ) = f ( A x + b ) g(x)=f(Ax+b) g(x)=f(Ax+b), 则 g ∗ ( y ) = f ∗ ( A − T y ) − b T A − T y g*(y)=f*(A^{-T}y)-b^TA^{-T}y g∗(y)=f∗(A−Ty)−bTA−Ty
- 如果 f ( u , v ) = f 1 ( u ) + f 2 ( v ) f(u,v)=f_1(u)+f_2(v) f(u,v)=f1(u)+f2(v), 那么 f ∗ ( w , z ) = f 1 ∗ ( w ) + f 2 ∗ ( z ) f^*(w,z)=f_1^*(w)+f_2^*(z) f∗(w,z)=f1∗(w)+f2∗(z)
对偶问题
拉格朗日对偶问题
根据原函数与限制条件我们定义拉格朗日量 L ( x , λ , ν ) : R n + m + p → R L(x,\lambda,\nu):\mathbb{R}^{n+m+p}\rightarrow\mathbb{R} L(x,λ,ν):Rn+m+p→R
拉格朗日量:
L ( x , λ , ν ) = f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) + ∑ i = 1 p ν i h i ( x ) L(x,\lambda,\nu)=f_0(x) + \sum\limits^m_{i=1}\lambda_if_i(x)+\sum\limits^p_{i=1}\nu_ih_i(x) L(x,λ,ν)=f0(x)+i=1∑mλifi(x)+i=1∑pνihi(x)
根据拉格朗日函数我们定义拉格朗日对偶函数 g ( λ , ν ) : R m + p → R g(\lambda,\nu):\mathbb{R}^{m+p}\rightarrow\mathbb{R} g(λ,ν):Rm+p→R
拉格朗日对偶函数
g ( λ , μ ) = inf x ∈ D L ( x , λ , μ ) = inf x ∈ D f 0 ( x ) + ∑ i = 1 m λ i f i ( x ) + ∑ i = 1 p v i h i ( x ) \begin{aligned}g(\lambda,\mu)&=\inf\limits_{x\in\mathcal{D}}L(x,\lambda,\mu)\\&=\inf\limits_{x\in\mathcal{D}}f_0(x)+\sum\limits^m_{i=1}\lambda_if_i(x)+\sum\limits^p_{i=1}v_ih_i(x)\end{aligned} g(λ,μ)=x∈DinfL(x,λ,μ)=x∈Dinff0(x)+i=1∑mλifi(x)+i=1∑pvihi(x)
对偶函数为原问题提供下界
如果限制 λ i ≥ 0 , ∀ i = 1 , … , m \lambda_i\geq0,\forall i=1,\dots,m λi≥0,∀i=1,…,m,则
g ( λ , μ ) ≤ p ∗ g(\lambda,\mu)\leq p^* g(λ,μ)≤p∗
对偶问题
根据对偶函数,定义对偶问题的一般形式
最大化: g ( λ , μ ) g(\lambda,\mu) g(λ,μ)
不等条件: λ i ≥ 0 , i = 1 , … , m \lambda_i\geq 0,i=1,\dots,m λi≥0,i=1,…,m
我们把对偶问题的最大值点称为 ( λ ∗ , μ ∗ ) (\lambda^*,\mu^*) (λ∗,μ∗), 相应的最大值称为 d ∗ d^* d∗, 这里面的对偶函数 g g g定义域为 d o m g = { ( λ , μ ) : g ( λ , μ ) > − ∞ } domg=\{(\lambda,\mu):g(\lambda,\mu)>-\infty\} domg={
(λ,μ):g(λ,μ)>−∞}, 在 g g g的定义域中满足 λ i ≥ 0 \lambda_i\geq 0 λi≥0的那些 ( λ , μ ) (\lambda,\mu) (λ,μ)全体, 叫做对偶可行域, 也就是对偶问题的可行域
线性约束优化问题的对偶问题
当优化问题的限制条件是线性条件是, 可以利用共轭函数的一些性质方便的得到对偶问题
最小化: f 0 ( x ) f_0(x) f0(x)
不等条件: A X ≤ b AX\leq b AX≤b
等式条件: C x = d Cx=d Cx=d
这里面向量的比较 u < v u<v u<v指的是 u 0 u0 u0里面每一个分量都不小于 v v v里面对应的分量
根据对偶函数的性质我们已经知道在对偶可行域中, g ( λ , μ ) g(\lambda,\mu) g(λ,μ)总是不大于 p ∗ p^* p∗. 所以就有
弱对偶性:
d ∗ ≤ p ∗ d^*\leq p^* d∗≤p∗
若对偶性总是对的, 相对而言的强对偶性是指一部分优化问题来说, 有更好的结论
d ∗ = p ∗ d^*=p^* d∗=p∗
强对偶性不总成立
KKT
KKT条件
- f i ( x ∗ ) ≤ 0 , i = 1 , … , m f_i(x^*)\leq0,i=1,\dots,m fi(x∗)≤0,i=1,…,m
- h i ( x ∗ ) = 0 , i = 1 , … , p h_i(x^*)=0,i=1,\dots,p hi(x∗)=0,i=1,…,p
- λ i ∗ ≥ 0 , i = 1 , … , m \lambda^*_i\geq0,i=1,\dots,m λi∗≥0,i=1,…,m
- λ i ∗ f i ( x ∗ ) = 0 , i = 1 , … , m \lambda^*_if_i(x^*)=0,i=1,\dots,m λi∗fi(x∗)=0,i=1,…,m
- ∇ x L ( x ∗ , λ ∗ , μ ∗ ) = 0 \nabla_xL(x^*,\lambda^*,\mu^*)=0 ∇xL(x∗,λ∗,μ∗)=0
其中第四个条件是由 ∑ i = 1 m λ i ∗ f i ( x ∗ ) = 0 \sum\limits^m_{i=1}\lambda_i^*f_i(x^*)=0 i=1∑mλi∗fi(x∗)=0以及第一个和第三个条件共同得到的
KKT条件使用
- 对于凸优化问题, KKT条件是 x ∗ , ( λ ∗ , ν ∗ ) x^*,(\lambda^*,\nu^*) x∗,(λ∗,ν∗)分别作为原问题和对偶问题的最优解的充分必要条件
- 对于非凸优化问题, KKT条件仅仅是必要而非充分
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/99307.html