Optimization - Basics

1. Matrix Derivatives

Objective Function $f(x):\R^n\to\R$

1st-Order Gradient

一般规定为一个 Row Vector
$\frac{\partial f}{\partial x} \in R^{1 \times n}$
$\Delta x$ $\Delta f$
$f (x + Δ x) = f (x) + \frac{\partial f}{\partial x} Δ x$
在敲代码的时候，这样的规定能让 dimension 对得上，省略很多麻烦

不过在写公式的时候用另一种 Notation 会更方便
$\begin{matrix} \nabla f (x) = (\frac{\partial f}{\partial x})^{T} = (\begin{matrix} \frac{\partial f}{\partial x_{1}} \\ \frac{\partial f}{\partial x_{2}} \\ ⋮ \\ \frac{\partial f}{\partial x_{n}} \end{matrix}) \in R^{n} \end{matrix}$
2nd-Order Gradient

即 Hessian
$\begin{matrix} \nabla^{2} f (x) = \frac{\partial}{\partial x} \nabla f (x) = \frac{\partial^{2} f}{\partial x^{2}} = (\begin{matrix} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} x_{2}} & \dots & \frac{\partial^{2} f}{\partial x_{1} x_{n}} \\ \frac{\partial^{2} f}{\partial x_{2} x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} & \dots & \frac{\partial^{2} f}{\partial x_{2} x_{n}} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ \frac{\partial^{2} f}{\partial x_{n} x_{1}} & \frac{\partial^{2} f}{\partial x_{n} x_{2}} & \dots & \frac{\partial^{2} f}{\partial x_{n}^{2}} \end{matrix}) \in R^{n \times n} \end{matrix}$
Hessian 是 Symmetric Matrix，所以 Notation 无所谓，dimension 总是对的

可以用它对 objective function 进行 2nd-Order Taylor Expansion
$f (x + Δ x) = f (x) + \frac{\partial f}{\partial x} Δ x + \frac{1}{2} (Δ x)^{T} \frac{\partial^{2} f}{\partial x^{2}} (Δ x)$

Objective Function $g(y):\R^n\to\R^m$

1st-Order Gradient

$n\times m$ 的 Vector
$\begin{matrix} \nabla g (y) = \frac{\partial g}{\partial y} = (\begin{matrix} \frac{\partial g_{1}}{\partial y_{1}} & \frac{\partial g_{2}}{\partial y_{1}} & \dots & \frac{\partial g_{m}}{\partial y_{1}} \\ \frac{\partial g_{1}}{\partial y_{2}} & \frac{\partial g_{2}}{\partial y_{2}} & \dots & \frac{\partial g_{m}}{\partial y_{2}} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ \frac{\partial g_{1}}{\partial y_{n}} & \frac{\partial g_{2}}{\partial y_{n}} & \dots & \frac{\partial g_{m}}{\partial y_{n}} \end{matrix}) \in R^{n \times m} \end{matrix}$
其 transpose 也叫 Jacobian
$J (y) = (\frac{\partial g}{\partial y})^{T} \in R^{m \times n}$

Notes:

$\frac{\partial f}{\partial x} \in \R^{1\times n}$ $\frac{\partial g}{\partial y} \in \R^{n\times m}$ ，是为了让 Chain Rule 能 work
$f (g (y + Δ y)) = f (g (y)) + {\frac{\partial f}{\partial x} |}_{x = g (y)} {\frac{\partial g}{\partial y} |}_{y = y} Δ y$

2. Root Finding

$f(x)$ $x^*$ $f(x^*)=0$ ，其实就是找到 Equilibrium of Dynamics

In Continuous Time

使导数为 0 即可
${\nabla f (x) |}_{x = x^{*}} = 0$
In Discrete Time

$x_{k+1} = f(x_k)$ ，找到其 fixed point 即可
$x^{*} = f (x^{*})$

2.1 Newton's Method

用于 root finding 的最基础的一种算法

2.1.1 Algorithm

$f(x)$ $x^*$ $\grad f(x^*)=0$ ，那么

$f(x)$
$\begin{aligned} \nabla f (x + Δ x) & = \nabla f (x) + \frac{\partial}{\partial x} \nabla f (x) \cdot Δ x \\ = \nabla f (x) + \frac{\partial}{\partial x} [(\nabla f (x))^{T} \cdot Δ x] \end{aligned}$
$\Delta x$

$Δ x = \underset{"descent"}{\underset{⏟}{-}} \overset{"learning rate"}{\overset{⏞}{(\nabla^{2} f (x))^{- 1}}} \underset{"gradient"}{\underset{⏟}{\nabla f (x)}}$
- $\grad^2 f(x) > 0 \longrightarrow$ "Descent" (minimization)
- $\grad^2 f(x) < 0 \longrightarrow$ "Ascent" (maximization)
$x$
$x \leftarrow x + Δ x$
Repeat Step 1-3 until convergence

Notes:

基于现有的条件，Newton's Method only converges to the closest Fixed Point to the Initial Guess

鬼知道找到的 Root 是 {global / local} {maximum / minimum} 还是 saddle point，反正你自己看着办吧

2.1.2 Regularization

在 2.1.1 的 step 2 中提及了保证 descent 的条件

$\grad^2 f(x) > 0$ $\forall x$ $f(x)$ is strongly convex), then we can always find a minimum with Newton's Method

但很遗憾的是，现实中 it is usually not the case for nonlinear problems

解决方案即 regularization，做法如下

$\beta$
$H = \grad^2 f(x)$ is Positive Definite
$H > 0$
if not, then
$H \leftarrow H + β I$
$H$ is Positive Definite

It guarantees descent

Also called "Damped Newton"

2.2 Line Search (Back Tracking)

Newton's Method 的 step size 并不是所谓 adaptive 的，到最后总会有那么一步会 overshoots the minimum

这个方法算是给 Newton's Method 打的补丁，to make sure step agrees with linearization within some tolerance

$f(x + \Delta x)$ and "back track" until we get a good reduction value

$p$ be the Direction of Descent

$(\grad f(x))^Tp < 0$ ，请记住这一点

There are several effective strategies

2.2.1 Armijo Condition

or Sufficient Decrease Condition

Set
- $\alpha = 1$
- $c_1$
- $\alpha$ $b \in (0, 1)$
Check if
$f (x + α p) \leq f (x) + c_{1} α (\nabla f (x))^{T} p$
$\Delta x = \alpha p$
Update
$α \leftarrow b α$
and repeat Step 2-3 until Step 2 is fulfilled

一般各项参数取值为

b = 0.5 c_{1} = 0.1 \sim 10^{- 4}

下图中 acceptable 的部分表示这个 step length 没有 overshoot the minimum

不 acceptable 的部分显然是 overshoot 了，即斜虚线比函数本身还要小

armijo condition

2.2.2 Curvature Condition

从 2.2.1 的图中不难看出 $\alpha$ 够小就能满足 Armijo Condition

$\alpha$ 过小

(\nabla f (x + α p))^{T} p \geq c_{2} (\nabla f (x))^{T} p

where

c_{2} \in (c_{1}, 1)

这个 condition 的要求可以理解为 "The slope at the next iterate is 'less negative' than the current slope"

$(\grad f(x))^Tp < 0$ ，slope 有两种情况

比 current slope 更接近 0，函数值更接近 minimum
直接是 positive slope，函数值越过 minimum

curvature condition

还有一种更加严格的 curvature condition 版本

| (\nabla f (x + α p))^{T} p | \leq | c_{2} (\nabla f (x))^{T} p |

用绝对值限制之后，就只有把 slope 往 0 上靠这一个选择了

2.2.3 Wolfe Conditions

Wolfe Conditions 就是把 Armijo Condition 和 Curvature Condition 组合在一起

wolfe condition

弱 Wolfe Condition
$\begin{aligned} f (x + α p) & \leq f (x) + c_{1} α (\nabla f (x))^{T} p \\ (\nabla f (x + α p))^{T} p & \geq c_{2} (\nabla f (x))^{T} p \end{aligned}$
强 Wolfe Condition
$\begin{aligned} f (x + α p) & \leq f (x) + c_{1} α (\nabla f (x))^{T} p \\ | (\nabla f (x + α p))^{T} p | & \leq | c_{2} (\nabla f (x))^{T} p | \end{aligned}$

3. Unconstrained Minimization

$x^*$ $f(x)$

min_{x} f (x)

3.1 Hessian 正定之必要性

2.1 $(\grad f(x))^T$

(\nabla f (x))^{T} Δ x = - (\nabla f (x))^{T} (\nabla^{2} f (x))^{- 1} \nabla f (x)

$f(x + \Delta x)$ 进行 2nd-Order Taylor Expansion

\begin{aligned} f (x + Δ x) & = f (x) + \frac{\partial f}{\partial x} Δ x + \frac{1}{2} (Δ x)^{T} \frac{\partial^{2} f}{\partial x^{2}} (Δ x) \\ = f (x) + (\nabla f (x))^{T} Δ x + \frac{1}{2} (Δ x)^{T} \nabla^{2} f (x) Δ x \\ = f (x) - (\nabla f (x))^{T} (\nabla^{2} f (x))^{- 1} \nabla f (x) + \frac{1}{2} [(\nabla^{2} f (x))^{- 1} \nabla f (x)]^{T} \nabla^{2} f (x) [(\nabla^{2} f (x))^{- 1} \nabla f (x)] \\ = f (x) - (\nabla f (x))^{T} (\nabla^{2} f (x))^{- 1} \nabla f (x) + \frac{1}{2} (\nabla f (x))^{T} (\nabla^{2} f (x))^{- 1} \nabla f (x) \\ = f (x) - \frac{1}{2} (\nabla f (x))^{T} (\nabla^{2} f (x))^{- 1} \nabla f (x) \end{aligned}

$\grad^2f(x) >0$ $f(x+\Delta x)$ $f(x)$ 的数值会下降，即达到 Minimum 而不是 Maximum 或者 Saddle Point 这种奇奇怪怪的地方

3.2 Local Minimum 判断标准

min_{x} f (x)

$x^*$ $f(x)$ is continuously differentiable, then

1st-Order Necessary Condition
$\nabla f (x^{*}) = 0$
2nd-Order Necessary Condition
$\nabla^{2} f (x^{*}) \geq 0$
2nd-Order Sufficient Condition

$x^*$ Strict Local Minimizer $f(x)$
$\nabla^{2} f (x^{*}) > 0$

4. Constrained Minimization

$x^*$ $f(x)$ subjected to the following constraints

\begin{aligned} min_{x} & f (x) \\ subject to & g (x) = 0 \\ h (x) \leq 0 \end{aligned}

我们最终要把一个 Constrained Problem 转化为一个 Unconstrained Problem 才能解它

4.1 Equality Constraints

\begin{aligned} min_{x} & f (x) \\ subject to & g (x) = 0 \end{aligned}

where

$f(x): \R^n\to\R$
$g(x): \R^n\to\R^m$

The 1st-Order Necessary Condition to find the minimum is

$\grad f(x) = 0$

只要在 FREE directions 上满足即可
$g(x) = 0$

$\grad f(x)$ 的 Free Direction

4.1.1 Lagrangian

Lagrangian 能把上述的 Constrained Problem 转化为 Unconstrained Problem，以下是推导过程

关于 Equality Constraint

$x$ $\Delta x$ $g(x)=0$ ，那这个位移就在 "Free Direction" 上，即
$g (x + Δ x) = 0$
进行 1st-Order Taylor Expansion 得到
$g (x + Δ x) = g (x) + (\nabla g (x))^{T} Δ x$
$\grad g(x)$ 是个 Jacobian

$g(x) = 0$ ，所以需要满足的其实是
$(\nabla g (x))^{T} Δ x = 0$
关于 Objective Function

$x$ $\Delta x$ ，进行 1st-Order Taylor Expansion 得到
$f (x + Δ x) = f (x) + (\nabla f (x))^{T} Δ x$
$x$ $x^*$ $(\grad f(x))^T\Delta x < 0$ $x$ $-\Delta x$ ，那么
$f (x - Δ x) = f (x) + (\nabla f (x))^{T} (- Δ x)$
$(\grad f(x))^T(-\Delta x) < 0$ ，它也能继续下降

Tangent Space 是对称的，我懒得解释了你不懂就自己搜搜看吧...

$x$ $x$ 就必须满足
$\begin{aligned} (\nabla f (x))^{T} (Δ x) & \geq 0 \\ (\nabla f (x))^{T} (- Δ x) & \geq 0 \end{aligned}$
$x = x^*$ 要满足
$(\nabla f (x))^{T} Δ x = 0$
Summary

从上述两个部分推出的结论是
$\begin{aligned} (\nabla f (x))^{T} Δ x & = 0 \\ (\nabla g (x))^{T} Δ x & = 0 \end{aligned}$
$\grad f(x)$ $\grad g(x)$ $\Delta x$ $\grad f(x)$ parallel $\grad g(x)$
$\nabla f (x) ∥ \nabla g (x)$
或者写成
$\nabla f (x) + \nabla g (x) λ = 0$
[ Example ]

你会看到 minimum 处的 objective function 和 equality constraint 的 gradient 是平行的
$\begin{aligned} min_{x_{1}, x_{2}} & x_{1}^{2} + x_{2}^{2} \\ subject to & (x_{1} - 2)^{2} + x_{2}^{2} - 1 = 0 \end{aligned}$
Lagrangian

Based on this gradient condition, we define Lagrangian as
$L (x, λ) = f (x) + λ^{T} g (x)$
such that the 1st-Order Necessary Condition becomes
$\nabla L (x, λ) = 0$
or equivalently
$\begin{aligned} \nabla_{x} L (x, λ) & = \nabla_{x} f (x) + \nabla_{x} g (x) λ = 0 \\ \nabla_{λ} L (x, λ) & = g (x) = 0 \end{aligned}$

4.1.2 KKT System

KKT = Karush-Kuhn-Tucker，更常见的相关概念一般是 KKT Conditions，见 4.2.2

$\grad L(x, \lambda) = 0$ $(x^*, \lambda^*)$ 。首先进行 1st-Order Taylor Expansion

\begin{aligned} {\begin{cases} \nabla_{x} L (x, λ) = \nabla_{x} f (x) + \nabla_{x} g (x) λ = 0 \\ \nabla_{λ} L (x, λ) = g (x) = 0 \end{cases} \\ ⟶ & {\begin{cases} \nabla_{x} L (x + Δ x, λ + Δ λ) = \nabla_{x} L (x, λ) + \frac{\partial^{2} L}{\partial x^{2}} Δ x + \frac{\partial^{2} L}{\partial x \partial λ} Δ λ = 0 \\ \nabla_{λ} L (x + Δ x, λ + Δ λ) = g (x) + (\frac{\partial g}{\partial x})^{T} Δ x + \frac{\partial g}{\partial λ} Δ x = 0 \end{cases} \end{aligned}

$\frac{\partial^2 L}{\partial x \partial \lambda} = \frac{\partial g}{\partial x}$ $\frac{\partial g}{\partial \lambda} = 0$ , then

{\begin{cases} \nabla_{x} L (x + Δ x, λ + Δ λ) = \nabla_{x} L (x, λ) + \frac{\partial^{2} L}{\partial x^{2}} Δ x + \frac{\partial g}{\partial x} Δ λ = 0 \\ \nabla_{λ} L (x + Δ x, λ + Δ λ) = g (x) + (\frac{\partial g}{\partial x})^{T} Δ x = 0 \end{cases}

重新组织一下

\begin{aligned} \frac{\partial^{2} L}{\partial x^{2}} Δ x + \frac{\partial g}{\partial x} Δ λ & = - \nabla_{x} L (x, λ) \\ (\frac{\partial g}{\partial x})^{T} Δ x & = - g (x) \end{aligned}

写成 Matrix Form，就是 KKT System

[\begin{matrix} \frac{\partial^{2} L}{\partial x^{2}} & \frac{\partial g}{\partial x} \\ (\frac{\partial g}{\partial x})^{T} & 0 \end{matrix}] [\begin{matrix} Δ x \\ Δ λ \end{matrix}] = [\begin{matrix} - \nabla_{x} L (x, λ) \\ - g (x) \end{matrix}]

4.1.3 Gauss-Newton Method

4.1.2 $\frac{\partial^2 L}{\partial x^2}$ 的运算，一般是用 1st-Order Taylor Expansion 来算

\frac{\partial^{2} L}{\partial x^{2}} = \nabla_{x}^{2} f (x) + \underset{This is a Tensor}{\underset{⏟}{\frac{\partial}{\partial x} [\nabla_{x} g (x) λ]}}

The 2nd term is expensive to compute because it is a bloody Tensor!

So we just drop it! 我们不要第二项辣！蛤！蛤！蛤！

Gauss-Newton 会导致 slightly slower convergence than Full-Newton

会要跑更多的 Iterations，但是单个 Iteration 变 cheaper 了

4.2 Inequality Constraints

\begin{aligned} min_{x} & f (x) \\ subject to & g (x) = 0 \\ h (x) \leq 0 \end{aligned}

4.2.1 LICQ

让 KKT Condition 成立的条件

Active Set $\mathcal{A}(x)$ $x$ consists of the equality constraintsinequality constraints $h_i(x)=0$
$x$ Active Set $\mathcal{A}(x)$ , we say that the Linear Independence Constraint Qualification (LICQ) holds if the gradients of all the active constraints are linearly independent"

4.2.2 KKT Conditions

具有不等约束的优化问题的 1st-Order-Necessary Conditions = Karush-Kuhn-Tucker (KKT) Conditions

完全体 Lagrangian

$\lambda$ $\mu$ 两个 Lagrangian Multiplier
$L (x, λ, μ) = f (x) + λ^{T} g (x) + μ^{T} h (x)$
$x^*$ LICQ $x^*$ $f(x)$ $g_i(x)$ $h_i(x)$ $\lambda^*$ $\mu^*$ such that the KKT Conditions are satisfied"
KKT Conditions
$\begin{aligned} Stationarity Condition & \nabla_{x} L (x^{*}, λ^{*}, μ^{*}) = 0 \\ Primal Condition & {\begin{cases} g (x^{*}) = 0 \\ h (x^{*}) \leq 0 \end{cases} \\ Dual Feasibility & μ_{i} \geq 0 \forall i \\ Complementary Slackness & μ_{i} h_{i} (x^{*}) = 0 \forall i \end{aligned}$

前两个 condition 真没什么好说的，后两个比较 tricky

Complementary Slackness 在满足 Dual Feasibility 的情况下，其意义是 $\mu_i^* = 0$ $h_i(x^*)=0$ "

$h(x)$ 是一个点，会有三种情况：

$h(x) < 0$ $\mu_i = 0$ )
$h(x) = 0$ $\mu_i \geq 0$ )
$h(x) > 0$ - infeasible point

complementary slackness