Derivative of Matrix-Vector Function
Two variable functional for 𝑥 = 𝑥1, 𝑥2 𝑓 𝑥 = 𝐴𝑥 22 + 𝑏𝑇𝑥, where 𝐴 = 1 2
1 1 , 𝑏 = 1 2 𝑓 𝑥 = 𝐴𝑥 𝑇 𝐴𝑥 + 𝑏𝑇𝑥 = 𝑥1 + 2𝑥2
𝑥1 + 𝑥2
𝑇 𝑥1 + 2𝑥2
𝑥1 + 𝑥2 + 𝑥1 + 2𝑥2 𝑓 𝑥 = 2𝑥12 + 6𝑥1𝑥2 + 5𝑥22 + 𝑥1 + 2𝑥2
Gradients
𝛻𝑥𝑓 𝑥 = 𝑑
𝑑𝑥 𝑓 𝑥 = 𝜕𝑓(𝑥) 𝜕𝑥Τ 1
𝜕𝑓(𝑥) 𝜕𝑥Τ 2 = 4𝑥1 + 6𝑥2 + 1 6𝑥1 + 10𝑥2 + 2
= 4 6 6 10
𝑥1
𝑥2 + 1 2
= 2𝐴𝑇𝐴𝑥 + 𝑏
Derivative of Matrix-Vector Function
Two variable functional for 𝑥 = 𝑥1, 𝑥2 𝑓 𝑥 = 𝐴𝑥 22 + 𝑏𝑇𝑥, where 𝐴 = 1 2
1 1 , 𝑏 = 1 2
𝑓 𝑥 = 𝐴𝑥 𝑇 𝐴𝑥 + 𝑏𝑇𝑥 = 2𝑥12 + 6𝑥1𝑥2 + 5𝑥22 + 𝑥1 + 2𝑥2
Gradient
𝛻𝑥𝑓 𝑥 = 𝜕𝑓(𝑥) 𝜕𝑥Τ 1
𝜕𝑓(𝑥) 𝜕𝑥Τ 2 = 4𝑥1 + 6𝑥2 + 1
6𝑥1 + 10𝑥2 + 2 = 2𝐴𝑇𝐴𝑥 + 𝑏
Hessian or Hessian Matrix 𝐻 : Second derivative of 𝑓(𝑥)
𝐻 =
𝜕2𝑓
𝜕𝑥12
𝜕2𝑓
𝜕𝑥1𝜕𝑥2
𝜕2𝑓
𝜕𝑥2𝜕𝑥1
𝜕2𝑓
𝜕𝑥22
= 4 6
6 10 = 2𝐴𝑇𝐴
Derivative of Matrix-Vector Function
Gradient of 𝑓 𝑥 : 𝛻𝑥𝑓 𝑥 =
𝜕𝑓
𝜕𝑥1
𝜕𝑓
𝜕𝑥2
⋮
𝜕𝑓
𝜕𝑥𝑛
Hessian of 𝑓 𝑥 : 𝐻(𝑓)
Derivative of Matrix-Vector Function
Jacobian of 𝑓 𝑥 : First derivative of a vector function f 𝑥 = [𝑓1 𝑥 , … , 𝑓𝑚 𝑥 ]𝑇
Example
𝑑
𝑑𝑥 𝑥𝑇𝐴𝑇 = ( 𝑑
𝑑𝑥 𝐴𝑥)𝑇=?
𝑑
𝑑𝑥 𝐴𝑥 =?
Derivative of Matrix-Vector Function
𝑓 𝑥 = 𝑥𝑇𝐴𝑥
𝛻𝑥𝑓 𝑥 = 𝐴𝑥 + 𝐴𝑇𝑥
= 2𝐴𝑥 if 𝐴 is symmetric.
𝑓 𝑥 = 𝐴𝑥 − 𝑏 22 + 𝑐𝑇𝑥, 𝑓 𝑥 = 𝐴𝑥 − 𝑏 𝑇 𝐴𝑥 − 𝑏 + 𝑐𝑇𝑥
𝛻𝑥𝑓 𝑥 = 𝛻𝑥(𝑥𝑇𝐴𝑇 − 𝑏𝑇) 𝐴𝑥 − 𝑏 + 𝑐
= 𝐴𝑇 𝐴𝑥 − 𝑏 + 𝐴𝑇 𝐴𝑥 − 𝑏 + 𝑐
= 2𝐴𝑇 𝐴𝑥 − 𝑏 + 𝑐
Least Squares
Linear equation: 𝐴𝑥 = 𝑏
4 2
2 1
−1 1
𝑥1 𝑥2 =
2 1 1
→ no solutions (불능, inconsistent)
𝐴𝑇𝑏 − 𝐴𝑇𝐴 ො𝑥 = 0 𝐴𝑇𝐴 ො𝑥 = 𝐴𝑇𝑏
ො
𝑥 = (𝐴𝑇𝐴)−1𝐴𝑇𝑏 = 𝐴𝔣𝑏 𝐴∗𝑏 − 𝐴∗𝐴 ො𝑥 = 0
𝐴∗𝐴 ො𝑥 = 𝐴∗𝑏
ො
𝑥 = (𝐴∗𝐴)−1𝐴∗𝑏 = 𝐴𝔣𝑏
Least Squares
Linear equation: 𝐴𝑥 = 𝑏
4 2
2 1
−1 1
𝑥1 𝑥2 =
2 1 1
→ no solutions (불능)
→ 𝐴𝑥 − 𝑏 ≠ 0 → What is the best solution minimizing errors between 𝐴𝑥 and 𝑏?
Optimization and Gradient
ො
𝑥 = 𝑎𝑟𝑔 min
𝑥 𝐴𝑥 − 𝑏 22 ≜ 𝐸 𝑥
𝛻𝑥𝐸 𝑥 = 𝑑𝐸 𝑥
𝑑𝑥 = 𝑑
𝑑𝑥 𝐴𝑥 − 𝑏 𝑇 𝐴𝑥 − 𝑏 = 2𝐴𝑇 𝐴𝑥 − 𝑏 = 0
ො
𝑥 = (𝐴𝑇𝐴)−1𝐴𝑇𝑏 𝐴𝑇𝑏 − 𝐴𝑇𝐴 ො𝑥 = 0
𝐴𝑇𝐴 ො𝑥 = 𝐴𝑇𝑏
ො
𝑥 = (𝐴𝑇𝐴)−1𝐴𝑇𝑏 = 𝐴𝔣𝑏 𝐴∗𝑏 − 𝐴∗𝐴 ො𝑥 = 0
𝐴∗𝐴 ො𝑥 = 𝐴∗𝑏
ො
𝑥 = (𝐴∗𝐴)−1𝐴∗𝑏 = 𝐴𝔣𝑏
Positive Definite Matrices
Definitness of Matrix 𝑓 𝑥 = 𝑥𝑇𝐻𝑥 + 𝑏𝑇𝑥
‒ If 𝐻 > 0 is positive definite matrix, all 𝜆𝑖 𝐻 > 0
‒ If 𝐻 ≥ 0 is positive semi-definite matrix, all 𝜆𝑖 𝐻 ≥ 0
‒ If 𝐻 < 0 is negative definite matrix, all 𝜆𝑖 𝐻 < 0
‒ If 𝐻 ≤ is negative semi-definite matrix, all 𝜆𝑖 𝐻 ≤ 0
‒ If 𝐻 is indefinite matrix, some 𝜆𝑖 𝐻 > 0, some 𝜆𝑖 𝐻 < 0
Example 𝑓 = 1
2 𝑥2 + 𝑦2 , 𝐻 = 1 0
0 1 , 𝑣𝑇𝐻𝑣 = 𝑣12 + 𝑣22 > 0 → 𝐻 > 0 𝑓 = 1
2 𝑥2 + 2𝑥𝑦 + 𝑦2 , 𝐻 = 1 1
1 1 , 𝑣𝑇𝐻𝑣 = (𝑣1 + 𝑣2)2≥ 0
→ 𝐻 ≥ 0 → 𝑓 = (𝑥 + 𝑦)2 has minimum at 𝑥 = −𝑦
𝑓 = 𝑥𝑦, 𝐻 = 0 1
1 0 , 𝑣𝑇𝐻𝑣 = 2𝑣1 𝑣2 ≰≱ 0 → 𝐻 ≰≱ 0
9
Positive Definite Matrices
Optimization problem
(𝑥,𝑦)min𝑓(𝑥, 𝑦), where 𝑓 𝑥, 𝑦 = 𝑥 𝑦 2 2 2 3
𝑥
𝑦 + −2 0
𝑥 𝑦
Necessary condition
𝛻 𝑥,𝑦 𝑓 𝑥, 𝑦 = 4 4 4 6
𝑥
𝑦 − 2
0 = 0 4 4
4 6 𝑥
𝑦 = 2
0 → 4 4 0 −2
𝑥
𝑦 = 2
2 → 𝑦 = −1, 𝑥 = 3
2
Necessary and Sufficient condition (Convexity) 𝐻 𝑓 = 4 4
4 6 > 0 ← 𝑣1 𝑣2 4 4 4 6
𝑣1
𝑣2 = 4𝑣12 + 8𝑣1𝑣2 + 6𝑣22
𝛻 𝑥,𝑦 𝑓 𝑥, 𝑦 = 0, = 4(𝑣1 + 𝑣2)2+2𝑣22 > 0
𝐴 is positive definite matrix, i.e., 𝐴 > 0 iff 𝑣𝑇𝐴𝑣 > 0 for ∀𝑣 ≠ 0.
𝐴 is positive semi-definite matrix, i.e., 𝐴 ≥ 0 iff 𝑣𝑇𝐴𝑣 ≥ 0 for ∀𝑣 ≠ 0.
10
배 움
22
익숙해 짐
독해력 향상 (수학, 영어, 국어, 프로그래밍 언어)
논리력 향상 (written, oral presentation 능력)
추론능력 향상 (문제해결 능력, 증명능력)
주입식 기억을 하자 마라.
왜 그렇지? 의문을 가져라.
답을 할 때, 논거를 제시하고 답을 하라.
추론하라. 증명, 디버깅, 창의적 사고, 미래계획
세상에 꽁짜는 없다. 뿌린대로 거둔다. (농부의자세)
결과보다는 과정이다. 조급해 하지 마라. 지름길이 좋은 건 아니다.
욕심과 꿈.
배움의 자세
23
자신이 익힌 지식에 집착함으로 인하여, 우월감과 타인에 대한 멸시함이 자라나지 않도록 한다.
지식을 과시하고자 하는 충동으로 인하여 무분별한 지식 습득과 사념에 빠지지 않도록 한다.
자신의 무지와 몰이해에 대해 자책하거나, 일깨움이 더딘 것을 탓하지 말고 그저 부지런히 행함을 놓치지 않는다.
언제나 자신에게 솔직할 것이며, 나눌 준비와 겸허한 태도로 자신을 있는 그대로 꾸밈없이 표현하도록 한다.
매일 일상에서 이루어지는 순간순간의 과정이 그대를 이끌 것이니 미래를 걱정하며 계획에 연연해 하지 않는다.