Derivative of Matrix-Vector Function

(1)

Derivative of Matrix-Vector Function

 Two variable functional for 𝑥 = 𝑥₁, 𝑥₂ 𝑓 𝑥 = 𝐴𝑥 ₂² + 𝑏^𝑇𝑥, where 𝐴 = 1 2

1 1 , 𝑏 = 1 2 𝑓 𝑥 = 𝐴𝑥 ^𝑇 𝐴𝑥 + 𝑏^𝑇𝑥 = 𝑥₁ + 2𝑥₂

𝑥₁ + 𝑥₂

𝑇 𝑥₁ + 2𝑥₂

𝑥₁ + 𝑥₂ + 𝑥₁ + 2𝑥₂ 𝑓 𝑥 = 2𝑥₁² + 6𝑥₁𝑥₂ + 5𝑥₂² + 𝑥₁ + 2𝑥₂

 Gradients

𝛻_𝑥𝑓 𝑥 = 𝑑

𝑑𝑥 𝑓 𝑥 = 𝜕𝑓(𝑥) 𝜕𝑥Τ ₁

𝜕𝑓(𝑥) 𝜕𝑥Τ ₂ = 4𝑥₁ + 6𝑥₂ + 1 6𝑥₁ + 10𝑥₂ + 2

= 4 6 6 10

𝑥₁

𝑥₂ + 1 2

= 2𝐴^𝑇𝐴𝑥 + 𝑏

(2)

Derivative of Matrix-Vector Function

 Two variable functional for 𝑥 = 𝑥₁, 𝑥₂ 𝑓 𝑥 = 𝐴𝑥 ₂² + 𝑏^𝑇𝑥, where 𝐴 = 1 2

1 1 , 𝑏 = 1 2

𝑓 𝑥 = 𝐴𝑥 ^𝑇 𝐴𝑥 + 𝑏^𝑇𝑥 = 2𝑥₁² + 6𝑥₁𝑥₂ + 5𝑥₂² + 𝑥₁ + 2𝑥₂

 Gradient

𝛻_𝑥𝑓 𝑥 = 𝜕𝑓(𝑥) 𝜕𝑥Τ ₁

𝜕𝑓(𝑥) 𝜕𝑥Τ ₂ = 4𝑥₁ + 6𝑥₂ + 1

6𝑥₁ + 10𝑥₂ + 2 = 2𝐴^𝑇𝐴𝑥 + 𝑏

 Hessian or Hessian Matrix 𝐻 : Second derivative of 𝑓(𝑥)

𝐻 =

𝜕²𝑓

𝜕𝑥₁²

𝜕²𝑓

𝜕𝑥₁𝜕𝑥₂

𝜕²𝑓

𝜕𝑥₂𝜕𝑥₁

𝜕²𝑓

𝜕𝑥₂²

= 4 6

6 10 = 2𝐴^𝑇𝐴

(3)

Derivative of Matrix-Vector Function

 Gradient of 𝑓 𝑥 : 𝛻_𝑥𝑓 𝑥 =

𝜕𝑓

𝜕𝑥₁

𝜕𝑓

𝜕𝑥₂

⋮

𝜕𝑓

𝜕𝑥_𝑛

 Hessian of 𝑓 𝑥 : 𝐻(𝑓)

(4)

Derivative of Matrix-Vector Function

 Jacobian of 𝑓 𝑥 : First derivative of a vector function f 𝑥 = [𝑓₁ 𝑥 , … , 𝑓_𝑚 𝑥 ]^𝑇

 Example

𝑑

𝑑𝑥 𝑥^𝑇𝐴^𝑇 = ( ^𝑑

𝑑𝑥 𝐴𝑥)^𝑇=?

𝑑

𝑑𝑥 𝐴𝑥 =?

(5)

Derivative of Matrix-Vector Function

 𝑓 𝑥 = 𝑥^𝑇𝐴𝑥

𝛻_𝑥𝑓 𝑥 = 𝐴𝑥 + 𝐴^𝑇𝑥

= 2𝐴𝑥 if 𝐴 is symmetric.

 𝑓 𝑥 = 𝐴𝑥 − 𝑏 ₂² + 𝑐^𝑇𝑥, 𝑓 𝑥 = 𝐴𝑥 − 𝑏 ^𝑇 𝐴𝑥 − 𝑏 + 𝑐^𝑇𝑥

𝛻_𝑥𝑓 𝑥 = 𝛻_𝑥(𝑥^𝑇𝐴^𝑇 − 𝑏^𝑇) 𝐴𝑥 − 𝑏 + 𝑐

= 𝐴^𝑇 𝐴𝑥 − 𝑏 + 𝐴^𝑇 𝐴𝑥 − 𝑏 + 𝑐

= 2𝐴^𝑇 𝐴𝑥 − 𝑏 + 𝑐

(6)

Least Squares

 Linear equation: 𝐴𝑥 = 𝑏

4 2

2 1

−1 1

𝑥₁ 𝑥₂ =

2 1 1

→ no solutions (불능, inconsistent)

𝐴^𝑇𝑏 − 𝐴^𝑇𝐴 ො𝑥 = 0 𝐴^𝑇𝐴 ො𝑥 = 𝐴^𝑇𝑏

ො

𝑥 = (𝐴^𝑇𝐴)⁻¹𝐴^𝑇𝑏 = 𝐴^𝔣𝑏 𝐴^∗𝑏 − 𝐴^∗𝐴 ො𝑥 = 0

𝐴^∗𝐴 ො𝑥 = 𝐴^∗𝑏

ො

𝑥 = (𝐴^∗𝐴)⁻¹𝐴^∗𝑏 = 𝐴^𝔣𝑏

(7)

Least Squares

 Linear equation: 𝐴𝑥 = 𝑏

4 2

2 1

−1 1

𝑥₁ 𝑥₂ =

2 1 1

→ no solutions (불능)

→ 𝐴𝑥 − 𝑏 ≠ 0 → What is the best solution minimizing errors between 𝐴𝑥 and 𝑏?

 Optimization and Gradient

ො

𝑥 = 𝑎𝑟𝑔 min

𝑥 𝐴𝑥 − 𝑏 ₂² ≜ 𝐸 𝑥

𝛻_𝑥𝐸 𝑥 = ^{𝑑𝐸 𝑥}

𝑑𝑥 = ^𝑑

𝑑𝑥 𝐴𝑥 − 𝑏 ^𝑇 𝐴𝑥 − 𝑏 = 2𝐴^𝑇 𝐴𝑥 − 𝑏 = 0

ො

𝑥 = (𝐴^𝑇𝐴)⁻¹𝐴^𝑇𝑏 _𝐴^𝑇_{𝑏 − 𝐴}^𝑇_{𝐴 ො}_{𝑥 = 0}

𝐴^𝑇𝐴 ො𝑥 = 𝐴^𝑇𝑏

ො

𝑥 = (𝐴^𝑇𝐴)⁻¹𝐴^𝑇𝑏 = 𝐴^𝔣𝑏 𝐴^∗𝑏 − 𝐴^∗𝐴 ො𝑥 = 0

𝐴^∗𝐴 ො𝑥 = 𝐴^∗𝑏

ො

𝑥 = (𝐴^∗𝐴)⁻¹𝐴^∗𝑏 = 𝐴^𝔣𝑏

(8)

Positive Definite Matrices

 Definitness of Matrix 𝑓 𝑥 = 𝑥^𝑇𝐻𝑥 + 𝑏^𝑇𝑥

‒ If 𝐻 > 0 is positive definite matrix, all 𝜆_𝑖 𝐻 > 0

‒ If 𝐻 ≥ 0 is positive semi-definite matrix, all 𝜆_𝑖 𝐻 ≥ 0

‒ If 𝐻 < 0 is negative definite matrix, all 𝜆_𝑖 𝐻 < 0

‒ If 𝐻 ≤ is negative semi-definite matrix, all 𝜆_𝑖 𝐻 ≤ 0

‒ If 𝐻 is indefinite matrix, some 𝜆_𝑖 𝐻 > 0, some 𝜆_𝑖 𝐻 < 0

 Example 𝑓 = ¹

2 𝑥² + 𝑦² , 𝐻 = 1 0

0 1 , 𝑣^𝑇𝐻𝑣 = 𝑣₁² + 𝑣₂² > 0 → 𝐻 > 0 𝑓 = ¹

2 𝑥² + 2𝑥𝑦 + 𝑦² , 𝐻 = 1 1

1 1 , 𝑣^𝑇𝐻𝑣 = (𝑣₁ + 𝑣₂)²≥ 0

→ 𝐻 ≥ 0 → 𝑓 = (𝑥 + 𝑦)² has minimum at 𝑥 = −𝑦

𝑓 = 𝑥𝑦, 𝐻 = 0 1

1 0 , 𝑣^𝑇𝐻𝑣 = 2𝑣₁ 𝑣₂ ≰≱ 0 → 𝐻 ≰≱ 0

9

(9)

Positive Definite Matrices

 Optimization problem

(𝑥,𝑦)min𝑓(𝑥, 𝑦), where 𝑓 𝑥, 𝑦 = 𝑥 𝑦 2 2 2 3

𝑥

𝑦 + −2 0

𝑥 𝑦

 Necessary condition

𝛻 _𝑥,𝑦 𝑓 𝑥, 𝑦 = 4 4 4 6

𝑥

𝑦 − 2

0 = 0 4 4

4 6 𝑥

𝑦 = 2

0 → 4 4 0 −2

𝑥

𝑦 = 2

2 → 𝑦 = −1, 𝑥 = ³

2

 Necessary and Sufficient condition (Convexity) 𝐻 𝑓 = 4 4

4 6 > 0 ← 𝑣₁ 𝑣₂ 4 4 4 6

𝑣₁

𝑣₂ = 4𝑣₁² + 8𝑣₁𝑣₂ + 6𝑣₂²

𝛻 _𝑥,𝑦 𝑓 𝑥, 𝑦 = 0, = 4(𝑣₁ + 𝑣₂)²+2𝑣₂² > 0

 𝐴 is positive definite matrix, i.e., 𝐴 > 0 iff 𝑣^𝑇𝐴𝑣 > 0 for ∀𝑣 ≠ 0.

 𝐴 is positive semi-definite matrix, i.e., 𝐴 ≥ 0 iff 𝑣^𝑇𝐴𝑣 ≥ 0 for ∀𝑣 ≠ 0.

10

(10)

(11)

(12)

(13)

(14)

(15)

(16)

(17)

(18)

(19)

(20)

(21)

배 움

22

 익숙해 짐

 독해력 향상 (수학, 영어, 국어, 프로그래밍 언어)

 논리력 향상 (written, oral presentation 능력)

 추론능력 향상 (문제해결 능력, 증명능력)

 주입식 기억을 하자 마라.

 왜 그렇지? 의문을 가져라.

 답을 할 때, 논거를 제시하고 답을 하라.

 추론하라. 증명, 디버깅, 창의적 사고, 미래계획

 세상에 꽁짜는 없다. 뿌린대로 거둔다. (농부의자세)

 결과보다는 과정이다. 조급해 하지 마라. 지름길이 좋은 건 아니다.

 욕심과 꿈.

(22)

배움의 자세

23

 자신이 익힌 지식에 집착함으로 인하여, 우월감과 타인에 대한 멸시함이 자라나지 않도록 한다.

 지식을 과시하고자 하는 충동으로 인하여 무분별한 지식 습득과 사념에 빠지지 않도록 한다.

 자신의 무지와 몰이해에 대해 자책하거나, 일깨움이 더딘 것을 탓하지 말고 그저 부지런히 행함을 놓치지 않는다.

 언제나 자신에게 솔직할 것이며, 나눌 준비와 겸허한 태도로 자신을 있는 그대로 꾸밈없이 표현하도록 한다.

 매일 일상에서 이루어지는 순간순간의 과정이 그대를 이끌 것이니 미래를 걱정하며 계획에 연연해 하지 않는다.