• 검색 결과가 없습니다.

크로스엔트로피 손실 함수

N/A
N/A
Protected

Academic year: 2022

Share "크로스엔트로피 손실 함수"

Copied!
22
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

크로스엔트로피 손실 함수

딥러닝을 위한 신경망 기초

[email protected]

손실 함수는 신경망 학습의 목적입니다.

실제로 다른 분야에서는 목적 함수라고 불리웁니다.

Cross-entropy는 Squared loss와 더블어 양대 손실 함수라고 할 수 있습니다.

Cross-Entropy는 신경망 출력을 확률로 간주할 수 있는 경우에 사용되는 매우 중요한 손실 함수입니다.

(2)

Cost/Loss Function

  ≡ 1

2  

− 

∈

Squared Loss

  ≡ 1 2

1

  

− 

∈

Mean

Squared Loss

 학습집합 크기

퍼셉트론 및 선형회귀분석에서 사용한 사용한 손실함수

(3)

3

다음 용어를 알아야 한다.

Information (정보량)

Entropy (엔트로피)

Cross-Entropy

(4)

Information

  = 앞면 = 

앞면 =  앞면

어떤 사건을 수치로 나타낸 것이다.

확률을 이용한다.

  =  = 

 =  

다 같은 표현

확률변수; random variable; 사건을 수치로 맵핑

확률사건; event

(5)

5

1

  1

 

1

×  

지금부터 사건을 수치화 해 보자. 사건이 드물게 발생할 수록 정보가 커야 한다.

두 사건에 대한 정보는 ?

(6)

1

  1

 

1

×  

지금부터 사건을 수치화 해 보자. 사건이 드물게 발생할 수록 정보가 커야 한다.

두 사건에 대한 정보는 곱해야 하나 더해야 하나?

(7)

7

1

  1

 

1

×  

지금부터 사건을 수치화 해 보자. 사건이 드물게 발생할 수록 정보가 커야 한다.

정보로 생각하면 더하는 것이 직관적이다.

두 사건에 대한 정보는 곱해야 하나 더해야 하나?

두 사건에 대한 수치를 더할 수 있도록 다시 생각해 보자.

(8)

1

  1

 

1

×  

 1

   1

+  

지금부터 사건을 수치화 해 보자. 사건이 드물게 발생할 수록 정보가 커야 한다.

정보로 생각하면 더하는 것이 직관적이다.

두 사건에 대한 정보는 곱해야 하나 더해야 하나?

로그는 고맙게도 곱셈을 덧셈으로 변경해 준다.

(9)

9

1

  1

 

1

×  

 1

   1

+  

   

지금부터 사건을 수치화 해 보자. 사건이 드물게 발생할 수록 정보가 커야 한다.

정보로 생각하면 더하는 것이 직관적이다.

두 사건에 대한 정보는 곱해야 하나 더해야 하나?

information ≡

-  

최종 정보량의 정의

(10)

 =   =  ()

Entropy

정보량의 기댓값

확률변수 X의 기댓값 계산 공식

확률변수 X의 분포함수

확률질량함수(probability mass function) 확률밀도함수(probability density function)

(11)

11

 =   =  ()

Entropy

정보량의 기댓값

확률변수 X의 기댓값 계산 공식

  +  = ( + )()

이 식의 기댓값은?

(12)

 =   =  ()

Entropy

정보량의 기댓값

확률변수 X의 기댓값 계산 공식

  +  = ( + )()

확률변수 X의 분포함수가 중요

(13)

13

 =   =  ()

Entropy

정보량의 기댓값

확률변수 X의 기댓값 계산 공식

  +  = ( + )()

   =    ()

(14)

  =  ()

Entropy

정보량의 기댓값

 −   =  −   ()

(15)

15

−( = 0)   = 0 − ( = 1)   = 1

Cross-Entropy

다른 사건의 확률을 곱해서 Entropy를 계산한 것

예들 들어 0 또는 1만 가지는 확률변수 X가 있을 때,

※ 참고로 0, 1만 가지는 특별한 확률변수는 이름이 있다. 베르누이; Bernoulli

entropy=

−( = 1)   = 0 − ( = 0)   = 1

cross-entropy=

교차; cross

−(1)  0 − (0)  1

(16)

신경망의 손실함수로 활용

  ≡ 1 2

1

  − 

∈

  ≡ 1

  −

 

− 1 − 

 1 − 

∈

Cross-Entropy Loss

베르누이 확률변수를 n회 시행해서 얻은 샘플로 부터,

베르누이 확률변수의 평균과 분산을 추정하는 어떤 방법으로부터 유도할 수 있음.

(17)

17

−(0)  1 − (1)  0

Cross-Entropy 그래프

Cross-Entropy 특징

아래로 볼록

최소값을 구할 수 있다.

(18)

최댓값

성공(1) 또는 실패(0)만 나온 경우

부호를 바꾸면,

최댓값을 구할 수 있다.

+  + 1 −   1 − 

이렇게 나오게 되는 확률이 가장 크게 되는

X의 값을 얼마로 추정할까?

(19)

19

성공과 실패가 반반 나온 경우

  = 1 = 0.5

0.5

그래프를 보니 최댓값은 X가 0.5일 때이다.

(20)

성공 70%과 실패 30%나온 경우

  = 1 = 0.7

(21)

21

결론

  ≡ 1

  −

 

− 1 − 

 1 − 

∈

Cross-Entropy Loss

신경망의 출력이 0~1 사이로 나오는 경우

Loss 함수로 사용할 수 있다.

(22)

Ronald Aylmer Fisher (1890~1962)

cross-entropy = negative maximum log likelihood estimation [참고]

통계학의 아버지

어릴 때 병약하여 침대에 누워

들려주는 얘기만 듣고 머리 속으로만 공부한 천재

“이렇게 자명한 것도 설명을 해야 하나, 대학교수 못해 먹겠네!”

참조

관련 문서

운전모드, 기능 설정 모드: RESET 키를 눌러 계수값을 RESET하고 출력을 OFF 합니다.. 키를 눌러 설정된 항목을 저장하고 다음

회계기준을 해석ㆍ적용하여 재무제표를 작성 ㆍ공시하거나 회계기준 미비 경우에 적용할 수 있는 일관된 지침제공. 외부감사의견형성의

장수위험은 인간의 수명이 기대보다 증가함으로써 각 경제주체에게 발생할 수 있는 손실 가능성으로 정의될 수 있다. 실제 수명이 기대했던 것보다 증가하는 이유는

z 멱급수 해법으로 얻을 수 있는 유명한 특수함수 : 베셀 함수 ( Bessel function ), 르장드르 함수 ( Legendre function ), 가우스 ( Gauss ) 의 초기화함수(

- 세균의 서식처인 근관이 어떤 해부학적 구조를 가지고 있느냐는 근관치료 성패를 좌우 할 수 있는 매우 중요한 요소. - 따라서 근관구조의 정확한 이해가

phase 함수 : 직각좌표 형식의 복소수의 위상을 계산하는 함수 이 세함수에 사용되는 매개 변수와 반환값은 모두 radians. 한림대학교 박섭형 Python과

• 파라미터의 초기값에서 그래디언트를 따라 가중치를 업데이트할 때, 손실함수의 지역 최소값 에 빠지는 경우, 에폭이 진행되더라도 손실 함수의 값이 줄어들지 않고

● 중소기업이 ①「중소기업기본법」의 규정에 따른 중소기업 외의 기업과 합병하는 경우 ②유예 기간 중에 있는 기업과 합병 ③독립성기준의 요건을 충족하지 못하게