PDF Lecture 5-1

(1)

Lecture 5-1

정보통신공학과 20173024 이지현

Logistic (regression) classification

(2)

IVIS Lab, Changwon National University

Linear Regression

Learning Rate = step size 기울기 (미분값)

(3)

Binary Classification

Spam E-mail Detection : Spam or Ham Facebook feed : show or hide

Credit Card Fraudulent Transaction detection : legitimate/fraud

Spam E-mail Detection : Spam(1) or Ham(0) Facebook feed : show(1) or hide(0)

Credit Card Fraudulent Transaction detection : legitimate(0)/fraud(1)

0, 1 encoding

(4)

Pass(1)/Fail(0) based on study hours

Linear Regression으로 가능할까??

합격임에도 불구하고 불합격이라고 나오는 경우 있어서

linear Hypothesis

(5)

Logistic classification

Y는 0 or 1의 값을 가진다.

1보다 크거나 0보다 작은 값이 나올 수 있다!!

⇨

linear에서는 좋지만 이 결과를 0~1로 압축시켜주는 함수가 있었으면 좋겠다!!

❝ Sigmoid function ❞ (=logistic function)

※ ｚ＝ＷＸ

Logistic Hypothesis

(6)

Lecture 5-2

정보통신공학과 20173024 이지현

Logistic (regression) classification

cost function & gradient descent

(7)

Cost function

장점 : 어디서 시작하던지 간에 최저값 찾을 수 있다.

⟹ 울퉁불퉁하게 됨

따라서 gradient descent를 적용하지 못함.

(시작점에 따라 끝나는 점이 달라질 수 있기 때문에)

(8)

New cost function for logistic

<y = 1>

H(x) = 1 → cost(1) = 0 H(x) = 0 → cost(0) = ∞

<y = 0>

H(x) = 0 → cost(0) = 0 H(x) = 1 → cost(1) = ∞ Exponential이 구부러져 있는데

바로잡기위해 log이용

(9)

Cost fuction

Gradient decent algorithm

기울기 (미분값)

(10)

Lecture 6-1

정보통신공학과 20173024 이지현

Softmax classification:

Multinomial classification

(11)

Logistic regression

단점 : return값이 크다(binary에 적합X)

Sigmoid or Logistic

입력 시그모이드 출력

Z

W

(12)

Multinomial classification Logistic

regression

입력 시그모이드 출력

Z

W

두 부분을 구분하는 선을 찾아내는 것

b or not

A or not

c or not

3개의 각각 다른

binary classification으로 구현 가능

(13)

Multinomial classification

b or not

c or not

A or not

A

Z W

C

Z W B

Z W

행렬로 구현

(14)

Multinomial classification

※ 3개의 독립된

classification 알고리즘을 구현해도 되지만

하나의 벡터로 처리하면 한번의 계산 가능

3개의 독립된

classification처럼 동작!!

(15)

Lecture 6-2

정보통신공학과 20173024 이지현

Softmax classification:

softmax and cost function

(16)

Softmax classification

결과값이 실수

1.0

0.7

0.1 2.0

0.1 0.2

* 값들은 0~1을 가져야 한다

* 값들의 합이 1이 되어야 한다

- 이것은 각각을 확률로 볼 수 있다.

argmax

1.0

0.0 0.0

<one-hot encoding>

B A

C

(17)

Cost function : Cross-Entropy

*정답이 B인 경우

*정답이 A인 경우

*예측이 맞으면 작은 값을 출력하고, 예측이 틀리면 큰 값을 출력한다!

(18)

Logistic cost VS cross entropy

＝

(19)

Cost function

<만약 여러개의 training set이 있을 경우>

평균 전체

training set

(20)

Lecture 7-1

정보통신공학과 20173024 이지현

Application & Tips:

Learning rate, data preprocessing, overfitting

(21)

Learning rate

<Gradient descent>

= cost

⟹ cost 최소화 하는 값 찾기 위해

=기울기 구하기 위해 미분!

learning rate

→임의로 정함

(22)

Learning rate

Large learning rate : overshooting Small learing rate

⟹ learning rate 정하는데 특별한 답은 없다.

그러나 보통 0.01로 많이 시작하며 발산이 된다면 learning rate 값을 작게 늦게 된다면 learning rate 값을 크게

(23)

Data (X) preprocesing for gradient descent

W가 여러 개라고 생각!

⇨

Learning rate를 잘 정했는데 학습이 잘 되지 않고 Cost function이 발산하거나, 이상한 동작을 한다면 데이터 중 차이가 크게 나는 것이 있는지 확인,

preprocessing했는지 점검

(24)

Data (X) preprocesing for gradient descent

데이터의 중심이 0으로

갈 수 있도록 함 어떤 값 전체가 범위 값에 항상 들어가도록 함

정규화

中

Standardization

(25)

Overfitting

Machine Learning의 가장 큰 문제

한 데이터셋에만 지나치게 최적화 된 상태

<예시 - , 나누는 예측 문제>

일반적인 모델 이 데이터에만 잘 맞춰져 있는 모델

⟹오버피팅

(26)

Overfitting

Solutions for overfitting - 더 많은 training data

- feature의 개수를 줄이는 것 - Regularization(일반화)

-weight를 너무 큰 값을 가지지 않게 하는 것

⇨ 구부리지 말고 펴자!!

Regularization strength

(27)

Lecture 7-2

정보통신공학과 20173024 이지현

Application & Tips:

Learning and test data sets

(28)

Machine Learning 어떻게 평가하는가?

Original Set

Training Testing

Training Validation Testing

튜닝할 필요가 있을 때

Training : 학습하는 데이터

Testing : 숨겨져 있고 한번만 볼 수 있음(실전)

완벽하게 학습이 되면 Testing 이용하여 잘 동작하는지 확인 Validation : 학습한 데이터를 통하여 모의로 해 봄으로써

Learning Rate, regularization 얼마나 할 것인가 튜닝

(29)

Online learning

model

Ex) 데이터의 개수 100만개

Dataset이 많은 경우 한번에 다 넣어서 학습시키기가 힘들 때

10만개

(30)