Lecture 5-1
정보통신공학과 20173024 이지현
Logistic (regression) classification
IVIS Lab, Changwon National University
Linear Regression
Learning Rate = step size 기울기 (미분값)
Binary Classification
Spam E-mail Detection : Spam or Ham Facebook feed : show or hide
Credit Card Fraudulent Transaction detection : legitimate/fraud
Spam E-mail Detection : Spam(1) or Ham(0) Facebook feed : show(1) or hide(0)
Credit Card Fraudulent Transaction detection : legitimate(0)/fraud(1)
0, 1 encoding
IVIS Lab, Changwon National University
Pass(1)/Fail(0) based on study hours
Linear Regression으로 가능할까??
합격임에도 불구하고 불합격이라고 나오는 경우 있어서
linear Hypothesis
Logistic classification
Y는 0 or 1의 값을 가진다.
1보다 크거나 0보다 작은 값이 나올 수 있다!!
⇨
linear에서는 좋지만 이 결과를 0~1로 압축시켜주는 함수가 있었으면 좋겠다!!
❝ Sigmoid function ❞ (=logistic function)
※ z=WX
Logistic Hypothesis
Lecture 5-2
정보통신공학과 20173024 이지현
Logistic (regression) classification
cost function & gradient descent
Cost function
<linear Regression> <Logistic classification>
장점 : 어디서 시작하던지 간에 최저값 찾을 수 있다.
⟹ 울퉁불퉁하게 됨
따라서 gradient descent를 적용하지 못함.
(시작점에 따라 끝나는 점이 달라질 수 있기 때문에)
IVIS Lab, Changwon National University
New cost function for logistic
<y = 1>
H(x) = 1 → cost(1) = 0 H(x) = 0 → cost(0) = ∞
<y = 0>
H(x) = 0 → cost(0) = 0 H(x) = 1 → cost(1) = ∞ Exponential이 구부러져 있는데
바로잡기위해 log이용
Cost fuction
Gradient decent algorithm
기울기 (미분값)
Lecture 6-1
정보통신공학과 20173024 이지현
Softmax classification:
Multinomial classification
Logistic regression
단점 : return값이 크다(binary에 적합X)
Sigmoid or Logistic
입력 시그모이드 출력
Z
W
IVIS Lab, Changwon National University
Multinomial classification Logistic
regression
입력 시그모이드 출력
Z
W
두 부분을 구분하는 선을 찾아내는 것
b or not
A or not
c or not
3개의 각각 다른
binary classification으로 구현 가능
Multinomial classification
b or not
c or not
A or not
A
Z W
C
Z W B
Z W
행렬로 구현
IVIS Lab, Changwon National University
Multinomial classification
※ 3개의 독립된
classification 알고리즘을 구현해도 되지만
하나의 벡터로 처리하면 한번의 계산 가능
3개의 독립된
classification처럼 동작!!
Lecture 6-2
정보통신공학과 20173024 이지현
Softmax classification:
softmax and cost function
IVIS Lab, Changwon National University
Softmax classification
결과값이 실수
1.0
0.7
0.1 2.0
0.1 0.2
* 값들은 0~1을 가져야 한다
* 값들의 합이 1이 되어야 한다
- 이것은 각각을 확률로 볼 수 있다.
argmax
1.0
0.0 0.0
<one-hot encoding>
B A
C
Cost function : Cross-Entropy
*정답이 B인 경우
*정답이 A인 경우
*예측이 맞으면 작은 값을 출력하고, 예측이 틀리면 큰 값을 출력한다!
IVIS Lab, Changwon National University
Logistic cost VS cross entropy
=
Cost function
<만약 여러개의 training set이 있을 경우>
평균 전체
training set
Lecture 7-1
정보통신공학과 20173024 이지현
Application & Tips:
Learning rate, data preprocessing, overfitting
Learning rate
<Gradient descent>
= cost
⟹ cost 최소화 하는 값 찾기 위해
=기울기 구하기 위해 미분!
learning rate
→임의로 정함
IVIS Lab, Changwon National University
Learning rate
Large learning rate : overshooting Small learing rate
⟹ learning rate 정하는데 특별한 답은 없다.
그러나 보통 0.01로 많이 시작하며 발산이 된다면 learning rate 값을 작게 늦게 된다면 learning rate 값을 크게
Data (X) preprocesing for gradient descent
W가 여러 개라고 생각!
⇨
Learning rate를 잘 정했는데 학습이 잘 되지 않고 Cost function이 발산하거나, 이상한 동작을 한다면 데이터 중 차이가 크게 나는 것이 있는지 확인,preprocessing했는지 점검
IVIS Lab, Changwon National University
Data (X) preprocesing for gradient descent
데이터의 중심이 0으로
갈 수 있도록 함 어떤 값 전체가 범위 값에 항상 들어가도록 함
정규화
中Standardization
Overfitting
Machine Learning의 가장 큰 문제
한 데이터셋에만 지나치게 최적화 된 상태
<예시 - , 나누는 예측 문제>
일반적인 모델 이 데이터에만 잘 맞춰져 있는 모델
⟹오버피팅
IVIS Lab, Changwon National University
Overfitting
Solutions for overfitting - 더 많은 training data
- feature의 개수를 줄이는 것 - Regularization(일반화)
-weight를 너무 큰 값을 가지지 않게 하는 것
⇨ 구부리지 말고 펴자!!
Regularization strength
Lecture 7-2
정보통신공학과 20173024 이지현
Application & Tips:
Learning and test data sets
IVIS Lab, Changwon National University
Machine Learning 어떻게 평가하는가?
Original Set
Training Testing
Training Validation Testing
튜닝할 필요가 있을 때
Training : 학습하는 데이터
Testing : 숨겨져 있고 한번만 볼 수 있음(실전)
완벽하게 학습이 되면 Testing 이용하여 잘 동작하는지 확인 Validation : 학습한 데이터를 통하여 모의로 해 봄으로써
Learning Rate, regularization 얼마나 할 것인가 튜닝
Online learning
model
Ex) 데이터의 개수 100만개
Dataset이 많은 경우 한번에 다 넣어서 학습시키기가 힘들 때
10만개
IVIS Lab, Changwon National University