9. 기계학습
2강. 학습 모델 평가 및 훈련
학습내용
- 학습 모델 평가 및 훈련
학습목표
- 기계학습의 종류와 특징, 학습 모델을 훈련하고 평가하는것에 대해 설명할 수 있다.
1. 학습 모델 평가 및 훈련 1) 기계학습에서의 학습 방법
- 학습 형태에 따라 3가지 학습 방법
- 지도 학습, 비지도 학습, 강화 학습으로 구분 - 머신러닝 학습의 분류
- 기계학습의 학습 방법과 활용 분야 체계
가. 지도 학습(Supervised Learning) - 학습 방법
→ 입력과 이에 대응하는 미리 알려진 출력을 연관시키는 관계 학습 → 주어진 입력과 출력 쌍 사이의 대응 관계를 학습
- 응용 분야
→ 자동차 번호판이 오염된 경우 인식하지 못할 수 있음
→ 이에 대비하여 오염된 번호판 사례를 학습시켜 인식률을 향상 나. 비지도 학습(Unsupervised Learning)
- 학습 방법
→ 출력값을 알려주지 않고 스스로 모델을 구축하여 학습 → 입력만 있고 출력이 없는 경우 적용
→ 규칙성을 스스로 찾아내는 것이 학습의 주요 목표 - 응용 분야
→ 비지도 학습의 결과는 지도학습의 입력으로 사용 가능 → 전문가에 의해 해석되어 다른 용도로 활용
→ 데이터마이닝 기법 등
다. 강화 학습(Reinforcement Learning) - 학습 방법
→ 주어진 입력에 대응하는 행동에 대해 보상(reward) → 보상을 이용하여 학습하는 방법
→ 주어진 입력에 대한 출력(정답)이 주어지지 않음 - 응용 분야
→ 로봇, 게임, 내비게이션 등
2) 지도 학습
- 주어진 입력과 정해진 출력 간의 관계를 학습 - 각 데이터에 레이블(label) 또는 태그(tag) 표시
- 입력값에 대응하는 레이블이나 태그가 지정된 목표 출력값 정보를 사용하여 학습 - 지도 학습의 예
→ 데이터에 P(Pass) 또는 F(Fail)레이블을 활용하여 학습
→ 사과 사진과 함께 ‘이들은 사과다’라는 레이블로 학습 후 새로운 사과 사진을 제시하여 그것을 ‘사과’라고 예측하는 방법
✓ 분류
→ 유사한 특성을 가진 데이터들끼리 묶어서 나누는 것 → 2개로 분류하는 이항 분류, 그 이상의 다항 분류로 나뉨 → 합격/불합격, 스팸 메일/정상 메일, 아라비아 숫자 인식 등
✓ 회귀
→ 회귀란 변수들 사이의 관계를 결정하는 통계적 측정 → 하나의 독립 변수를 사용하는 직선 형태의 ’선형 회귀’
→ 각 점에서 회귀 직선까지의 y축 방향의 거리 제곱의 총합을 최소로 해서 얻 어지는 직선
3) 비지도 학습
- 주어진 입력에 대응하는 출력 정보 없이 학습
- 데이터 분류에 대한 정보가 전혀 없이 패턴을 찾거나 데이터를 분류하려고 할 때 사용하는 학습 방법
- 데이터에 레이블을 사용하지 않음
- 관계를 스스로 학습한 후, 과일들을 각 그룹으로 묶기 - 비지도 학습의 예
→ 비슷한 성향의 고객을 그룹으로 묶기 → 블로그에서 주제별로 구분하기 → 유사한 꽃이나 동물들끼리 묶기
✓ 클러스터링
→ 클러스터는 유사한 여러 개의 클래스로 나누어진 데이터 → 클러스터링은 유사한 특성을 가진 그룹들로 묶는 작업 → 유사한 것들끼리의 집합을 클러스터라고 함
✓ 추천 시스템
→ 추천을 위해 연관 데이터의 정의에 도움을 주는 클러스터링 방법 → 사용자의 ‘선호도’를 예측하는 정보 필터링의 일종
→ 인기 있는 식당, 연구 관련 기사, 금융 서비스 추천 등
4) 강화 학습
- 시행착오를 통해 보상하는 행동 학습
- 최적의 값을 추구하기 위해 당근과 채찍을 사용
- 입출력이 쌍으로 된 훈련 집합으로 제시되지 않는다는 점에서 일반적인 지도 학습과 다름
- 강화 학습의 예
→ 자율주행 소형 차량 RC카가 트랙의 중앙을 달리고 있으면 +2 점, 트랙을 이 탈하거나 트랙의 라인을 밟으면 -3점 등
- 강화 학습의 응용 분야
→ 보상(reward)이 주어지는 문제 해결에 효과적
→ 통신망, 로봇 제어, RC카 자율주행, 체스와 바둑 같은 게임에 응용 → 강화 학습을 통해 실력이 향상 된 알파고
→ 게임(스타크래프트)에서는 거의 필수적으로 강화 학습이 사용됨
5) 모델 선택
- 예측 모델링 프로젝트에서 모델이란, 새로운 입력 데이터를 받았을 때 예측값 을 계산하는 방법
- 집값 예측 문제의 경우 집의 면적, 방의 개수, 층수 등을 요소로 집값을 계산하 는 알고리즘을 적용
- 주어진 문제와 데이터에 맞는 적절한 모델을 선택하는 것이 중요 - 모델 성능의 결정적 요소
→ 예측의 경우 말 그대로 예측값을 계산하는 알고리즘을 선택하는 것 → 모델이 사용할 속성들을 선택
→ 모델을 조절하는 적절한 하이퍼 파라미터의 선택
→ EX)버섯의 속성들로부터 그 버섯이 독버섯인지 식용이 가능한 버섯인지 분류 하는 모델을 구축할 때에도 로지스트 회귀 분석, KNN, 딥러닝과 같은 수 많은 방법이 존재
→ 모델에 중요한 속성들을 선택하는 작업
: 의미 없는 데이터의 속성이 포함될 경우 모델의 성능이 크게 떨어지는 경우가 존재 : 모델에 중요한 속성들을 골라내는 작업
→ 모델마다 지원하는 하이퍼 파라미터를 적절히 선택하는 것은 모델의 성능을 평가할 때 결정적인 요소로서 역할을 함
6) 학습 모델 평가
- 만들어진 기계 학습 모델의 성능을 평가하고, 모델을 활용하여 새로운 데이터 를 예측하는 단계
- 평가용 데이터셋은 모델 선택과 모델 학습 과정에서 절대 쓰이지 말아야 함 → 프로젝트 시작 전 학습용 데이터셋과 평가용 데이터셋을 분리하는 작업이 필
요함
- 모델 평가는 새로운 데이터에 얼마나 일반화(generalization)가 가능한지 측정 이 가능하게 함
평가하기
1. 다음 중 지도 학습의 단점으로 보기 어려운 것은?
① 출력에 반드시 레이블이 있는 데이터 사용
② 일반적으로 많은 시간 소요
③ 경험을 사용하여 성능 기준을 최적화
④ 데이터가 많을수록 시간 소요가 크게 늘어날 수 있음 - 정답 : ③번
해설 : 경험을 사용하여 성능 기준을 최적화 하는 방법은 지도 학습의 장점 2. 비지도 학습의 사례로 보기 어려운 것은?
① 비슷한 성향의 고객을 그룹으로 묶기
② 블로그에서 주제별로 구분하기
③ 유사한 동물들끼리 묶기
④ 사과 사진을 제시하여 사과를 예측하기 - 정답 : ④번
해설 : 유사한 것들의 집합, 비슷한 성향 등에 대한 것은 비지도 학습의 사례로 볼 수 있 으나 사과 사진을 제시하고 이를 예측하는 과정은 지도학습의 사례
학습정리
1. 학습 모델 평가 및 훈련
- 학습 형태에 따른 3가지 학습 방법
→ 지도 학습 : 입력과 이에 대응하는 미리 알려진 출력을 연관시키는 관계 학습 → 비지도 학습 : 출력값을 알려주지 않고 스스로 모델을 구축하여 학습
→ 강화 학습 : 주어진 입력에 대응하는 행동에 대한 보상
- 학습 모델 평가 : 새로운 데이터에 얼마나 일반화가 가능한지 측정이 가능함