2. 지도 학습 알고리즘 Ⅰ 2강. 지도 학습 알고리즘(1)

(1)

파이썬 기반의 AI 프로그래밍 02-2

2. 지도 학습 알고리즘 Ⅰ 2강. 지도 학습 알고리즘(1)

학습내용 - 데이터셋

- K-최근접 이웃 알고리즘

학습목표

- 머신러닝 알고리즘의 기반 데이터인 다양한 데이터셋에 대하여 설명할 수 있 다.

- K-최근접 이웃 알고리즘을 이해하고 머신러닝에 적용할 수 있다.

1. 데이터셋

1) 연속된 데이터 샘플

가. 작고 인위적인 데이터셋 나. 알고리즘 특징 부각 데이터셋

(2)

(3)

2. K-최근접 이웃 알고리즘 1) 개념

가. 가장 간단한 머신러닝 알고리즘

나. 훈련 데이터셋을 저장하는 것이 과정의 전부

다. 새로운 데이터 포인트에 대해 예측할 경우, 훈련 데이터셋에서 가장 가까운 데 이터 포인트 ‘최근접 이웃‘ 검색

2) k-최근접 이웃 분류

(4)

가. 테스트 포인트 하나에 대한 클래스 0에 속한 이웃의 개수

나. 클래스 1에 속한 이웃의 개수 확인 → 이웃이 더 많은 레이블 지정 3) 알고리즘 적용

(5)

- 이웃 선택 개수가 많아질수록 결정 경계는 부드러워짐 - 적은 이웃 → 높은 복잡도

- 많은 이웃 → 낮은 복잡도

- 가장 많은 데이터 포인트를 가진 클래스가 예측 값

- 과대적합, 과소적합의 특징 확인 가능 5) k-최근접 이웃 회귀

가. Wave 데이터셋을 이용하는 회귀 분석

(6)

나. 여러 개의 최근접 이웃 사용 → 이웃간 평균 예측

다. Score 메서드 사용

라. 결정 계수 ^

�

: 예측의 적합도 측정(0,1 사이 값)

(7)

나. 이웃에 수에 따라 훈련 데이터 오류 증가, 안정된 예측 획득 7) 장 · 단점과 매개변수

데이터 포인트 사이의 거리 측정 방법, 이웃의 수 → 중요 매개변수

(8)

평가하기

1. 데이터셋은 고차원과 저차원으로 구분되며 이는 데이터셋의 크기로 결정된다.

O X - 정답 : X

해설 : 데이터셋은 고차원과 저차원 데이터셋으로 구분되며 이는 특성의 개수로 결정됩니다.

2. K-최근접 이웃 모델은 이웃의 수가 적을수록 복잡도는 높아지고, 높을수록 복 잡도는 낮아진다.

O X - 정답 : O

해설 : 이웃의 개수에 따라 결정경계로 표현이 바뀌는 것이 확인되는데 이웃 수 가 적을수록 복잡도는 높아지고, 높을수록 복잡도는 낮아집니다.

학습정리

1. 데이터셋

- 연속된 데이터 샘플

- 특성이 적은 데이터셋(저차원) - 특성이 많은 데이터셋(고차원) 2. K-최근접 이웃 알고리즘

- 가장 간단한 머신러닝 알고리즘

- 훈련 데이터셋에서 가장 가까운 데이터 포인트 ‘최근접 이웃‘ 검색 - 적은 이웃 → 높은 복잡도

- 많은 이웃 → 낮은 복잡도