파이썬 기반의 AI 프로그래밍 02-2
2. 지도 학습 알고리즘 Ⅰ 2강. 지도 학습 알고리즘(1)
학습내용 - 데이터셋
- K-최근접 이웃 알고리즘
학습목표
- 머신러닝 알고리즘의 기반 데이터인 다양한 데이터셋에 대하여 설명할 수 있 다.
- K-최근접 이웃 알고리즘을 이해하고 머신러닝에 적용할 수 있다.
1. 데이터셋
1) 연속된 데이터 샘플
가. 작고 인위적인 데이터셋 나. 알고리즘 특징 부각 데이터셋
파이썬 기반의 AI 프로그래밍 02-2
2. K-최근접 이웃 알고리즘 1) 개념
가. 가장 간단한 머신러닝 알고리즘
나. 훈련 데이터셋을 저장하는 것이 과정의 전부
다. 새로운 데이터 포인트에 대해 예측할 경우, 훈련 데이터셋에서 가장 가까운 데 이터 포인트 ‘최근접 이웃‘ 검색
2) k-최근접 이웃 분류
가. 테스트 포인트 하나에 대한 클래스 0에 속한 이웃의 개수
나. 클래스 1에 속한 이웃의 개수 확인 → 이웃이 더 많은 레이블 지정 3) 알고리즘 적용
파이썬 기반의 AI 프로그래밍 02-2
- 이웃 선택 개수가 많아질수록 결정 경계는 부드러워짐 - 적은 이웃 → 높은 복잡도
- 많은 이웃 → 낮은 복잡도
- 가장 많은 데이터 포인트를 가진 클래스가 예측 값
- 과대적합, 과소적합의 특징 확인 가능 5) k-최근접 이웃 회귀
가. Wave 데이터셋을 이용하는 회귀 분석
나. 여러 개의 최근접 이웃 사용 → 이웃간 평균 예측
다. Score 메서드 사용
라. 결정 계수
�
: 예측의 적합도 측정(0,1 사이 값)파이썬 기반의 AI 프로그래밍 02-2
나. 이웃에 수에 따라 훈련 데이터 오류 증가, 안정된 예측 획득 7) 장 · 단점과 매개변수
데이터 포인트 사이의 거리 측정 방법, 이웃의 수 → 중요 매개변수
평가하기
1. 데이터셋은 고차원과 저차원으로 구분되며 이는 데이터셋의 크기로 결정된다.
O X - 정답 : X
해설 : 데이터셋은 고차원과 저차원 데이터셋으로 구분되며 이는 특성의 개수로 결정됩니다.
2. K-최근접 이웃 모델은 이웃의 수가 적을수록 복잡도는 높아지고, 높을수록 복 잡도는 낮아진다.
O X - 정답 : O
해설 : 이웃의 개수에 따라 결정경계로 표현이 바뀌는 것이 확인되는데 이웃 수 가 적을수록 복잡도는 높아지고, 높을수록 복잡도는 낮아집니다.
학습정리
1. 데이터셋
- 연속된 데이터 샘플
- 특성이 적은 데이터셋(저차원) - 특성이 많은 데이터셋(고차원) 2. K-최근접 이웃 알고리즘
- 가장 간단한 머신러닝 알고리즘
- 훈련 데이터셋에서 가장 가까운 데이터 포인트 ‘최근접 이웃‘ 검색 - 적은 이웃 → 높은 복잡도
- 많은 이웃 → 낮은 복잡도