프로그램명 분류 알고리즘 학교급 중학교 차시 4/5
학습목표 분류(군집화)하는 알고리즘을 살펴보고 원리를 이해할 수 있다.
학습자료 PPT(사진), 학습지, 스크래치 소스 파일
성취기준
정보 [9정03-01] 실생활 문제 상황에서 문제의 현재 상태, 목표 상태를 이해하고 목표 상태에 도달하기 위해 수행해야 할 작업을 분석한다.
수학 [9수03-02] 다양한 상황을 그래프로 나타내고, 주어진 그래프를 해석할 수 있다.
흐 름 차시 교수·학습 내용 학습자료( )
유의점( ) 상황
제시
4 차시
개별 학습
• 이전 학습 상기하기 - 학습이란 무엇입니까?
- 지도학습과 비지도 학습의 차이점은 무엇입니까?
• SNS 주 사용시간대와 사용시간에 따른 사 용자 특성 파악해보기
• 그래프 사용자 분류해보기
- 사용자 군을 나눈다면 어떻게 나눌 수 있을까요?
(세 분류로 나눌 수 있습니다.)
- 그렇게 나눌 수 있는 이유는 무엇입니까?
PPT, 학습지
다양한 답을 인정 해준다.
(비슷하게 모여있기 때문이다.)
- 각 사용자는 어떤 직업일까요, 어떤 특성을 가진 사용자일까요? 추론해봅시다. 이유도 같이 설명하 여 봅시다.
(첫번째 사용자는 일반 회사원들입니다 ~ 사용시 간이 주로 밤에 몰려있고.. )
- 이 데이터들은 어떻게 나누면 좋겠습니까?
(다양한 답들이 나온다.)
- 이 데이터를 나누기 어려운 이유는 무엇입니까?
(분류가 명확하지 않습니다. 데이터가 많습니다. 등) - 컴퓨터에게 어떻게 명령을 내리면 컴퓨터가
이것을 분류할 수 있겠습니까?
- 우리가 분류할 수 없는 데이터를 컴퓨터에게 분류 시키려면 어떤 학습 방법을 사용합니까?
(비지도 학습을 사용합니다.)
- 비지도학습의 가장 기본적인 K-평균에 대해서 배 워보도록 하겠습니다.
• 학습목표 확인
- K-평균 알고리즘에 대하여 배워보고, 이를 실제로 적용해볼 수 있다.
• K-평균 알아보기
대다수의 K-평균 은 4~5단계 안에 끝이 난다.
창의적 설계
감성적 체험
- K는 점의 개수를 의미합니다. K평균 알고리즘은 무엇을 이용하는 것입니까?
(평균을 이용합니다. 점들을 이용하여 평균을 구합 니다. 등등)
• K-평균 알고리즘 시뮬레이션
- 몇 단계를 거쳐 점 K가 중심을 잡았습니까?
• K-평균 알고리즘 실현해보기
- 보여준 데이터를 트레이싱지에 점으로 표시해보도 록 합시다.
점 좌표 점 좌표
A (1, 8) H (8, 1)
B (2, 9) I (9, 2)
C (1, 11) J (11, 2) D (1, 10) K (10, 2)
E (3, 8) L (8, 4)
F (3, 7) M (7, 4)
G (4, 9) N (9, 3)
- 데이터를 트레이싱지에 점으로 표시해봅시다.
- 짝의 종이를 들고 무작위로 점을 두 개 찍어봅시 다.
- 이제 K-평균에서 K가 2인 분류를 시작해봅시다.
1. 첫번째 장에서 두 점을 적당히 분배하여 가까 운 값을 선으로 잇는다(1색).
1. 두 번째 장에서 선으로 이은 값의 중심으로 점 을 옮긴다. 이후 값에 새로 선을 긋는다(2색).
1. 세 번째 장에서 이를 반복한다(3색).
1. 네 번째 장에서 이를 반복한다(4색).
1. 최종 종이에서 잇는 것끼리 이를 군집화한다.
- 어떤 단계를 거쳐 분류가 완성됩니까?
(중심으로 계속 이동합니다.)
트레이싱지 또는 OHP 필름, 네임펜, 매 직
학습지
K-평균 시뮬레이 션
http://shabal.in/visuals/
kmeans/2.html
- 이제 모둠별로 주제를 정해 분류해보도록 하 겠습니다.
1. 부동산 공시지가에 따른 권역 설정 1. 기사내용에 따른 기자의 정치적 성향 파악 1. 범죄 발생 시각과 범죄 심각성 정도에 따른 군집화 1. 선수의 이적에 따른 대체 선수 선정
- x축 y축에 어떤 범례를 설정하고 데이터를 표시합 니까?
- 지도를 이용하여 K-평균 알고리즘을 실현할 수 있 습니까?
- 각각의 데이터를 분류해보도록 합시다.
- 분류한 데이터를 토대로 결과를 정리하여 발 표하여 봅시다.
K-평균 알고리즘
4차시 학습이란 무엇인가
활동 11
◆ 아래의 SNS 이용시각 데이터를 살펴보고 각각의 데이터는 어떤 사용자를 의미하는지 추측하여 봅시다.
출근시간대 직 장인이 SNS를 주로 사용하는 것 같다.
직장인, 학생 등 저녁 시간 에 주로 이용 하는 것 같다.
일정한 휴식시간을 가지지 않는 대학생, 무직 등의 SNS 사용 시각이다.
◆ 다음의 데이터를 적절하게 군집화 해 봅시다.
◆ K-평균 알고리즘에서 K가 뜻하는 것은 무엇입니까?
점의 개수(군집화할 개수)
K-평균 알고리즘 실험해보기
4차시 학습이란 무엇인가
활동 12
◆ 1. 트레이싱지에 순서쌍의 좌표를 그려봅시다.
점 좌표 점 좌표
A (1, 8) H (8, 1)
B (2, 9) I (9, 2)
C (1, 11) J (11, 2)
D (1, 10) K (10, 2)
E (3, 8) L (8, 4)
F (3, 7) M (7, 4)
G (4, 9) N (9, 3)
◆ 2. 트레이싱지를 겹쳐 놓아 봅시다.
◆ 3. 아무 곳에 점을 하나 찍어봅시다.
◆ 4. 두 번째 트레이지에 해당 점에서 좌표까지 거리 중 가까운 것 7개에 점 을 각각 찍어봅시다. 그리고 난 후 이어진 7개의 순서쌍의 가운데에 점을 찍습니다.
◆ 5. 세 번째 트레이지에 새로운 점에서 다시 7개의 순서쌍 가운데에 점을 찍 습니다. 그리고 이어진 7개의 순서쌍의 가운데에 점을 찍습니다.
◆ 6. 점의 위치를 친구와 비교합니다.
◆ 7. 점의 위치가 친구와 비슷하다면 그 이유는 무엇입니까?
점들의 가운데를 계속 찾기 때문입니다. 등
◆ 8. 점의 위치가 친구와 다르다면 그 이유는 무엇입니까?
시작점이 너무 다르기 때문입니다. 처음 선정한 곳의 순서쌍이 다릅니다.
K-평균 적용하기
학습이란 무엇인가 4차시
활동 13
◆ 제시된 자료 중 선정할 자료는 무엇입니까?
부동산 공시지가
◆ 선정한 자료의 종류를 아래에 가공하여 봅시다. 가공한 후 적절하게 군집화 하여 봅시다.
주택가 주거지역 으로 오피스텔이 밀집해 있다.
가로 축(가격), 세로 축(거래량)
상가들이 밀 접해 있고 인 구수가 많다.
오래된 집들이 모여있고, 세대수가 많지 않다.
◆ 군집화한 자료는 무엇을 추측할 수 있는지 써 봅시다.
특성 내용
가격이 낮고 거래량이 많다. 단기 오피스텔 임대 등이 있을 것이다.
가격과 거래량이 모두 낮다. 시골의 오래된 집들이 모여있을 것이다.
가격과 거래량이 모두 높다. 상가와 유동 인구가 많을 것이다.