• 검색 결과가 없습니다.

제 3장 데이터의 요약-1

N/A
N/A
Protected

Academic year: 2022

Share "제 3장 데이터의 요약-1"

Copied!
29
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

수리정보과학과

제 3장 데이터의 요약-1

기초통계학 - 김대학 1

3.1 데이터 요약의 필요성 3.2 데이터 정리의 방법 3.3 그래프에 의한 정리 3.3.1 히스토그램

3.3.2 줄기와 잎 그림(stem and leaf plot) 3.3.3 상자그림(box and whisker plot)

3.3.4 막대그래프(bar graph) 3.3.5 원그림(pie chart)

3.3.6 점 도표(dot plot) 3.4 표에 의한 정리

3.4.1 도수분포표(frequency table) 3.4.2 분할표(contingency table)

(2)

3.1 데이터 요약(정리)의 필요성

(3)

수리정보과학과

 데이터를 모집단으로부터의 랜덤표본이라고 생각 즉 data = random sample ( 랜덤표본 )

 우리가 원하는 정보를 쉽게 얻기 위해서는 데이터를 잘 정리, 요약할 필요가 있다

 그 이유는 본격적인 통계분석이 시작되기 전에 데이터 속에 포함되어 있는 대 략적인 정보의 획득이나 자신들이 가지고 있던 사전정보의 확인 등을 위해서 도 필요

기초통계학 - 김대학 3

(4)

3.2 데이터의 정리방법

 기술통계학(descriptive statistic)의 핵심부분 데이터를 요약, 정리하는 대표적 방법 - 세가지 1. 그래프(graph)로 요약하는 방법

2. 표(table)로 요약하는 방법 3. 값(대표, value)으로 의한 방법

데이터가 가지고 있는 속성(질적, 혹은 양적)에 따라서 요약하는 방향이 달라짐

데이터

(5)

수리정보과학과

3.3 그래프에 의한 정리

 데이터를 정리함에 있어 시각적인 효과를 최대화하는 방법

 한 눈에 많은 것을 파악할 수 있음.

 그래프의 종류

기초통계학 - 김대학 5

히스토그램, 줄기와 잎 그림, 상자그림, 막대그래프,

원 그림, 점 도표.

(6)

3.3.1 히스토그램(histogram)

 어느 도시지역 초등학교 1학년 학생 15명 랜덤 선발

 소변 내 납의 농도 측정 데이터(납 농도 데이터)

0.6 2.6 0.1 1.1 0.4 2.0 0.8 1.3 1.2 1.5 3.2 1.7 1.9 1.9 3.2

 히스토그램으로 요약

납 농도 데이터의 히스토그램

(7)

수리정보과학과

3.3.2 줄기와 잎 그림(stem and leaf plot)

 적절한 줄기와 그에 따른 잎을 선정하여 작성

 납 농도데이터의 경우 소수점 왼쪽의 숫자를 줄기, 오른쪽 숫자를 잎으로 선정

 크기 순으로 세로로 나열

 해당 숫자들을 줄기의 숫자 오른 쪽에 붙여준다

 괄호를 동반하고 있는 수는 그 줄기에 전체 데이터의 가운데 위치하고 있는 값 이 있음을 의미

기초통계학 - 김대학 7

(8)

줄기와 잎 그림(stem and leaf plot) 그리는 절차

① 세로 수직선을 그린다

② 세로 수직선 왼쪽에 줄기 값인 숫자 0~3을 차례대로 적는다

③ 이제 잎에 해당되는 소수점 오른쪽 수를 해당되는 줄기의 오른쪽에 차례대로 적는다

④ 잎의 자리수를 크기 순으로 정렬한다

납 농도 데이터의 줄기와 잎 그림

(9)

수리정보과학과

예) 60명 학생의 기초통계학 중간고사 성적의 줄기와 잎 그림

88 80 75 74 67 54 66 77 62 99 74 45 75 73 91 56 81 75 84 76 91 59 72 87 53 62 78 84 78 94 54 83 87 58 63 79 48 87 67 72 78 88 82 77 57 97 71 98 74 81 68 36 91 85 62 64 62 48 93 55

기초통계학 - 김대학 9

(10)

3.3.3 상자그림(box and whisker plot)

 두 집단 이상의 자료에 대한 그래프 요약에서 유용

예) 도시와 농촌 지역의 환경조사

어느 도시지역 초등학교 1학년학생의 납의 농도

0.6 2.6 0.1 1.1 0.4 2.0 0.8 1.3 1.2 1.5 3.2 1.7 1.9 1.9 3.2 어느 농촌지역 초등학교 1학년 학생의 납의 농도

0.3 0.6 0.7 0.8 1.5 1.7 1.8 1.9 1.9 2.0 2.0 2.1 2.8 3.1 3.4

(11)

수리정보과학과

각 집단에 대한 히스토그램

기초통계학 - 김대학 11

각 집단에 대한 히스토그램은 동시에 비교하기 곤란하다.

도시와 농촌 지역 학생의 소변 내 납 농도에 대한 히스토그램 (왼쪽: 농촌, 오른쪽 : 도시)

(12)

 도시와 농촌의 납 농도의 비교

 두 집단 혹은 여러 집단 간의 비교를 위하여 시각적으로 흥미 있는 결과를 제 공해주는 상자그림(혹은 상자와 수염그림표)

도시와 농촌 지역 학생의 소변 내 납 농도에 대한

상자그림(왼쪽: 농촌, 오른쪽 :도시)

(13)

수리정보과학과

상자그림 작성방법

 상자그림의 작성방법은 4장에서 자세히 설명된다.

 상자그림을 그리기 위해서는

최대값, 최소값, 중앙값, 제1사분위수, 제3사분위수 등이 필요하다.

기초통계학 - 김대학 13

(14)

3.3.4 막대그래프(bar graph)

 어느 도시지역 학생들의 소변 내 납 농도와 아버지 직업조사자료 0.6 2.6 0.1 1.1 0.4 2.0 0.8 1.3 1.2 1.5 3.2 1.7 1.9 1.9 3.2

 전문직(2명), 사무직(5명), 생산직(3명)

 아버지 직업에 대한 그래프

아버지 직업에 대한 막대그래프

(15)

수리정보과학과

막대그래프(bar graph)의 특징

 막대들이 서로 떨어져 있다

– 수평축(x축)이 질적 데이터(예로서 아버지 직업) 즉 범주형 데이터를 나타내 도록 하였기 때문

– 수직축(y축)은 해당되는 범주에 속하는 데이터의 빈도를 나타내고 있기 때 문

 연속인 구간에서 작성되는 히스토그램과 구분됨

기초통계학 - 김대학 15

(16)

3.3.5 원그림(pie chart)

 신문이나 텔레비전 등에서 자주 접할 수 있는 그래프

 주어진 데이터에서 해당되는 범주의 상대적인 크기를 원을 분할한 형태로 나 타내는 방법

 파이(pie)를 여러 조각의 크기로 분할하는 형태

 시각적인 효과를 극대화

 간결하고 한눈에 파악할 수 있음

 2차원과 입체형, 원형과 쪼개진 원형 등 다양한 형태

(17)

수리정보과학과

원그림(pie chart)의 예

기초통계학 - 김대학 17

어느 도시의 연령별 인구분포

(18)

3.3.6 점 도표(dot plot)

 데이터들을 수평축 위에 하나의 점으로 나타낸 도표

 같은 값을 가지는 데이터의 수가 많을 경우 그 값이 한눈에 나타나게 되어 자료의 특징을 쉽게 파악할 수 있다.

납 농도 데이터의 점 도표

(19)

수리정보과학과

3.4 표에 의한 정리

 데이터를 간결하게 표(테이블)로 나타내어 정리

 데이터 요약에 사용되는 표의 종류

기초통계학 - 김대학 19

도수분포표(frequency table), 분할표(contingency table)

(20)

3.4.1 도수분포표(frequency table)

 데이터를 몇 개의 그룹이나 묶음으로 구분하여 각 그룹이나 묶음에 속하는 데 이터의 수를 살펴보고 이를 나타내어 정리하는 표

 전체적이고도 대략적인 정보를 원할 때

 분포에 대한 종합적인 정보를 원할 때

 예

– 어느 대학교에서 실시된 1학기 통계학 과목의 중간고사 성적 – 어느 병원에서 조사된 환자들의 당뇨수치

(21)

수리정보과학과

 도수분포표는 데이터 값에 대하여 도수나 상대도수를 나열해 놓은 도표

 도수(frequency)는 데이터가 나타난 빈도수를 의미

 상대도수(relative frequency)는 도수를 전체데이터의 수로 나눈 것

 누적상대도수(cumulative frequency)는 상대도수를 누적시킨 것

기초통계학 - 김대학 21

(22)

도수분포표의 예

도수 상대도수 누적상대도수 남 27 0.675(=27/40) 0.675 여 13 0.325(=13/40) 1

x100=퍼센트 어느 집단 40명에 대한 성별 도수분포표

(23)

수리정보과학과

이차원 도수분포표(frequency table)

 데이터를 여러 가지 변수에 대하여 동시에 요약하여 표로 나타내고자 할 때에 각각의 도수분포표만으로는 한꺼번에 데이터를 요약하는 표로 작성하기 어려 움

 이런 경우에 유용한 표가 분할표.

기초통계학 - 김대학 23

(24)

3.4.2 분할표(contingency table)

 두 개 이상의 변수에 대한 데이터를 표로 요약할 때 사용되는 방법

 하나의 변수에 대한 자료를 표로 요약하는 도수분포표를 이차원, 삼차원 등으 로 확장하여 표로 요약

 구체적으로 RxC 이차원 분할표라 부름

 R 은 첫째 변수의 수준수, C는 둘째 변수의 수준 수

예)2x4 분할표 (이차원분할표) , 3x3x2 분할표 (삼차원분할표)

(25)

수리정보과학과

중간고사 학년

1 2 3 4 합계 요약 32 25 8 12 77

기초통계학 - 김대학 25

중간고사 성별

남 여 합계 요약 45 32 77

중간고사 학년

성별 1 2 3 4 총합계 남 18 17 6 4 45 여 14 8 2 8 32 총합계 32 25 8 12 77 어느 대학교 기초통계학 수강생의 중간고사 성적 자료의 요약

학년별 도수분포표

성별 도수분포표

성x학년 도수분포표(2x4)

(26)

평균 학년

성별 1 2 3 4 평균 남 9.1 15.6 13.8 15.6 12.8 여 9.0 14.4 15.6 13.0 11.8 평균 9.1 15.2 14.3 13.9 12.4

중간고사 성적의 2x4 분할표 (평균을 기준)

(27)

수리정보과학과

3.4.3 엑셀실습

 데이터의 수가 많을 때 도수분포표나 분할표(contingency table)의 작성은 쉽지 않음. 따라서 컴퓨터를 이용하여 간단히 계산할 수 있음.

 엑셀에서 제공하는 피벗테이블(pivot table)을 이용하여 데이터 요약을 쉽게 할 수 있음

 피벗의 사전적 의미는 회전하는 물체의 균형을 잡아주는 중심점이나 중심이 되는 축을 의미.

기초통계학 - 김대학 27

(28)

피벗테이블의 특징

엑셀에서 제공하는 “피벗 테이블”의 특징

① 피벗테이블을 이용하면 쉽게 표를 작성할 수 있다.

② 한번 작성된 피벗테이블은 또 다른 분석을 위하여 피벗테이블을 다시 작성할 필요가 없다

③ 하나의 피벗테이블을 이용하여 여러 가지 표들을 얻을 수 있다

(29)

수리정보과학과

엑셀화면

기초통계학 - 김대학 29

참조

관련 문서

•• 비압축 비압축 디지털 디지털 오디오 오디오//비디오 비디오 데이터를 데이터를 젂송하기 젂송하기 위핚 위핚 소형 소형

즉 구하는 경우의 수는 서로 다른 5개의 접시를 원형으로 배열하 는 원순열의 수와 같다... 확률변수 Y의 확률분포를 표로

⚫ Inventor 임베디드를 통해, Inventor Data 혹 은 DXF 가져온 파일 최적화. ⚫ 멀티 시트 기능을 통해, 판금 제품 자동 배 치

여러 가지 면 정의 방법을 제공하며 , 각각의 정의 방법에 따라 하나의 명령줄에서 면을 정의 (xplane, yplane, zplane, reflectsurf)할 수도 있고, 복잡한

학생들은 선정한 주제에 맞는 데이터를 수집하기 위하여 공공데이 터 포털 혹은 아두이노를 활용하여 데이터를 수집을 계획하는 등 주제에 맞는 데이터를

다양한 고양이와 개 그림을 학생들에게 제시하고 개와 고양이 그룹으로 분류한 다음 고양이가 개와 다른 특징을 모둠별로 토의하여 정리하도록 지도한다... (얼굴

[r]

본 연구의 내용은 전기자동차 충전소와 연관된 데이터를 수집하고 충전소 데이터의 주소를 활용하여 지리공간정보와 결합하였고, 데이터 전처리 및