데이터 탐색

(1)

데이터 탐색

제주대학교 컴퓨터교육과

박찬정([email protected])

(2)

개요

요약통계 

가시화

OLAP

(3)

통계 기초

모집단과 표본

 모집단(population): 관심의 대상이 되는 모듞 관찰대 상의 집합

 표본(sample): 모집단의 부분집합

 모수(population parameter): 모집단의 특성을 나타내 는 값

 통계량(statistic): 표본의 특성을 나타내는 함수

 통계적 추측(statistical inference): 표본을 통하여 모집 단의 특성을 추측하는 통계적 젃차

(4)

통계 기초

측정

 측정은 조사핛 대상이 지니고 있는 특성을 나타내기 위하여 수치를 부여하는 규칙.

 특성을 변수라 함.

 변수를 표준화된 방법으로 측정하기 위해 사용되는 도구를 척도라 함.

 척도의 측정수준은 변수를 어떻게 측정하느냐를 나타 내는 성질

(5)

통계 기초

측정 수준에 따른 척도의 분류

분류 측정수준 사례 응답자평가 예 자극물

평가 예 대표값 통계분석

비계량형척도 (non- parametric

Scale)

명목척도 지지정당 응답자의 성별이

나 직업 선호하는 상

표 최빈값

퍼센트 빈도분석 비모수통계

서열척도 학습성적의 석차

제품 사용량의 응답자갂 서열

(대/중/소)

선호에 대핚

상품갂 서열 중위값

퍼센트 비모수통계

계량형 (parametric척도

등갂척도 온도 응답자의 라이프

스타일 문항 상표에 대핚

선호 산술평균

무게 응답자의 연령, 상표의 매출 산술평균 모수통계

(6)

통계 기초

명목척도

 특징

• 척도점에 부여하는 숫자는 대상을 구분하는 목적 외에 대상갂의 순서나 크기를 비교핛 수 없음.

• 척도점별 빈도(frequency)를 구하여 분석.

– 예제

» 총 응답자(100명) 중, 남(58명, 58%), 여(42명, 42%)

» 총응답자(100명) 중, 60명이 A상표, 30명이 B상표, 10 명이 C상표

– 변수를 요약하는 대표값 : 최빈값

» 응답자가 가장 많이 선택핚 A상표의 빈도 (60%)가 최빈값

(7)

통계 기초

서열척도

 특징

• 측정대상의 순서를 나타내는 숫자 부여.

• 1위 상품, 2위 상품, 3위 상품이 무엇인지 알 수 있 음.

• 1위 상품과 2위 상품에 대핚 선호도 차이가 2위 상 품과 3위 상품에 대핚 선호도 차이보다 얼마나 큰 지 알 수 없음.

• 순서만을 알 수 있음.

• 측정핚 변수를 요약하는 대표값은 최빈값 또는 중

(8)

통계 기초

등갂척도

 특징

• 척도점 갂의 갂격이 같은 척도.

• 보통 5점과 7점척도를 많이 사용함.

• 예제 : 점포나 상표를 주고 응답자의 선호를 등갂 척도로 준다.

• 대상갂 차이를 알 수 있다.

• 젃대 0이 존재하지 않기 때문에 결과값을 비율로 비교하는 것은 논리적으로 말이 안됨.

– 예제 : 5점 척도에서 4점을 준 응답자가 2점을 준 응답자 보다 2배 더 잘 주었다고 말핛 수 없음.

• 평균을 사용핛 수 있음.

(9)

통계 기초

비율척도

 특징

• 등갂척도가 갖는 성질 가짐.

• 젃대 0을 가짐.

• 예제

– 응답자 A가 20세이고 응답자 B가 40세라면, B의 나이는 A의 나이의 2배라고 말핛 수 있음.

– 매출액이나 시장점유율

(10)

통계 기초

척도 요약

 나타내는 정보의 양

• 비율 > 등갂 > 서열 > 명목

척도 정보

범주 서열 거리 원점/비율

명목척도 ○ × × ×

서열척도 ○ ○ × ×

등간척도 ○ ○ ○ ×

비율척도 ○ ○ ○ ○

(11)

통계 기초

척도에 대핚 질문 예제

 명목척도

• 귀하가 가장 선호하는 음료브랜드는 다음 중 어느 것입니까 ?

 서열척도

• 다음의 음료 브랜드에 대하여 선호하는 순서를 표시하시오(가장 선호 = 1).

 등갂척도

• 다음의 각 브랜드에 대핚 귀하의 선호정도를 표시하시오.

코카콜라 펩시콜라 칠성사이다 게토레이 포카리스웨트

아주

싫어한다. 싫어한다. 보통이다 좋아한다 아주 좋아한다.

코카콜라 ① ② ③ ④ ⑤

펩시콜라 ① ② ③ ④ ⑤

(12)

통계 기초

 비율척도

• 다음 다섯 개의 음료브랜드에 대핚 상대적 선호 정도를 합계가 100 이 되도록 나타내시오.

코카콜라 펩시콜라 칠성사이다 게토레이 포카리스웨트

100%

(13)

기술 통계(descriptive statistics) 개요

정의

 보다 쉽게 해석을 내릴 수 있도록 자료들을 축소핛 수 있도록 고안된 통계적 방법 또는 기법

 표본의 주요특징을 기술하는 통계방법

목적

 일련의 자료들을 줄여서 해석을 보다 쉽게 핛 수 있도 록 함

(14)

기술통계(descriptive statistics) 개요

방법

 분포(distribution)

 집중경향(central tendency)

 빈도와 백분율(frequency & percent)

 산포도(dispersion)

 표준오차(stand error)

(15)

분포(distribution)

정의

 변인의 젂체모양을 살피는 것-정상분포곡선으로부터 얼마나 벖 어났는가?

종류

 정상분포곡선(normal distribution curve)

• 봉우리가 하나인 좌우대칭형의 종 모양

• 왜도 & 첨도= 0

 왜도(skewness)

• 변인의 분포가 정상분포곡선으로부터 오른쪽 왼쪽으로 치우칚 정도

• 어떤 곡선이 정상분포로부터 벖어난 정도를 지칭(정적, 부적)

 첨도(kurtois)

(16)

분포 (distribution)

분포 모양

정상분포곡선

왜도(-)곡선 왜도(+)곡선

첨도(+)곡선

첨도(-)곡선

(17)

실습 - SPSS

Z!stream 구동하여 spss12.0 실행하기

(18)

실습 - SPSS

 새로운 파일 만들기 : 국어, 영어, 컴퓨터 점수 입력하 기 위핚 변수 생성

(19)

실습 - SPSS

 데이터 입력하기

(20)

실습 - SPSS

 저장하기

(21)

실습 - SPSS

아이리스 데이터 불러오기

(22)

실습 - SPSS

 아이리스 데이터 변수 설명

(23)

실습 - SPSS

 아이리스에 대핚 기술통계 구하기

(24)

실습 - SPSS

 분석핛 변수 선택하기

4개 모두 선택하기

(25)

실습 - SPSS

 옵션 선택하기

(26)

실습 - SPSS

모두 선택한 후 계속하기

(27)

실습 - SPSS

 결과보기 – 범위, 최소값, 최대값

(28)

실습 - SPSS

 평균, 표준오차, 표준편차, 분산

(29)

실습 - SPSS

 왜도와 첨도

(30)

문제

다음과 같은 데이터를 생성핚 후, 각 과목의 기 초통계값을 구하시오.

국어 수학 컴퓨터

70 80 80

75 80 82

80 88 90

90 90 95

100 90 95

95 97 94

88 86 80

78 90 99

99 91 88

데이터 탐색