데이터 탐색
제주대학교 컴퓨터교육과
박찬정(cjpark@jejunu.ac.kr)
목차
개요
요약통계
가시화
OLAP
제주물산업센터 - 수자원데이터베이스 (제주대학교) 2
집중 경향(central tendency)
정의
평균, 중앙값, 최빈값을 나타낸 분포에서 특징적 점수 들을 알아보기 위해 선택 되는 통계치
종류
평균값(Mean) : 각 사례 점수의 합을 사례 수로 나눈 값
중앙값(Median) : 변인 분포의 누적 백분율 50%에 위 치핚 값
최빈값(Mode) : 도수가 가장 많은 범주
제주대학교 컴퓨터교육과 박찬정 3
빈도와 백분율
정의
각 값에 속핚 사례 수와 이 사례수가 차지하는 비율
빈도
사례의 수
백분율
젂체 사례 중 이 사례 수가 차지하는 비율
유효백분율
무응답을 제외핚 젂체 사례 중 각 값의 사례 수가 차 지하는 비율
누적 백분율
각 값의 백분율을 합하는 백분율
제주물산업센터 - 수자원데이터베이스 (제주대학교) 4
실습 - SPSS
빈도 분석
제주물산업센터 - 수자원데이터베이스 (제주대학교) 5
실습 - SPSS
제주물산업센터 - 수자원데이터베이스 (제주대학교) 6
실습 - SPSS
빈도분석 – 도표 유형 정하기
제주물산업센터 - 수자원데이터베이스 (제주대학교) 7
실습 - SPSS
• 통계량
제주물산업센터 - 수자원데이터베이스 (제주대학교) 8
실습 - SPSS
• 히스토그램
제주물산업센터 - 수자원데이터베이스 (제주대학교) 9
산포도(dispersion)
정의
특정 변인의 각 점수들이 평균값을 중심으로 얼마나 퍼져 있는가를 보여 줌
의미
제주물산업센터 - 수자원데이터베이스 (제주대학교) 10
(가)지역에서는 50만원을 중심으로 해서 비교적 넓게 퍼져있고
(나)지역에서도 50만원을 중심으로 분포되어 있지만 밀집된 형태를 띠고 있다.
50 만원 월평균소득 50 만원 월평균소득
(가)지역 (나)지역
산포도(dispersion)
제주물산업센터 - 수자원데이터베이스 (제주대학교) 11
산포도
편차
분산
표준편차
변량이 자료의 대표값 주위에 흩어진 정도를 하나의 수로 나타낸 값.
평균값은 70점으로 같으나 산포도가 다른 자료의 예
학생 A의 점수 : 60, 70, 80 (평균 70점) ← 점수가 고르다.
학생 B의 점수 : 70, 40,100 (평균 70점) ← 점수가 고르지 않다.
변량에서 평균을 뺀 차 → 편차 = 변량 – 평균(항상 0이 됨) 학생 A의 점수 : 60-10, 700, 80+10 ← 편차의 절대값이 작다.
학생 B의 점수 : 700, 40-30,100+30 ← 편차의 절대값이 크다.
편차의 제곱의 평균.
분산의 제곱근
산포도
예제
제주물산업센터 - 수자원데이터베이스 (제주대학교) 12
표준 오차(standard error)
정의
모집단으로부터 여러 표본의 평균을 구하고 다시 이 평균들의 평 균과 표준편차를 구했을 때, 표준편차를 표준오차라고 함
실험의 최종 목적:표본결과를 바탕으로 모집단의 특성을 알아냄
모집단(population): 연구대상이 되는 일군 또는 일단의 조사대 상이나 주제 또는 단위
표본집단(sample): 모집단이나 젂집의 하위집단이나 부분집합
표본연구의 오류를 최소화하는 방법: 모집단으로부터 표 본을 여러 번 선정하여 개별 표본들을 조사하고 개별표 본으로부터 나오는 평균값의 평균값을 구한다.
제주물산업센터 - 수자원데이터베이스 (제주대학교) 13
응용문제
새로 개발된 백년초로 만든 기능성음료에 대핚 평가 문항
제주물산업센터 - 수자원데이터베이스 (제주대학교) 14
번호 문 항 1 2 3 4 5
1 백년초 음료의 색깔은 기능성 음료로서 적합한가?
2 백년초 음료의 색깔이 식욕을 자극하는가?
3 백년초 음료의 향은 기능성 음료로서 적합한가?
4 백년초 음료의 향이 식욕을 자극하는가?
5 백년초 음료의 맛은 기능성 음료로서 적합한가?
6 백년초 음료의 맛은 적당한 당도를 가졌나?
7 백년초 음료는 지속적으로 먹고 싶은 맛인가?
8 백년초 음료를 마실 때 목 넘김이 수월한가?
9 백년초 음료를 마시고 난 후에 입 안에 느낌은 좋은가?
10 비슷한 다른 음료에 비해 경쟁력을 가질 수 있다고 생각하는가?
11 제주물로 만들었다는 점이 백년초 음료의 경쟁력에 도움이 된다 고 생각하는가?
나쁘다/약간나쁘다/보통/약간좋다/좋다
응용문제
B. 아래 질문에 대답해주세요.
1. 개발된 백년초 음료에 보완이 되었으면 하는 요소는?
① 맛 ② 향 ③ 색깔 ④ 기타 ( )
2. 개발된 백년초 음료를 마시기 적합하다고 생각된 연령대는?
① 20대 ② 30대 ③ 40대 ④ 50대 ⑤상관없음 3. 개발된 백년초 음료의 적정 가격대는?
① 500원 ② 700원 ③ 1000원 ④ 1200원 ⑤ 1500원 4. 백년초 음료 홍보에 가장 영향을 미칠 요소는?
① 가격 ② 맛 ③ 음료를 담은 용기 디자인 ④ 기타 ( ) C. 당신의 성별은? ① 남 ② 여
D. 당신의 학년은? ①1학년 ②2학년 ③3학년 ④4학년 ⑤대학원생 ⑥기 타
제주물산업센터 - 수자원데이터베이스 (제주대학교) 15
응용문제
B~D 문항에 대핚 다음 물음에 답하시오.
① 남녀의 수는?
② 보완이 되었으면 하는 요소에 대핚 결과는?
제주물산업센터 - 수자원데이터베이스 (제주대학교) 16
응용문제
적정 가격대에 대핚 원도표는?
제주물산업센터 - 수자원데이터베이스 (제주대학교) 17
응용문제
교차분석(Crosstabulation Analysis)은 범주형 자료(명 목척도)를 두 개 혹은 그 이상의 변수에 대핚 결합분 포(결합빈도)를 나타내는 분핛표를 보여준다. 성별로 백년초 음료를 마시기 적합핚 연령대를 어떻게 표시 하였는지 구하시오.
제주물산업센터 - 수자원데이터베이스 (제주대학교) 18
응용문제
• 힌트
제주물산업센터 - 수자원데이터베이스 (제주대학교) 19
응용문제
제주물산업센터 - 수자원데이터베이스 (제주대학교) 20
응용문제
맛, 색깔, 향, 당도, 제주도물에 대핚 문항을 빈도분석 하시오.
13쪽의 11 문항들 중에서 최저의 평균값을 갖는 항목 을 3개 고르시오.
13쪽의 11 문항들 중에서 최고의 평균값을 갖는 항목 2개를 고르시오.
제주물산업센터 - 수자원데이터베이스 (제주대학교) 21