Part 4. 예제를 통해 배우는 통계 분석

(1)

UI/UX

UI/UX 평가 평가 UX Evaluation : UX Evaluation : 사용자경험 리서치 매뉴얼 사용자경험 리서치 매뉴얼

숙명여자대학교

임순범

(2)

Part 4. 예제를 통해 배우는 통계 분석

 통계 용어의 정리

 엑셀에서의 데이터 분석 도구의 활용

 기술통계

 쌍체 비교 t- 검정

 등분산 가정 t- 검정

 일원배치 분산분석

 반복없는 이원배치 분산분석

 반복있는 이원배치 분산분석

 상관분석

 단순회귀분석

 다중회귀분석

 신뢰도와 타당도

 기타 통계함수

(3)

1. 통계 용어의 정리

 통계학 (statistics)

 데이터를 수집하고 , 정리 , 요약하며 , 모집단에 대한 추론 (inference) 을 과학적 방법 으로 할 수 있는 자료를 제공해주는 학문

 모집단과 표본

 모집단 (population) :

 연구 대상이 되는 집단 전체

 모수 (population parameter) : 모집단 전체에 대해 계산한 값

 표본 (sample)

 모집단을 잘 대표하기를 바라는 모집단의 일부를 추출한 것

 표본 통계량 (statistics) : 표본으로부터 얻어지는 여러가지 측정값 , 평균 , 분산 등

 모수값의 추정

 점추정 (point estimation) : 점추정량 (point estimator) : 평균 , 표준편차 , 비율 등

 구간추정 (interval estimation) : 오차범위 가감 , 상한 / 하한

(4)

신뢰구간

 중심극한정리 (central limit theorem)

 표본의 크기가 증가함에 따라 표본 평균의 분포는 정규분포에 근접

 신뢰구간과 표본 수

 신뢰구간 (confidence interval)

 모수로 추정한 값이 특정 확률로 (95%,99%) 이 구간에 속할 가능성이 있는 영역

 표본 크기에 따른 표본의 분포

 30 개 이상의 표본 수 => 표준 정규 분포로 가정

 10 개 이하의 표본 수 => t- 분포를 이용

 표본의 크기 정하기 (p.136~138, 생략 )

 모평균과 표준편차에서 계산 (pilot study 필요 )

 모비율에서 표본 크기 정하기

 [생략 ] 사용성평가에 적용하는 것은 무리

 양측신뢰구간 , 단측신뢰구간 => 가설검정에서 설명

(5)

참고 ( 신뢰구간 추정 ) https://dermabae.tistory.com/184

(6)

(7)

가설검정



가설검정 (hypothesis testing)

 상반되는 가설 중에서 표본 데이터가 어느 쪽에 더 부합하는지 결정하는 것

 귀무가설 (null hypothesis) H0 : 기각하고 싶은 기존 가설

 대립가설 (alternative hypothesis) H1 : 주장하고 싶은 새로운 이론

 예

 항공예약 모바일 앱 , A 사와 신규 B 사 비교

 귀무가설 (A 사 앱과 B사 앱의 만족도 차이는 없다 ), 대립가설 ( 차이가 있다 )

 A사 골프공 평균 비거리 295 야드 되어야 함

 귀무가설 (A 사 골프공 비거리 모평균은 295 이다 ), 대립가설 ( 모평균 비거리가 295 가 아니다 )

 A약은 그동안 고혈압 치료제 , 신규 B 약은 더 효과 있는지 비교

 귀무가설 (A 약과 B 약의 고혈압 치료 효과에 차이는 없다 ), 대립가설 ( 차이가 있다 )

 가설 검정의 단계

 귀무가설 ( 대립가설 ), 유의수준 결정

 검정통계량 계산 , 여기로 부터 p- 값 계산

 p-값이 유의수준 보다 작으면 H0 기각 (즉 , 검정통계량이 임계값보다 크면 )

 통계적인 해석

(8)

가설검정

 유의수준 (level of significance)

 어느정도 발생해야 의미가 있는지의 기준

 검정통계량이 귀무가설 하에 나올 가능성이 5% 이하일 때 기각

 검정통계량 (test statistics)

 Z-통계량 , t- 통계량 , F- 통계량

 유의확률 (p-value, significance probability)

 귀무가설을 지지하는 정도를 확률로 표현

 p-값이 유의수준 보다 작으면 귀무가설 기각

 (검정통계량과 p- 값은 반비례 )

 자유도 (degree of freedom, df)

 n-1 ( 표본수 – 1)

 N 개 데이터에서 자신을 제외한 나머지는 편차가 있다 .( 변할 수 있다 )

(9)

2. 엑셀 데이터 분석 도구의 활용

 기술통계

 순위와 백분위

 히스토그램

 분산에 대한 두집단 F- 검정

 t-검정

 쌍체비교 , 모집단 분산이 동일한 경우 , 모집단 분산이 다른 경우

 분산분석 (ANOVA)

 일원배치 , 반복 없는 이원배치 , 반복있는 이원배치

 공분산분석

 상관분석

 회귀분석

(10)

2.1 기술통계 (descriptive statistics)

 데이터의 중심에 대한 정보 ,

 평균 (mean), 중앙값 (median), 최빈값 (mode)

 변동성에 대한 정보

 표준오차 (standard error), 표준편차 (standard deviation), 분산 (variance)

 첨도 (kurtosis), 왜도 (skewness)

 범위 (range), 최대값 , 최소값

 데이터 전반적인 정보

 합 , 관측수 , 신뢰구간 (confidence interval, 95%)

2.2 순위와 백분위 2.3 히스토그램

 계급 범위 내의 데이터 빈도수 및 누적 비율 , 그래프 제공

(11)

2.4 분산에 대한 두 집단 F- 검정

 목적

 독립적인 두 집단에 대해 분산의 동질성 파악

 t-검정을 하기 위한 사전 검정

 귀무가설 채택시 등분산 t- 검정 , 귀무가설 기각시 이분산 t- 검정 실시

 귀무가설

 두 집단의 모분산은 동일하다 (H0: σ₁₂=σ₂₂)

 F- 통계량

 F = S12 / S22

 유의확률 p- 값

 유의확률 (p-값 ) 이 0.05 이하이면 귀무가설 기각

 (예 , p147)

(12)

2.5 t- 검정

 목적 : 모집단의 평균을 비교

 대응표본 t- 검정 : 예 , 동일한 사용자 그룹에게 두 방법 / 제품을 비교

 쌍체비교 : 동일한 모집단에서 데이터 추출 (p.182 예제 2)

 독립표본 t- 검정 : 예 , 각기 다른 사용자 그룹에 두 방법 / 제품을 비교

 독립적인 두 표본에 대해 모집단 분산의 동일 여부 F- 검정

=> 등분산 t- 검정 , 이분산 t- 검정 (p.187 예제 3)

 귀무가설

 두 집단의 모평균은 동일하다 (H0: μ₁=μ₂)

 t- 통계량

 쌍체비교 , 등분산 , 이분산 경우에 따라 t- 통계량이 다르다 .

 유의확률 p- 값

유의확률 (p-값 ) 이 0.05 이하이면 귀무가설 기각 ( 예 , p152)

(13)

 쌍체 비교 (p.182)

 동일한 모집단

 쌍체측정 (paired data)

 등분산

 동일한 모집단

 별도측정

(14)

 이분산 (p.187)

 상이한 모집단

(15)

2.6 분산분석 (ANOVA)

 목적 : 세 개 이상의 모집단의 평균이 동일한지 검정

 일원배치법 (one-factor) : 변동요인이 하나인 경우 (p.192, 예제 4)

 반복없는 이원배치 (two-factor) : 변동요인이 두개인 경우 (p.196, 예제 5)

 반복있는 이원배치 (two-factor) : 변동요인이 두개인 경우 (p.200, 예제 6)

 귀무가설

 일원배치 : 변동요인에 대한 모평균은 동일하다 (H0: μ₁=μ₂=μ₃)

 이원배치 : 가설 1) A 요인에 대한 모평균 동일 , 가설 2) B 요인 모평균 동일

 반복이원 배치 : 가설 1) A 요인 모평균 동일 , 가설 2) B 요인 모평균 동일 , 가설 3) 두 요인이 독립적 ( 교호작용 없다 )

 F- 통계량

 p.157~p.159

 유의확률 p- 값

 유의확률 (p-값 ) 이 0.05 이하이면 귀무가설 기각 ( 예 , p154,155,157)

(16)

 일원배치 (one-factor)

 예 ) 출시될 제품의 연령대별 선호도

 귀무가설 (H0: μ₁=μ₂=μ₃)

(17)

 반복 없는 이원배치 (two-factor)

(18)

 p.196 예제

 (반복없는 이원배치 )

(19)

 반복 있는 이원배치 (two-factor)

(20)

 예제

 p.200

(21)

2.8 상관분석 (Correlation Analysis)

 목적 : 두 변수가 얼마나 관련이 있는지 판단

 상관계수는 -1~ 1 사이 , 상관계수 공식 (p.162)

 (p.209, 예제 9)

 엑셀에서는 산점도와 상관계수 까지만 제공 (p.211)

 통계적 분석 과정

 귀무가설

 두 변수 X 와 Y 사이에 관계가 없다

 t-통계량

 t 임계치 , t 기각역은 t(0.025, n-2)로 판단

(22)

 신제품 이용횟수와 에러수

(23)

2.9 회귀분석



목적 : 한 변수가 다른 변수에 미치는 영향 ( 두 변수간 영향 ) 을 분석

 독립변수 , 종속변수

 두 변수간에 선형관계가 성립하는가 판단

 상관분석은 상관관계 까지만 분석

 두 변수간에 회귀모형을 추정

 추정회귀식 y = b0 + b₁x => 이 회귀모형이 적합한지 F- 검정 ( 분산분석 )

 그 다음 , 결정계수

 데이터의 총 변동 중 회귀직선에 의한 비율 확인

 결정계수로 부터 회귀식네 대한 유의성 검정



통계적 분석 과정

 귀무가설

 두 변수 사이에 선형관계가 존재하지 않는다 . (H0 : b1 = 0)

 적합성 검증

 F-비

 t-통계량

(24)

단순 회귀분석 예제

(25)

 p.216

(26)

다중 회귀분석 예제

 p.225

(27)

2.7 공분산분석 2.10 기타

 Z- 검정 : 분산이 알려진 평균에 대한 검정

 표본수가 30 이상 일때 z- 검정

Part 4. 예제를 통해 배우는 통계 분석

UI/UX

UI/UX 평가 평가 UX Evaluation : UX Evaluation : 사용자경험 리서치 매뉴얼 사용자경험 리서치 매뉴얼

숙명여자대학교

임순범

Part 4. 예제를 통해 배우는 통계 분석

1. 통계 용어의 정리

 통계학 (statistics)

 모집단과 표본

 모수값의 추정

신뢰구간

 중심극한정리 (central limit theorem)

 신뢰구간과 표본 수

참고 ( 신뢰구간 추정 ) https://dermabae.tistory.com/184

가설검정

가설검정 (hypothesis testing)

가설검정

2. 엑셀 데이터 분석 도구의 활용

2.1 기술통계 (descriptive statistics)

 데이터의 중심에 대한 정보 ,

 변동성에 대한 정보

 데이터 전반적인 정보

2.2 순위와 백분위 2.3 히스토그램

2.4 분산에 대한 두 집단 F- 검정

 목적

 귀무가설

 F- 통계량

 유의확률 p- 값

2.5 t- 검정

 목적 : 모집단의 평균을 비교

 귀무가설

 t- 통계량

 유의확률 p- 값

 쌍체 비교 (p.182)

 등분산

 이분산 (p.187)

2.6 분산분석 (ANOVA)

 목적 : 세 개 이상의 모집단의 평균이 동일한지 검정

 귀무가설

 F- 통계량

 유의확률 p- 값

 일원배치 (one-factor)

 반복 없는 이원배치 (two-factor)

 p.196 예제

 반복 있는 이원배치 (two-factor)

 예제

2.8 상관분석 (Correlation Analysis)

 목적 : 두 변수가 얼마나 관련이 있는지 판단

 통계적 분석 과정

 신제품 이용횟수와 에러수

2.9 회귀분석

목적 : 한 변수가 다른 변수에 미치는 영향 ( 두 변수간 영향 ) 을 분석

통계적 분석 과정

단순 회귀분석 예제

 p.216

다중 회귀분석 예제

 p.225

2.7 공분산분석 2.10 기타

 Z- 검정 : 분산이 알려진 평균에 대한 검정

3~11. 엑셀 처리 사례

12. 신뢰도와 타당도

13. 기타 통계 함수