극동대학교

(1)

(2)

< 강의 목차 >

• 히스토그램

• 기술통계

• T-Test

1) Independent (sample) T-test 2) paired (sample) T-test

• ANOVA Test (분산분석)

• Correlation (상관분석)

• Regression (회귀분석)

(3)

• 분석도구 설정하기

(4)

1) 히스토그램

: 표로 되어 있는 도수 분포를 정보 그림으

로 나타낸 것. 즉, 도수분포표를 그래프로 나

타낸 것.

- 데이터 가로로 입력(다음장 데이터 입력)

- 가로데이터를 세로로 변경

- 수식 이용해서 표 작성

- 엑셀 ‘데이터분석’ 활용하기!!!

< 히스토그램 >

(5)

데이터(가로로 입력)

4 4 4 4 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 8 8 8 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10

(6)

(7)

(8)

(9)

(10)

1) 기술통계

: 확보하고 있는 데이터가 모집단인지 표본인지 구분하지 않음 : 개체들의 특성을 표, 그래프, 통계량을 활용하여 요약 정리 : 추리통계를 위한 기초적인 표본 데이터 분석방법으로 활용됨

- 데이터 입력(유인물 참조)

- 지능/성별 데이터를 가지고 와서 성별정렬

- 여성 지능만 복사해서 옮기기

- 수식 이용해서 평균, 표준편차 구하기

- 엑셀 ‘데이터분석’ 활용하기!!!

< 기술통계 >

(11)

(12)

(13)

“모집단 여학생들의 지능지수가 95일리 없다”

1) 모집단 모수에 대응하는 표본통계량인 표본평균 구하기

99.69047619

(14)

1) 독립표본 T-검정

: 두 독립표본의 평균 차이 검정 방법

: 표본수가 다를 수 있음

2) 대응표본 T-검정

: 짝 지은 두 표본의 평균 차이 검정 방법

: 표본수가 같아야 함

< T-test >

(15)

• 남녀 성별에 따른 콜레스테롤 수치 (독립표본 T-검정 예제) 남자 2.8 3.6 3.4 3.8 2.9 4.5 여자 1.7 3.0 2.4 3.3 0.9 < T - 검정의 가설 > * 귀무가설 : 두 집단간에는 통계적으로 유의한 차이가 없다. * 대립가설 : 두 집단간에는 통계적으로 유의한 차이가 있다. < 엑셀에서 독립표본 T-검정은 등분산 검정을 먼저 시행함 > Ho : 두 집단간 분산은 동일하다. (등분산 가정) H1: 두 집단간 분산은 동일하지 않다. (이분산 가정)

(16)

(17)

(18)

P > 0.05 등분산 확인

(19)

(20)

(21)

결론 : 남녀 두 집단간에는 콜레스테롤 수치에 있어 통계적으로 유의한 차이가 있다. P<0.05 이며, T 검정의 H_O가설 기각 H1 가설 채택

(22)

<지원자 10명에 대한 식이요법 시행전과 후의 체중>

지원자 시행 전 체중 시행 후 체중 1 75 65 2 72 60 3 68 55 4 69 56 5 72 61 6 58 50 7 65 53 8 73 61 9 80 60 10 75 55 • 귀무 가설 : 시행 전·후간에는 통계적으로 유의한 차이가 없다. • 대립 가설 : 시행 전·후간에는 통계적으로 유의한 차이가 있다.

(23)

(24)

(25)

P<0.05 이며, Ho 가설 기각

• 결론 : 식이요법을 시행하기 전의 체중과 후의 체

중 간에는 통계적으로 유의한 차이가 있다.

따라

서, 이러한 식이요법 후에는 체중이 감소되는 효

과가 있다.

(26)

< ANOVA 분석 >

• 분산분석의 개념

: 연속형인 종속변수(y)의 변화가 명목형인 독립변

수(x)에 의해 어느 정도 영향을 받는 지 검정하고

자 할 때 사용함.

: 일반적으로 독립변수가 3가지 이상일 때 사용

• 분산분석의 종류

: 일원분산분석 (one-way ANOVA)-요인 한 가지

: 이원분산분석 (two-way ANOVA)-요인 두 가지

(27)

• 표본간분산 (MSB) : 표본평균값들 사이에 흩어져 있는 정도; 모집단 평균 사이에 차이가 클수록 각각의 모집 단으로부터 추출된 표본들의 평균들 사이의 차이도 커 진다. • 표본내분산 (MSW) : 개별 표본 내 개체들 사이에 흩어 져 있는 정도; 동일한 분산을 갖는 것으로 인정된 모집 단들로부터 뽑힌 표본들이기 때문에 표집 과정에서 개 별 표본 안에 어떤 개체들이 포함되느냐에 따라 분산 간에 약간의 편차가 발생할 수 있지만, 모집단 평균들 사이의 차이가 있느냐 없느냐에 영향을 받지 않는다.

표본간분산과 표본내분산

(28)

검증통계량

표본내분산

표본간분산



F

• 표본간분산

을

표본내분산

으로 나누어

표준화한 값

• 위 검증통계량은 F-분포를 따른다.

(29)

대립가설과 귀무가설

• H

_a

: 모집단들의 평균이 모두 같지는 않을 것이다.

H

₀

:

_μ

₁

=

_μ

₂

=

_μ

₃

=

_μ

₄

• 검증통계량:

표본간분산

을

표본내분산

으로 나누어

표준화한 값(즉, )

• 검증통계량의 확률분포: F-분포

• 기각영역 경계값:

표본내분산 표본간분산  F 76 , 3 ,  F

(30)

일원분산분석 연습문제

(31)

1. 분산분석의 결과를 통해 검증할 수 있는 연구가설은?  모집단에서 반별로 학업성취도에 차이가 있을 것이다. 2. 연구가설을 대립가설과 귀무가설의 형식으로 써라. (단, 1, 2, 3반 모집단 평균은 각각 μ₁, μ₂, μ₃로 표기)  대립가설: 세 반의 학업성취도 평균은 모두 같지 않다.  귀무가설: μ1=μ2=μ3 3. 표본간제곱합(SSB), 표본내제곱합(SSW), 총제곱합 (SST)?  표본간제곱합(SSB)=35.176  표본내제곱합(SSW)=267.812  총제곱합(SST)=302.988

(32)

4. 표본간평균제곱합(MSB)과 표본내평균제곱합(MSW)은?  표본간평균제곱합(MSB)=17.588  표본내평균제곱합(MSW)=3.266 5. 검증통계치는? p-값은?  검증통계치(F)=MSB/MSW=5.385 // p-값=0.006 6. 대립가설을 채택할 수 있는지 판정하라.  p-값(0.006) < 유의수준(0.01) => 따라서 귀무가설 기각

(33)

7. 어느 반들 사이에 학업성취도 차이가 존재하는가?

 μ1 ≠ μ3  μ2 ≠ μ3

(34)

< 3가지 치료방법에 따라 환자의 치유정도 > 처리 1 방법 2 방법 3 방법 16 10 8 18 12 10 20 16 9 17 13 11 3가지 치료방법에 따라 환자의 치유정도에 차이가 있는 지 검정하고자 함. * 귀무 가설 : 3가지 치료방법에 따라 환자의 치유정도에 차이가 없다 * 대립 가설 : 3가지 치료방법에 따라 환자의 치유정도에 차이가 있다

(35)

(36)

(37)

• 결론: 3가지 치료방법 중 1방법이 가장 치유정도가 높고, 다음이 2방법, 3방법의 순서이다. • 분산분석표에서 F값과 p값 등이 산출되어져 있으며, 결 과는 p값이 0.0006으로서 0.05보다 작기에 귀무가설을 기각시킬 수 있다. 따라서, 3가지 치료방법에 따라 환자 의 치유정도에 통계적으로 유의한 차이가 있다고 할 수 있다. 평균비교 F>0.05 (등분산) P<0.05 (Ho기각)

(38)

< 상관분석 >

• 상관분석의 개념

: 한 변수에 따른 다른 변수의 변화 정

도와 방향을 예측하는 기법, 두 변수

간의 상관성의 정도를 의미하는

상관

계수(R)산출

(39)

피어슨 상관계수

정(+)의 상관관계 무관계 부(-)의 상관관계 X Y X Y X Y 두 변수 X와 Y 사의의 관계의 정도와 방향을 나타냄. 두 연속변수 X와 Y 사의의 선형관계를 가정함. 두 변수 사이의 인과관계(因果關係: causal relationship)에 대한 정보 없음.

(40)

모집단 상관계수에 대한 가설검증

• 양측검증

대립가설 귀무가설

H

_a

:



_xy



0 H

₀

:



_xy



0 • 단측검증: 우측검증 / 단측검증

대립가설 귀무가설

0 :

_xy



a

H



H

₀

:



_xy



0 • 상관계수가 ‘0’이면 상관성이 없음 !!!

(41)

SPSS 상관분석 결과표 해석

• 학업성취도와 지능 간 표본상관계수=0.550

표본상관계수의 표본오차와 검증통계치 정보: 없음. 양측검증 기준 p-값=0.000

(42)

SPSS 상관분석에 기초한 가설검증

• 모집단 모수(population parameter)는?

> 학업성취도와 부모경쟁력 간 상관계수

• 모집단 모수(population parameter)는?

(43)

SPSS 상관분석에 기초한 가설검증

대립가설과 귀무가설은? > 양측검증 기준 p-값은? > 0.002 유의한 상관관계가 존재할 수 있는 유의수준은? 0.004 이상 > p-값 < 0.01 므로 귀무가설 기각 (상관관계 있음) > p-값 > 0.001 므로 귀무가설 채택 (상관관계 없음)

0 :

_xy



a

H



H

₀

:



_xy



0

(44)

< 혈압과 맥박의 상관관계 분석 > 대상자 혈압 맥박 1 105 63 2 115 70 3 116 72 4 117 73 5 112 72 6 121 71 7 121 69 8 110 66 9 110 69 10 114 64 혈압과 맥박 사이에 상관성이 있는지 검정하고 함. 귀무가설 : 혈압과 맥박 사이에 상관성이 없다 대립가설 : 혈압과 맥박 사이에 상관성이 있다 대상자 혈압 맥박 11 114 74 12 115 71 13 114 68 14 106 67 15 125 76 16 114 69 17 106 62 18 113 70 19 110 71 20 122 75

(45)

(46)

(47)

* 결론 : 혈압과 맥박간의 상관관계는 0.72로 높은 양의 상관관계를 보인다. Excel에서는 상관계수에 대한 유의확률은 나타나지 않는다.

(48)

< 회귀분석 >

• 회귀분석의 개념

:

종속변수(y, 결과변수)와 독립변수(x, 설명변수)

가 서로 인과관계를 가질 때,

독립변수가 변화함

에 따라 종속변수가 어떻게 변화하는가를

규명

하는 통계기법, 두 변수 모두 연속이어야 함.

• 회귀분석의 종류

:

단순회귀분석, 다중회귀분석

(49)

회귀함수 이해하기

• 일반함수: Y

_i

= a + b·X

_i

• 회귀함수: Y

_i

= a + b·X

_i

+ e

_i A Y X 확정적 부 분 (체계적 부분) 비확정적 부분 (확률적 부 분) 회귀선 (최적선) >>> 회귀분석: 위 식의 계수(a, b) 값을 구하는 기법

(50)

회귀모형의 결정계수(R

2 ₎

• 결정계수(coefficient of determination)

데이터에 속한 개체들의 Y값을 예측(혹은 설명)

함에 있어서 전체평균을 사용할 때 예측(혹은

설명)할 수 없었던 총분산 중에서 특정 회귀방

정식을 사용함으로써 예측(혹은 설명)이 가능하

게 된 부분의 비율이라 볼 수 있으며, 달리 표현

하면 해당

회귀모형의 예측력(혹은 설명력)

이라

할 수 있다.

(51)

회귀계수 결정: 최소제곱법

• 개별 Y_i 값들과 회귀선에 근거하여 예측한 값들의 차이— 즉, 오차(잔차, )—가 최소가 되게 하는 회귀식, 잔차제곱치의 합( )이 최소가 되게 하는 회귀식을 최적선(最適線: best fitted line)으로 정함.

Y X i Yˆ i i i Y Y e   ˆ  2 i e

(52)

결정계수와 상관계수 간 관계

• 독립변수가 한 개인 단순회귀모형

에서는 결정계수(R

2

_{)와 X와 Y간 상관계수(r}

xy

)

사이에 다음과 같은 관계가 성립한다.

i i i a b X e Y     2 2 xy

r

R



(53)

회귀분석 결과표

1) 종속변수(원인)와 독립변수(결과)는? > 종속 = 학업성취도 / 독립 = 지능

2) 종속변수와 독립변수의 관계를 보여주는 회귀식은? > Y = -10.418 + 0.182X

(54)

1. Coefficients표 활용

1) 종속변수와 독립변수(혹은 설명변수)는? 2) 종속변수와 독립변수의 관계를 보여주는 회귀식은? 3) 지능=100인 학생의 학업성취도 예측치는? > Y = -10.418 + 0.182X 에서 X가 100일 때 Y 값 구하기: 7.782 (엑셀) 4) 위 학업성취도 예측치의 정확한 의미는? > 지능지수 100인 학생의 학업성취도 평균 5) 지능이 한 단위 증가함에 따라 학업성취도는 평균 얼마 증가하는가? > 0.182

(55)

1) 회귀제곱합(SSR), 오차제곱합(SSE), 총제곱합(SST)은? > 91.808 / 211.180 / 302.988 2) SST=SSR+SSE이 성립하는지 확인하라. > 엑셀 3) SSR/SST 공식을 적용하여 결정계수를 구하라. (Model Summary 표의 R2_{과 같은지 확인)} > 엑셀 / 4) 위 결정계수 값이 의미하는 바가 무엇인지 설명하라. > 학업성취도 변량의 30.3%가 지능에 의해 설명 가능하다.

(56)

< 가족지지와 재활의지 정도 > 대상자 가족지지 (X) 재활의지 (Y) 1 7 6 2 18 16 3 15 12 4 9 8 5 10 10 6 5 6 7 4 3 8 4 5 9 13 11 10 15 13 가족의 지지가 재활의지에 영향을 주는 지 검정하고 함. 귀무가설 : 가족의 지지가 재활의지에 영향을 주지 않는다 대립가설 : 가족의 지지가 재활의지에 영향을 준다

(57)

(58)

(59)

• 결 론 : 결정계수는 0.96으로 X값이 Y의 변동량에 96%의 아주 높은 설명력을 가지며, 추정된 회귀모형은 p값이 0.05보다 작 으므로 통계적으로 유의한 모형이며, 회귀계수 X(가족지지)의 p값 역시 0.05보다 작으므로 통계적으로 유의하다. • 즉, 가족지지(X)와 재활의지(Y)는 통계적으로 유의한 양의 상관 관계가 있으며, 가족지지가 높을수록 재활의지는 높아진다. 결정계수: 설명력 F<0.05: 회귀모형 유의함 P<0.05: 귀무가설 기각