• 검색 결과가 없습니다.

제13강 표본의 추리통계

N/A
N/A
Protected

Academic year: 2022

Share "제13강 표본의 추리통계"

Copied!
34
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

DEPT. OF SPORTS SCIENCE LEE CHAE SAN

제13강

표본의 추리통계

(2)

확률probability

통계조사에서 조사대상의 일부만을 관측하고도 조사대상 전 체에 대한 결론을 이끌어 내는 데에 논리적 근거가 되는 것은 확률의 개념이다. 통계조사에서 조사자는 관측결과가 어떤 조

건을 만족하는가에 관심이 있다.

즉, 어떤 조건을 만족하는 시행 결과에 대해 관심이 있는 것이 고, 그 시행 결과 중의 하나를 관측하게 되면 관심이 있는 사

건이 일어났다고 한다.

(3)

집단의 측정치들을 기술하고 요약하는 절차 인 기술 통계에 대해서 살펴보았다.

• 추리통계학의 목표는 부분적인 표본 정보를 이용하 여 모집단에대한 일반적인 결론을 추론해내는 것

• 대부분의 실험은 어떤 모집단에 관한 전체적인 질문

으로부터 시작한다는 것을 기억하라.

(4)

- 루틴은 양궁 기록 점수를 향상시킬 것인가?

- 8주간의 유산소성 운동은 체지방량을 감소시킬 것인가?

• 대신 표본으로 만족 해야 한다.

• 특정 표본으로부터 얻은 정보를 통해 전체에 대한 의문사항을 마무리지어야 한다.

• 추리통계의 문제는 표본과 모집단 사이의 관계를 정확하게 정의하는 것이다

이 경우에 모집단을 직접 조사하기에는 너무 크기가 방대하다.

(5)

• 특정 표본에 어떤 점수가 선택되어야 하는지 정확히 규정하는 것이 불 가능하다.

• 표본과 모집단 사이는 정확한 1:1 관계가 아니다.

• 확률은 모집단 및 표본과 연관성을 갖는다.

한 모집단에 있는 값이 일정치 않고 다양할 경우는,

- 검은 돌 50개와 흰 돌 50개가 들어 있는 병에서 표본으로 한 개의 공기 돌을 뽑는다고 가정하자. 확률은 50 : 50

- 검은 돌 90개와 흰 돌 10개가 들어 있는 병(모집단)에서 표본으로 한 개의 공기 돌을 뽑는다고 가정하자.

- 표본의 정확한 결과를 규정할 수 없다.

- 구성비를 알고 있으면, 특정 표본을 고를 확률을 결정할 수 있다.

- 한 병은 검은돌 50개와 흰돌 50개, 다른 병은 검은돌 90개와 흰돌 10개

(6)

N개의 시행 결과로 구성된 표본 공간 S =(e1 ---en )에서 각각의 실험 결과가 일어 날 가능성이 같은 경우에 m개의 시행 결과로 구성 된 사건 A의 확률은 P(A) = m/N이다. 곧 서로 다른 여러 결 과가 나올 수 있는 상황에서 어떤 특정 결과를 분수나 비율로 나 타내는 것이다. 가능한 결과가 A, B, C, D 등으로 나오면 그때 A에 대한 확률은 다음과 같다.

확률 정의

A의 확률 = 사건 A의 결과의 수 표본 공간 S의 총수

P = ½ = 0.50 = 50%

(7)

예제 1) 동전 한 개를 처음 3번 던졌을 때 모두 앞면이었다면, 4번째 던졌 을 때 역시 앞면이 나올 확률은 얼마인가?

동전을 던지는 사건은 독립 사건이므로 앞서 던졌을 때 어떤 면이 나왔는 지에 관계없이 앞면이 나올 확률이다.

답) P = ½ = 0.50이다.

(8)

예제 2) 실험실에 20마리의 수컷과 30마리의 암컷 쥐들이 있다. 20마리 의 수컷과 중 15마리는 흰쥐이고 5마리는 점박이 쥐이다. 30마리의 암컷 중 15마리는 흰쥐이고 15마리는 점박이 쥐이다. 만일 지 집단 중에서 한 마리를 무선으로 고른다면

a) 암컷을 고를 확률은 얼마인가?

b) 흰 수컷을 고를 확률은?

c) 점박이거나 암컷을 고를 확률은?

답) b)

P

= 15/50 = 0.30 답) a)

P

= 30/50 = 0.60

답) c)

P

= 20/50 + 30/50 - 15/50 = 35/50 = 0.70

(9)

표본

모집단에서 표본을 추출하는 것을 표집이라 한 다. 타당하고 좋은 표집은 모집단을 잘 대표하는

좋은 표본을 낳고 편파된 표집은 편파된 표본을 낳는다. 표집이 표본을 결정하는 것이다.

• 무선표집

• 체계적 표집

• 유층표집

• 집락표집

(10)

편파된 표집biased sampling

• 표본추출 과정에서 어떤 오류 또는 체계적 오류가 있게 되면 편파된 표본이 된다.

• 이는 표집에 의식적 또는 무의식적인 어떤 무엇이 작용하거나 편파적인 어떤 것이 작용되어.

• 전집 중 어떤 사례는 다른 사례보다 표집될 가능성 이 높게 표집된 경우다.

표집

(11)

무선표집random sampling

• 제비를 뽑을 때처럼 별다른 사전에 선택의 기초가 없이 막 고르는 식의 선택방법(세 가지 원칙)

첫째, 모집단 안의 모든 사례가 똑같이 표집당할 가능성을 가지고 있을 것

둘째, 한 사례를 표집하는 것이 다른 사례의 표집당할 가능성에 아무 관계가 없을 것

셋째, 표집하는 도중에 모집단 자체에 변동이 없을 것

• 난수표, 제비 뽑기, 추첨, 동전던지기, 주사위 던지기

표집방법

(12)

체계적 표집systematic sampling

• 모집단의 사례에 무선으로 번호를 부여한 다음 k번 째의 사례를 표본으로 추출하는 방법

• 표집될 첫 번째 사례가 결정되면 그 다음에 계속해

서 표집될 사람들이 자동적으로 결정

(13)

유층표집stratified sampling

• 전집을 몇 개의 집단 혹은 범주로 분류하고 각 집단 또는 각 범주 별로 독립적인 표집을 하는 방법

• 비율유층표집과 비비율유층표집 방법

(14)

집락표집clustered sampling

• 큰 모집단 속에 흩어진 사람들을 하나씩 표집하는 것보다 자연히 형성된 소집단, 또는 집락에 따라서 표집

• 만일 서울시의 성인을 대상으로 스포츠마케팅 조사

를 할 경우 전체 구 중에서 무선적으로 세 개의 구를

뽑고, 세 개 구에 50개 동이 있다면 50개 동에서 다

시 무선적으로 10개 동을 선정해서, 이 동에 살고 있

는 성인을 대상으로 표집

(15)

추리통계inferential statistics

과학적인 연구나 어떤 조사에서도 모집단에 대한 가 설을 평가 내리는 데 표본의 자료를 이용하고 있다.

한 모집단에 대한 결론을 내리는 근거로 표본의 자 료를 이용하는 일반적인 방법을 추리통계학

inferential statistics이라 한다.

가 설

가설검증이란 표본자료를 이용하여 모집단에 대한 가설의 신뢰도를 평가하는 추리과정이다.

(16)

• 경험적 이론적으로 검증할 수 있어야 한다

• 개념적으로 명백하고, 논리적으로 간결해야 한다.

• 추상적인 의미를 배제하고, 구체적이어야 한다.

• 연구문제를 해결해야 한다.

• 이론적근거에 입각, 다른 이론과의 연관성이 있어야 한다,

• 가치중립적, 연구자의 주관적 편견이나 가치관이 포함되면 유 용성이 낮아진다.

• 검증 결과는 가능한 한 광범위하게 적용될 수 있어야 한다.

• 포함된 변수의 계량화가 가능해야 한다.

조건

(17)

처치로 인한 아무런 효과도 발생하지 않았다고 가설 을 세우는 것이다(항상 아무 영향도 미치지 않으며,

변화나 차이도 없다고 예측하는 것이다.

영가설null hypothesis<

H0

>

대립가설alternative hypothesis<

HA

>

독립변인(처치)이 모집단의 종속변인에 영향을 미친 다고 예측하는 것이다.

HA

: μ ≠ 체지방

H0

: μ = 체지방

(18)

t-검증

* 두 집단간의(평균) 차이를 분석하고자 하는 경우에 이용하는 분석 방법

독립표본 t-검증

* 두 집단의 평균차나 두 처리효과 차이를 알아보기 위 해서는 개별적인 실험단위나 관찰 단위의 동질성

(homogeneity)이 유지되어야 한다.

훈련효과, 처리효과(영양소 투여, 부하 등)

평균 차이 검증

(19)

• 단일 표본으로 종속변인에 대해 한 번 이상 실험(측정) 을 하는 것 <처치전과 처치 후의 관찰>

• 서로 짝을 이룬 집단의 평균을 비교 <성별과 운동지수로 짝짓기를 한 후>를 하는 것

상관표본 t-검증

(20)

40%VO2max, 50%VO2max, 그리고 60%VO2max의 유산 소성 운동이 체지방량의 영향과 어떤 차이가 있는지에 관한 연구가 있다. 이 연구는 운동을 규칙적으로 4주 후 에 체지방량을 조사하였다. 이런 실험의 영향을 얻기 위해서는 다른 접근 방법이 필요하다. 구체적으로 t 검 증을 더 이상 사용하지 않고 두 개 또는 그 이상의 자료 집합으로 구성된 실험을 위해 설계된 새로운 설계 방법 을 배워야 한다.

변량분석analysis of variance

(21)

변량분석ANOVA의 정의

변량분석은 두 개 또는 더 많은 처치(또는 모집단)에 평균차가 존재하는지를 결정할 때 사용하는 가설검증 방법으로 t 검증 방법을 일반화한 것이라고 할 수 있다. 따라서 변량분석은 정 상분포모집단, 동질의 변산 그리고 독립무작위표본을 가정하

며 영가설도 모평균은 동일하다는 형식으로 진술된다.

모든 추리절차와 같이 변량분석은 모집단에 대한 결론을 이끌어내는 근거로 표본자료를 사용한다

(22)

독립표본 측정실험

여러 개의 모집단으로부터 나온 것으로 가정되는 여러 개의 평균치들 이 과연 우연 이상의 의의 있는 차이를 보이는지를 종합적으로 검증

해주는 방법

• 각각의 처치조건에 독립된 표본이 취해진다.

• 같은 모집단에서 뽑은 것이라도 두 표본이 동일할 수는 없으므로 각각의 표본들이 다른 점수와 다른 평균을 가졌다고 가정한다.

• 변량 분석의 목적은 표본 간의 차가 단지 우연chance(표집오차 sampling error)때문인지 아니면 첫 번째 집단의 점수들이 다른 쪽의 점수와 다른 원인이 되는 구조적 처치효과systematic effect가 있는지를 결정하는 것이다.

즉, 집단 또는 조건 간의 평균치 차이를 분석하기 위해 사용되는 통계적 절 차. 각 조건 수준이 대변하는 모집단이 동일한지를 검증하는 기법

(23)

변량분석의 통계적 가설

• 대안은 (처치효과 대 우연으로 인한 평균차이) 변량분석의가설을 설 정할 때 더욱 분명해진다.

• 예를 들어, 스포츠심리학에서 온도 조건 15°25° 35°에서 어떤 운동학습 효과를 연구한다고 하자.

• 각 처치조건에 따라 3 개의 표본을 선택한다.

• 이 연구의 목적은 실내 온도가 학습에 영향을 주는지를 결정하는 것 이다.

• 통계적 용어로 두 가지 가설 중에 영가설(H0)은 온도가 효과가 없을 것이다

(24)

• 통계적 용어로 두 가지 가설 중,

• 영가설(H0)은 온도가 학습에 영향이 없을 것이다.

• 대립가설(HA)은 온도가 학습에 영향을 준다는 것이다.

즉 세 가지 처치를 받는 모집단의 평균 차이가 없다는 것이 다(모평균은 모두 같다. 다시 한 번 표본자료를 사용하여 검 증하지만 가설은 모수치에 대하여 설정됨을 주의해야 한다.).

H0

: μ

1

= μ

2

= μ

3

(25)

구체적인 대립가설은 만들지 않고 여러 가지 경우를 생각할 수 있다.

예를 들어, 하나의 대립가설은 처음의 두 모집단은 동일하고 세번째 는 다르다. 또는 마지막 두 평균은 같으나 처음의 것은 다르다.

HA

: 적어도 하나의 평균은 다른 것과 다르다.

대립가설은

다른 대립가설은

HA :

μ

1

μ

2

μ

3 세 가지 모두 평균이 다르다.

HA :

μ

1

= μ

3

μ

2

μ

2 만 다르다.

(26)

- 연구자는 대체로 대립가설 중에 단 하나(또는 많으면 몇 개)를 세운다. 대개 선행 연구 이론이나 결과가 처치효과에 관한 구체

적인 예측을 제시해준다.

- 예를 들면, 대부분의 선행 연구결과 25°정도의 실내에서 일이 최상으로 수행되었음이 증명되었다.

- 이 이론을 토대로 연구자는 중간 온도 값(25° )에서 작업 수행 이 더 잘 이루어진다고 가장자리 온도(15° )와 35° 에서 덜 하

다고 예측할 수 있다.

이 대립가설은

HA

:

μ2 > μ1 과 μ2 > μ3

(27)

• 세 집단 이상의 집단 평균치의 차이를 검정하고자 하 는 경우에 이용하는 분석방법.

• 독립변수 개수에 따라 일원 변량분석

2원 변량분석

3원 변량분석 등

(28)

상관의 개념은 두 개 혹은 그 이상의 변인 간의 관계를 나타내는 것이고, 그러한 변인들이 상호 관련이 된다는 진술로써 설명된다. 어떤 수량화 된 변인들은 그들이 상 관이 되어 있는지가 관심의 대상이 될 수 있다.

예를 들면, 스포츠과학 분야에서 체력 요인(근력)과 지 능지수간에 상관이 있는지에 대해서 확인할 수 있는 것 이다.

상관분석correlation analysis

체력요인(근력)을 X축에 따라 나열하고 지능지수를 Y축으로 놓았다면 각 피험자들은 그래프 상의 점으로 표시되는데 그 점은 그 피험자의 체력요인(근력) 바로 위에 그 피험자의 관찰 값을 바로 가로질러 놓은

것일 것이다.

(29)

X와 Y 값이 산포도로 나타나 있다.

산포도는 X와 Y값의 관계를 말해준다.

그림 1. n = 6의 두 가지 관찰값들의 집합.

표 1. 관찰값

피험자 X Y

1 25 100

2 25 110

3 35 105

4 40 120

5 45 115

6 50 120

105 110

100 Y

115 120

25 30 35 40 45 50 55 X

⚫1

⚫4

⚫5

⚫3

⚫2

⚫5

⚫6

(30)

상관관계

* 상관은 X와Y간 관계이다.

정적상관(positive correlation)은 X변인이 증가하면 Y변인도 증가하고, X변인이 감소하면 Y변인 역시 감소한다.

부적상관(negative correlation)은 X변인이 증가할 수록 Y변인 은 감소한다.

상관계수 r (Pearson's product-moment coefficients of correlation)로 나타낸

피어슨 적률 상관계수 r(Pearson's product-moment coefficients of correlation)이다

(31)

1. 예측; 변인 중 하나를 이용하여 다른 것에 관한 정확한 예측 2. 타당성; 어떤 새로운 검사 개발에 대해 타당성 증명

3. 이론검증; 이론에 대한 변인 간 관계 구체적 예측

상관관계는 두 변인 간의 강도 및 방향과 같은 관계 정보를 제공해 주지만, 두 변인 간 인과관계에 대한 정보는 제공해 주지 않는다.

상관은 어디에 왜 사용되는가?

(32)

r이 커질수록 두 변인 간 관계를 나타내는 데이터들은 점점 조밀해지는 반면에, 반대의 경우 두 변인 간 데이터들은 점점 흩어져 있음

변인 X와 Y 간 관계가 전혀 없음

산포도

(33)

또한 피어슨 r의 기호에 따라 데이터 분포가 정반대 방향을 보이 고 있음을 확인할 수 있다.

X값이 –3부터 0까지는 X와 Y값 간 관계가 정적이면서 다소 강한 관계를, X값이 0부터 +3까지는 두 변인 간 관계가 부적이면서 다소 강한 관계를

(34)

Q & A

출처

송인섭(1994). 통계학의 이해. 서울: 학지사

참조

관련 문서

모집단의 개체를 찾기 어려울 때 사용하는 방법으로 표본으로 선택된 개체에게 알고 있는 모집단의 다른 개체를 추천하도록 하여 표본의 수를 늘려 나가는 방법..

• 추측통계학 : 추출된 표본의 조사를 통하여 모집단의 특성을 추정하거나 계획 또는 설계에 의한 자료의 수집, 즉 실험을 통하여 수립된 가정을 검정하는

• 서로 속성이 전혀 다른 두 변량의 관측치가 표본의 각 요소에서 서로 대립 되어 표본은 각각 한쌍의 관측치로 되어있는 경우, 이들 두 관측치를 구성 하는 두 변량의 관계를

• 표본의 크기가 커지면 모든

적절한 표본추출 방법을 사용하면 , 표본의 결과는 모집단 특성에 대한 좋은 추정치를 제공할 수 있다.. 적절한 표본추출 방법을 사용하면 , 표본의 결과는 모집단

§ 표본들은 모집단을 대표하지 못하기 때문에 표본을 기반으로 모집단에 관한 결론을 내리기가

– 조사의 목적 : 표적모집단의 특성을 정확히 추정하는 것이 매우 중요하다면 표본의 모집단 대표성이 높도록 확률표본추출을 해야 하나 표적모집단의 특성에 대한

정규분포를 이루지만 모집단의 분산을 모르는 경우 표본의 크기 가 작을 때에는 t 검정을 이용하여 두 표본 평균간의 차에 대한 유 의성을 검정.. 서로