제11장 체육통계의 기초

(1)

제11장 체육통계의 기초

(2)

통계의 의의 및 필요성

 통계

어떤 현상에 대하여 수량화하는 것.

어떤 현상을 요약/기록하여 정확/광범위하게 설명/예언해 줌.

 체육통계 ??

 통계의 필요성

1) 전공문헌을 이해하는데 필수적 요소

2) 연구의 설계나 실험의 수행을 가능케 함

통계적 소양 없는 연구에서 얻어진 결과는 타당성을 보장받지 못함.

3) 통계적 기법의 활용은 합리적/과학적인 사고능력을 함양시킴

(3)

통계의 방법

 기술통계(descriptive statistics)

*수집된 자료 자체가 내포한 어떤 사항들의 기술 표시에 그친 것

*수집된 자료를 대표치나 변산도 등을 계산하며, 그 측정치들 간의 관련 등을 표시해 주는 방법론

기술통계치는 집단의 점수에 대한 중요한 암시뿐 아니라 복합적으 로 사용하면 그 의미가 더욱 뚜렷해짐

 추측통계(inductive statistics)

*수집된 자료를 기초로 어떤 사실의 예측 또는 일반화를 위한 방법

(4)

변인

 변인(variable)의 분류

질적변인 : 성별, 출신지, 직업과 같이 변화할 수 없는 변인 양적변인 : 지능, 학교성적, 체력점수 등과 같은 변인

한 변인이 다른 변인에 미치는 영향에 따라 독립변인과 종속변인으로 구분 두 변인이 Y=f(X)라는 관계가 성립될 때

X:독립변인 Y:종속변인

(5)

측정척도

통계에서 사용되고 있는 몇 가지 중요 척도(변인)들을 분류하면 명명변인, 서열변인, 동간변인, 비율변인으로 구분된다.

(6)

자료의 정리방법

 빈도분포

조사(측정)를 통하여 수집된 자료는 무질서 비체계적임.

이 상태에서는 자료가 갖는 속성파악이 어려움.

 빈도분포(frequency distribution)

무질서한 자료의 질서와 체계를 세우고 의미있게 활용할 수 있도록 요약/기술하는 절차.

다시 말해서 정렬된 측정치와 그에 따르는 무리를 모아 놓은 것.

빈도분포표(table) 빈도분포도표(figure)

(7)

대표치(집중경향치)

 집중경향치란?

빈도분포 역시 통계방법의 기본적인 절차에 속하나 그것만으로는 집단을 명확히 기술할 수 없고 다른 분포와의 정확한 비교가 불가능

따라서 자료를 효과적으로 압축하고 체계화하며 그 집단의 특징을 하나의 수치로 대표하고자 하는 것이 집중경향의 목적임

 집중경향치의 종류

평균치(mean, 산술평균), 중앙치(median), 최빈치(mode) 등 이 중 평균치를 가장 많이 사용

(8)

평균과 중앙치

 평균(mean)

기호는 M 또는(X-bar)로 표기하며, 여러 집중경향치 가운데서 가장 신뢰도(reliability)가 높은 대표치

평균은 한 집단에서 측정한 측정치를 전체 합(合, ∑)하여 그 집단의 사례수(N)로 나누어 구함

 중앙치(median, Mdn)

점수를 크기에 따라 배열하였을 때 중간에 위치하는 수치, 즉 전체 사례수의 50% 만큼씩을 정확하게 상하로 양분하는 점의 값

빈도분포의 자료가

짝수일 경우 : N/2과 (N/2)＋1번째의 중간점수가 중앙치 홀수일 경우 : (N＋1)/2번째의 점수가 중앙치

(9)

최빈치(mode, Mo)

 최빈치(mode, Mo)

집단에서 가장 빈번히 나타나는 수치 즉 빈도가 가장 많은 수치.

빈도수가 작거나 분포형태가 불명확할 때에는 산출하기가 곤란.

빈도의 크기(수)가 모두 같을 경우에는 최빈치는 존재하지 않음.

같은 빈도를 가진 최대점수가 2개 존재(쌍최빈치)시는 2 최빈치 합의 평균치 또는 2개가 최빈치가 된다

예로 4, 4, 7, 7, 7, 7, 9, 9, 9, 9, 12, 12, 13, 13, 14인 경우 에 8[(7+9)/2] 혹은 7과 9가 최빈치임

(10)

각 집중경향치의 일반적 적용

구분 산 술 평 균 중 앙 치 최 빈 치

특징

∙산출과 이해가 용이하다.

∙극단적 점수의 영향을 크게 받는다.

∙모든 측정치를 똑같이 반영한다.

∙가장 정확하고 신뢰할 수 있는 값이 다. 표준오차가 가장 적다.

∙극단적 점수의 영향을 받지 않는다.

∙측정치의 크기는 서열을 결정하기 위하 여 직접적으로 쓰인다.

∙산술적 조작이 불가능하다.

∙빈번히 일어나는 측정치를 반영한다.

∙정교한 집중경향치가 못된다.

용도

∙신뢰할 수 있는 대표치를 구하고자 할 때,

∙분포가 정상분포일때,

∙대표치로 뿐만 아니라 계속적인 통 계처리를 할 때 기초자료로 쓰인다.

∙대표적 경향을 간단히 알고자 할 때,

∙분포가 아주 편포되어 있을 때,

∙극단적 점수의 영향을 제거하고자 할 때 쓰인다.

∙중심적 경향을 신속히 알고자 할 때,

∙개략적인 집중경향치로 충분할 때,

∙편포나 양봉분포에서 평균치나 중앙치에 서 보충적으로 쓰인다.

여러 대표치 중 어느 대표치를 사용할 것인가는 자료의 성질과 통계처리의 목적에 따라 달 라질 수 있다. 그러므로 여기서 각 집중경향치의 특성과 용도에 대하여 간단히 요약하면 다 음과 같다.

(11)

변산도(산포도)

*대표치만으로는 분포상태의 전모를 나타내 주지 못함.

*대표치를 중심으로 점수의 밀집(분산)상태의 파악이 중요.

 변산도(variability)=산포도(dispersion)

*한 분포의 점수들이 대표치로부터 이탈된 정도를 나타내 주는 것

*변산도가 클 수록 점수가 평균과 멀리 떨어져 이질적 점수 많음

*변산도가 작을 수록 점수가 평균 주변에 밀집되어 동질적 점수 많음

분포를 나타낼 때 대표치와 변산도를 기술하면 분포의 특징을 보다 정확하게 표현할 수 있음

 변산도의 종류

범위, 표준편차, 변이계수, 사분편차, 평균편차

(12)

정상분포곡선

 정상분포곡선(normal distribution curve)은 종(bell)모양 곡선

 인간의 신체적/심리적 측정치는 대부분 정상분포를 이룸

 신장/체중 등 성적분포는 정상분포와 비슷 실제자료가 비정상분포인 경우 :

표본의 선정과정/측정도구의 곤란도/비신뢰성의 문제

 각종 표준점수는 점수분포가 정상분포라는 가정을 전제

 5단계 평가법은 정상분포의 원리에 근거함

(13)

표준점수(standard score)

 표준점수(標準點數, standard score, Z)

평균이나 표준편차가 서로 다른 두 변인(척도)을 한 기준척도(基準 尺度)로 환산한 점수(M=0, SD=1)

공식 : Z = (X – Xbar) / SD

Z점수는 평균을 중심으로 좌/우측으로 기호가 있고 소수점에 있어 사용에 불편하므로 이를 교정하여 사용함

그 방법에는 T, H, C점수 등이 있는데, 그 중 T점수를 많이 사용

(14)

T점수(T-score)

 Z점수의 결점을 보충하기 위하여 연구된 것이 T점수 T점수는 M이 50이고 SD가 10인 분포 척도

공식 : T = 10Z + 50

(15)

H점수와 C점수

 H점수(H-Score)와 C점수(C-score)

T점수는 정상분포에서 단위가 너무 세밀하고 20-80점을 사용하고 있기 때문에 이 단점을 보완하기 위하여 교정된 표준점수가 H점수 (H-score)와 C점수(C-score)이다.

H점수는 M이 50이고 SD가 14인 척도 공식 : H = Z14 + 50

C점수는 11단계(0-10)의 척도로 M이 5이고 SD가 2인 척도 공식 : C = Z2 + 5

(16)

상관관계와 상관계수

체육학은 두 집단의 상호관련을 밝혀야 하는 문제들이 많음 EX) I.Q와 학업성적/신장과 체중/운동능력과 운동기능

 상관관계(correlation) : 둘 이상 변인간의 상호관련의 관계 단순상관(simple correlation) : 2 변인간의 상호관계

다중상관(multiple correlation) : 여러 변인간의 상호관계

 상관계수(correlation coefficient) 상관의 정도를 나타내는 수치

변수 X와 Y의 관계를 통계적으로 나타낸 지수(index) 상관계수는 0.00 -±1.00까지의 범위를 갖음

＋1.0 : 완전한 정적상관 0.0 : 무상관 -1.0 : 완전한 부상관

 상관계수는 대소관계/동간성/비율성을 갖지 않음

(17)

기타의 상관계수

 양분상관계수

 양류상관계수

 사분상관계수

(18)

상관계수의 해석

 상관계수의 일반적인 언어적 해석

• r의 해석은 쓰이는 목적에 따라 좌우됨. 어떤 목적에서는 아주 높 다고 볼 수 있는 r도 다른 목적에서는 낮다고 판정됨

• 언어적 표시는 r의 값이 동일하면 ＋/－에 관계없이 상관의 방향만 다르고 동일하게 적용

 상관계수의 해석상의 주의

• 상관은 인과관계가 아님

• 상관계수는 %가 아님

• 얻어진 상관계수는 절대적이 아님

(19)

추리통계

 통계적 추리

표본의 특성을 근거로 모집단의 특성을 추리하려는 수학적 방법 통계적 추리의 관심은 표본에서 구한 통계치가 모집단의 모수치가 되느냐 문제

예로 서울시 중1 남자 평균신장을 알고 싶을 때, 서울시 중1 남자 전 체가 모집단이고 모집단 평균이 모수치임

이 연구문제의 해결방법은 2가지 즉 하나는 모집단 모두를 측정하여 평균을 구하는 방법, 다른 하나는 모집단을 대표할 학생을 뽑아서 평균을 구한 다음 모집단의 평균으로 추리하는 방법

(20)

모집단과 표본

 모집단(population)

연구하고자 하는 어떤 공통된 속성을 지닌 사례들의 완전집합

 표본(sample)

모집단에서 추출한 부분집합

**모집단으로부터 표본을 추출하는 장점

경비절약, 정보의 정확/신속한 제공, 조사영역의 제한성 적음

(21)

표집방법

 표본추출방법

• 연구는 모집단에서 표본을 추출하여 모집단을 관찰함

• 연구는 표본의 통계치가 모집단에 적용/일반화 가능여부가 문제됨

• 표본연구는 연구결과를 모집단에 일반화시켜서 해석하는데 있다

• 연구자는 모집단을 대표할 수 있는 표본 추출에 심혈

• 표본추출은 모집단을 대표할 수 있는 표본을 추출을 의미

• 표본추출방법

• 확률적 표집: 단순무선법, 체계적 추출법, 집락 추출법, 유층 추출법 비확률적 표집 : 우연적 추출법, 할당적 추출법, 의도적 추출법

(22)

가설검증

 가설검증(假說檢證, hypothesis testing)이란 어느 모집단에서 모수치를 가정했 을 때, 모집단으로부터 얻은 표본의 통계치와 모수치와의 차이를 비교하여 우연적인 결과에 의한 단순한 표집오차로 볼 수 있는지의 여부를 따져서 결론을 내리는 추리 과정을 말한다.

가설검증은 통계적 검증(統計的檢證, statistical test)이라고도 하고, 모집단의 가정된 모수치를 통계적 가설이라고도 한다. 이러한 가설들은 항상 상반되며 이들은 전체 확률을 점유하게 되고 최종적으로 가설들 중의 하나를 진(眞)이라고 간주한다.

이 때 잠정적으로 간주되는 가설을 영가설(零假說, null hypothesis)이라고 부르며 로 표기하고, 이에 상반되는 가설을 대립가설(對立假說, alternative hypothesis)이 라고 부르며 로 표기한다.

따라서 한 가설에서 기대되는 값과 통계치와의 차이는 다음의 두 가지 중 하나로 해석될 수 있다.

첫째 : 가설은 진(眞)이고 결과는 단지 우연일 뿐이다.

(23)

유의도 검증

 간단히 말해서 어느 한 표본에서 얻어진 측정결과는 실제의 전체적인 측정결과와 어느 정도나 일치하는지, 두 표본에서 얻어진 측정결과는 차가 있는지/없는지, 차가 있으면 이것 이 우연의 결과인지/아닌지를 규명하는 것을 유의도 검증이 라 하는데, 유의도 검증의 방법에는 여러 가지

( t-검증, X²- 검증, ANOVA검증 등)가 있는데, 체육학에서 가장 많이 이용하는 검증이

t-검증과 X²-검증이다.

(24)

t-검증 (t-test)

사례수가 30명 이하인 소표본에서 이용하는데, 두 평균 치의 차에 대한 검증의 경우, 영가설(Nall Hypothesis) 즉, 두 모집단의 평균치 사이에는 차가 없다(M

₁

-M

₂

=0이 된다는 가설)는 가설을 세워 놓고, t-값을 구한 뒤 t분포수 표에서 유의수준을 찾아 영가설을 부정(차가 있다),

혹은 긍정(차가 없다)하는 검증방법이다.

 t-검증법에는 독립표본 t-검증, 대응표본 t-검증이 있다.

(25)

X²-검증

 예를 들어 동전을 20번 던지는 경우에 확률적으로는 앞면이 10번 뒷면이 10번나와야 하는데, 앞면이 12번 뒷면이 8번 나왔을 때

이를 공정한 동전이라고 볼 수 있는지, 또는 20명의 표본 중 12명이 찬성하였을 때, 즉 60%일 때 찬반에는 차가 없다는 기준 50%에서 흔히 생길 수 있는 현상인지를 검증하고자 하는 경우 등이 단일 변인에 관한 문제가 된다.

단일표본에 대한 검증은 적합성 검증(goodness of fit test)이라 함.

 적합성 검증 : 소득빈도가 기대빈도에 합치되는지의 여부를 나타내주는

검증이란 의미이다. 소득빈도가 오차의 범위 내에서 기대

(26)

변량(분산)분석

 셋 이상의 표본에서 나온 여러 통계치를 서로 비교하거나

이들 몇 개의 표본이 갖는 통계치가 모집단에서 나올 확률이 얼마인가를 알아야 할 필요가 생기는데, 이를 해결하기 위해 적용하게 되는 검증법을 변량분석(ANOVA)이라 한다.

 예를 들면 무용전공별로 여가시간에 차이가 있는가? 등을

분석하고자 하는 경우와 같이 전공이 3개 이상에서 이용됨.

(27)

요인분석

 요인분석(factor analysis)은 여러 변인간의 상호관계로부터 공통변량을 구하고, 측정치의 중복성을 찾아내어 몇 개의 변 인, 즉 몇 개의 변인군을 추출해 내는데 사용되는 기법이다.

요인분석의 기본적인 절차는 여러 측정값들의 상호관계를 나 타내는 변량을 좀더 기본적인 몇 개의 가상변인으로 재배열하 는 것이다.

 설문지에 의해서 무용학 연구를 하는 경우에는 꼭 설문지에

대한 타당성 검증이 이루어져야 하는데, 이 타당성 검증이

(28)