제11장 체육통계의 기초
통계의 의의 및 필요성
통계
어떤 현상에 대하여 수량화하는 것.
어떤 현상을 요약/기록하여 정확/광범위하게 설명/예언해 줌.
체육통계 ??
통계의 필요성
1) 전공문헌을 이해하는데 필수적 요소
2) 연구의 설계나 실험의 수행을 가능케 함
통계적 소양 없는 연구에서 얻어진 결과는 타당성을 보장받지 못함.
3) 통계적 기법의 활용은 합리적/과학적인 사고능력을 함양시킴
통계의 방법
기술통계(descriptive statistics)
*수집된 자료 자체가 내포한 어떤 사항들의 기술 표시에 그친 것
*수집된 자료를 대표치나 변산도 등을 계산하며, 그 측정치들 간의 관련 등을 표시해 주는 방법론
기술통계치는 집단의 점수에 대한 중요한 암시뿐 아니라 복합적으 로 사용하면 그 의미가 더욱 뚜렷해짐
추측통계(inductive statistics)
*수집된 자료를 기초로 어떤 사실의 예측 또는 일반화를 위한 방법
변인
변인(variable)의 분류
질적변인 : 성별, 출신지, 직업과 같이 변화할 수 없는 변인 양적변인 : 지능, 학교성적, 체력점수 등과 같은 변인
한 변인이 다른 변인에 미치는 영향에 따라 독립변인과 종속변인으로 구분 두 변인이 Y=f(X)라는 관계가 성립될 때
X:독립변인 Y:종속변인
측정척도
통계에서 사용되고 있는 몇 가지 중요 척도(변인)들을 분류하면 명명변인, 서열변인, 동간변인, 비율변인으로 구분된다.
자료의 정리방법
빈도분포
조사(측정)를 통하여 수집된 자료는 무질서 비체계적임.
이 상태에서는 자료가 갖는 속성파악이 어려움.
빈도분포(frequency distribution)
무질서한 자료의 질서와 체계를 세우고 의미있게 활용할 수 있도록 요약/기술하는 절차.
다시 말해서 정렬된 측정치와 그에 따르는 무리를 모아 놓은 것.
빈도분포표(table) 빈도분포도표(figure)
대표치(집중경향치)
집중경향치란?
빈도분포 역시 통계방법의 기본적인 절차에 속하나 그것만으로는 집단을 명확히 기술할 수 없고 다른 분포와의 정확한 비교가 불가능
따라서 자료를 효과적으로 압축하고 체계화하며 그 집단의 특징을 하나의 수치로 대표하고자 하는 것이 집중경향의 목적임
집중경향치의 종류
평균치(mean, 산술평균), 중앙치(median), 최빈치(mode) 등 이 중 평균치를 가장 많이 사용
평균과 중앙치
평균(mean)
기호는 M 또는(X-bar)로 표기하며, 여러 집중경향치 가운데서 가장 신뢰도(reliability)가 높은 대표치
평균은 한 집단에서 측정한 측정치를 전체 합(合, ∑)하여 그 집단의 사례수(N)로 나누어 구함
중앙치(median, Mdn)
점수를 크기에 따라 배열하였을 때 중간에 위치하는 수치, 즉 전체 사례수의 50% 만큼씩을 정확하게 상하로 양분하는 점의 값
빈도분포의 자료가
짝수일 경우 : N/2과 (N/2)+1번째의 중간점수가 중앙치 홀수일 경우 : (N+1)/2번째의 점수가 중앙치
최빈치(mode, Mo)
최빈치(mode, Mo)
집단에서 가장 빈번히 나타나는 수치 즉 빈도가 가장 많은 수치.
빈도수가 작거나 분포형태가 불명확할 때에는 산출하기가 곤란.
빈도의 크기(수)가 모두 같을 경우에는 최빈치는 존재하지 않음.
같은 빈도를 가진 최대점수가 2개 존재(쌍최빈치)시는 2 최빈치 합의 평균치 또는 2개가 최빈치가 된다
예로 4, 4, 7, 7, 7, 7, 9, 9, 9, 9, 12, 12, 13, 13, 14인 경우 에 8[(7+9)/2] 혹은 7과 9가 최빈치임
각 집중경향치의 일반적 적용
구분 산 술 평 균 중 앙 치 최 빈 치
특징
∙산출과 이해가 용이하다.
∙극단적 점수의 영향을 크게 받는다.
∙모든 측정치를 똑같이 반영한다.
∙가장 정확하고 신뢰할 수 있는 값이 다. 표준오차가 가장 적다.
∙극단적 점수의 영향을 받지 않는다.
∙측정치의 크기는 서열을 결정하기 위하 여 직접적으로 쓰인다.
∙산술적 조작이 불가능하다.
∙빈번히 일어나는 측정치를 반영한다.
∙정교한 집중경향치가 못된다.
용도
∙신뢰할 수 있는 대표치를 구하고자 할 때,
∙분포가 정상분포일때,
∙대표치로 뿐만 아니라 계속적인 통 계처리를 할 때 기초자료로 쓰인다.
∙대표적 경향을 간단히 알고자 할 때,
∙분포가 아주 편포되어 있을 때,
∙극단적 점수의 영향을 제거하고자 할 때 쓰인다.
∙중심적 경향을 신속히 알고자 할 때,
∙개략적인 집중경향치로 충분할 때,
∙편포나 양봉분포에서 평균치나 중앙치에 서 보충적으로 쓰인다.
여러 대표치 중 어느 대표치를 사용할 것인가는 자료의 성질과 통계처리의 목적에 따라 달 라질 수 있다. 그러므로 여기서 각 집중경향치의 특성과 용도에 대하여 간단히 요약하면 다 음과 같다.
변산도(산포도)
*대표치만으로는 분포상태의 전모를 나타내 주지 못함.
*대표치를 중심으로 점수의 밀집(분산)상태의 파악이 중요.
변산도(variability)=산포도(dispersion)
*한 분포의 점수들이 대표치로부터 이탈된 정도를 나타내 주는 것
*변산도가 클 수록 점수가 평균과 멀리 떨어져 이질적 점수 많음
*변산도가 작을 수록 점수가 평균 주변에 밀집되어 동질적 점수 많음
분포를 나타낼 때 대표치와 변산도를 기술하면 분포의 특징을 보다 정확하게 표현할 수 있음
변산도의 종류
범위, 표준편차, 변이계수, 사분편차, 평균편차
정상분포곡선
정상분포곡선(normal distribution curve)은 종(bell)모양 곡선
인간의 신체적/심리적 측정치는 대부분 정상분포를 이룸
신장/체중 등 성적분포는 정상분포와 비슷 실제자료가 비정상분포인 경우 :
표본의 선정과정/측정도구의 곤란도/비신뢰성의 문제
각종 표준점수는 점수분포가 정상분포라는 가정을 전제
5단계 평가법은 정상분포의 원리에 근거함
표준점수(standard score)
표준점수(標準點數, standard score, Z)
평균이나 표준편차가 서로 다른 두 변인(척도)을 한 기준척도(基準 尺度)로 환산한 점수(M=0, SD=1)
공식 : Z = (X – Xbar) / SD
Z점수는 평균을 중심으로 좌/우측으로 기호가 있고 소수점에 있어 사용에 불편하므로 이를 교정하여 사용함
그 방법에는 T, H, C점수 등이 있는데, 그 중 T점수를 많이 사용
T점수(T-score)
Z점수의 결점을 보충하기 위하여 연구된 것이 T점수 T점수는 M이 50이고 SD가 10인 분포 척도
공식 : T = 10Z + 50
H점수와 C점수
H점수(H-Score)와 C점수(C-score)
T점수는 정상분포에서 단위가 너무 세밀하고 20-80점을 사용하고 있기 때문에 이 단점을 보완하기 위하여 교정된 표준점수가 H점수 (H-score)와 C점수(C-score)이다.
H점수는 M이 50이고 SD가 14인 척도 공식 : H = Z14 + 50
C점수는 11단계(0-10)의 척도로 M이 5이고 SD가 2인 척도 공식 : C = Z2 + 5
상관관계와 상관계수
체육학은 두 집단의 상호관련을 밝혀야 하는 문제들이 많음 EX) I.Q와 학업성적/신장과 체중/운동능력과 운동기능
상관관계(correlation) : 둘 이상 변인간의 상호관련의 관계 단순상관(simple correlation) : 2 변인간의 상호관계
다중상관(multiple correlation) : 여러 변인간의 상호관계
상관계수(correlation coefficient) 상관의 정도를 나타내는 수치
변수 X와 Y의 관계를 통계적으로 나타낸 지수(index) 상관계수는 0.00 -±1.00까지의 범위를 갖음
+1.0 : 완전한 정적상관 0.0 : 무상관 -1.0 : 완전한 부상관
상관계수는 대소관계/동간성/비율성을 갖지 않음
기타의 상관계수
양분상관계수
양류상관계수
사분상관계수
상관계수의 해석
상관계수의 일반적인 언어적 해석
• r의 해석은 쓰이는 목적에 따라 좌우됨. 어떤 목적에서는 아주 높 다고 볼 수 있는 r도 다른 목적에서는 낮다고 판정됨
• 언어적 표시는 r의 값이 동일하면 +/-에 관계없이 상관의 방향만 다르고 동일하게 적용
상관계수의 해석상의 주의
• 상관은 인과관계가 아님
• 상관계수는 %가 아님
• 얻어진 상관계수는 절대적이 아님
추리통계
통계적 추리
표본의 특성을 근거로 모집단의 특성을 추리하려는 수학적 방법 통계적 추리의 관심은 표본에서 구한 통계치가 모집단의 모수치가 되느냐 문제
예로 서울시 중1 남자 평균신장을 알고 싶을 때, 서울시 중1 남자 전 체가 모집단이고 모집단 평균이 모수치임
이 연구문제의 해결방법은 2가지 즉 하나는 모집단 모두를 측정하여 평균을 구하는 방법, 다른 하나는 모집단을 대표할 학생을 뽑아서 평균을 구한 다음 모집단의 평균으로 추리하는 방법
모집단과 표본
모집단(population)
연구하고자 하는 어떤 공통된 속성을 지닌 사례들의 완전집합
표본(sample)
모집단에서 추출한 부분집합
**모집단으로부터 표본을 추출하는 장점
경비절약, 정보의 정확/신속한 제공, 조사영역의 제한성 적음
표집방법
표본추출방법
• 연구는 모집단에서 표본을 추출하여 모집단을 관찰함
• 연구는 표본의 통계치가 모집단에 적용/일반화 가능여부가 문제됨
• 표본연구는 연구결과를 모집단에 일반화시켜서 해석하는데 있다
• 연구자는 모집단을 대표할 수 있는 표본 추출에 심혈
• 표본추출은 모집단을 대표할 수 있는 표본을 추출을 의미
• 표본추출방법
• 확률적 표집: 단순무선법, 체계적 추출법, 집락 추출법, 유층 추출법 비확률적 표집 : 우연적 추출법, 할당적 추출법, 의도적 추출법
가설검증
가설검증(假說檢證, hypothesis testing)이란 어느 모집단에서 모수치를 가정했 을 때, 모집단으로부터 얻은 표본의 통계치와 모수치와의 차이를 비교하여 우연적인 결과에 의한 단순한 표집오차로 볼 수 있는지의 여부를 따져서 결론을 내리는 추리 과정을 말한다.
가설검증은 통계적 검증(統計的 檢證, statistical test)이라고도 하고, 모집단의 가정된 모수치를 통계적 가설이라고도 한다. 이러한 가설들은 항상 상반되며 이들은 전체 확률을 점유하게 되고 최종적으로 가설들 중의 하나를 진(眞)이라고 간주한다.
이 때 잠정적으로 간주되는 가설을 영가설(零假說, null hypothesis)이라고 부르며 로 표기하고, 이에 상반되는 가설을 대립가설(對立假說, alternative hypothesis)이 라고 부르며 로 표기한다.
따라서 한 가설에서 기대되는 값과 통계치와의 차이는 다음의 두 가지 중 하나로 해석될 수 있다.
첫째 : 가설은 진(眞)이고 결과는 단지 우연일 뿐이다.