DEPT. OF SPORTS SCIENCE LEE CHAE SAN
제11강
통계학의 이해 및 빈도분포
통계학 이해의 출발
이와 같은 수치들을 어떻게 다스리고 정리 하느냐의 문제는 그 혼돈 속에 숨어 있는 질서와 법칙을 어떻게
찾느냐 하는 것이다.
과학의 목적 중 하나는 복잡한 현상을 간단하게 정리하
고 수치를 어떤 특성에 따라 분류하고 조직하는 데 있
다. 물론 관찰값의 특성이 얼마나 많으냐에 따라 한 개
또는 여러 개의 파일로 나누어질 수 있다. 우리는 일상
생활에서 수 없이 많은 수치의 혼돈 속에서 삶을 영위
하고 있다.
어떠한 수치를 다룰 때 주먹구구나 어림짐작이 아니라 사실에 대한 정확한 추정을 기초로 한 과학적 계획을 시
도한다. 특히 행동과학에서 다루는 경험적인 자료들은 그 의미를 과학적인 준거 위에서 찾아야 한다.
통계적 방법의 이해와 소양이 필요
통계의 정의
* 사실과 숫자
* 관찰 결과를 해석하고 조직하는 일련의 방법과 규칙
• 간단하게 통계는 일상생활에서 흔히 접하는 부분이므로 주의를 기울일 가치가 있다고 대답할 수 있다.
• 신문이나 방송의 뉴스에서 범죄율, 출산율, 평균 수입, 평균 강수량, 평균 강설량 등의 통계 용어를 어렵지 않게 보거나 들을 수 있다.
• 통계학은 모아진 수량적 자료에서부터 출발하여 많은 양의 정보를 간단 한 숫자나 진술로 압축하기 때문에 시간을 절약해주며, 또한 매우 유익하 다.
통계, 과학 그리고 관
찰
통계학과 과학
* 과학은 자연의 중요한 변인을 발견하고 변인간의 관계를 밝히며, 변인의 관계를 설명하는 활동
* 통계방법은 과학의 도구이며 통계는 자료를 분석
하는 방법이고 과학은 관찰하는 방법
스포츠 통계의 의미 요약
* 스포츠 분야에서 수집된 자료를 분석하여, 그 집단의 특성을 이해시키고 사실 및 현상을 정확. 간결하게
기술. 설명. 예언
스포츠 현장에서 나타나는 모든 특성을 보다 객관적이고 신뢰 성 있게 검사 또는 측정하는 방법을 익혀왔다. 그러나 이들의
측정치 또는 원점수는 그 자체만으로 아무런 의미가 없다.그러므로 이들의 측정값 혹은 원점수를 과학적이고 의미 있 는 숫자로 고쳐서 이용해서 해석하지 않으면 안 된다. 즉
통계 적으로 분석하는 것이다.스포츠 통계의 의미
모집단과 표본
• 모집단(populations)은 연구자가 연구하고 싶어하는 모든 구성원
• 표본(sample)은 관찰을 위해 추출된 모집단의 일부
모수치와 통계치
• 모수치(parameter)는 모집단 평균과 같은모집단의 특성을 묘사하는 측정치
• 통계치(statistic)는 표본의 특성을 기술하는 측정치
기술 및 추리통계
• 기술통계(descriptive statistics)는 자료들을 요약, 조직, 단
순화 함
- 분포는 일련의 점수,
- 원점수는 분포에서 비롯된 원래의 측정치나 값
• 추리통계(inferential statistics)는 모집단에서 추출한 표 본
을 연구해서 모집단의 일반성 추리
변인(독립과 종속)
• 변인(variable)은 변할 수 있거나 다른 값을 가질 수 있는 것
• 독립변인(independent variable)은 처치조건이다. 연구자 가
조작하거나 통제하는 변인
• 종속변인(dependent variable)은 처치의 효과를 평가하기
위해 관찰되는 변인
측정의 종류
가장 간단한 것부터 가장 복잡한 것까지 측정에 사용하 는 실수 계의 속성인 순위-간격 그리고 원점의 속성을
가지고 있느냐에 따라 각기 다른 4 가지 척도가 있다.
행동과학에서 측정measurement의 개념은 사건을 유목 화(질적 측정)하는 절차와 사건의 크기를 나타내기 위해 수를 사용(양적 측정)하는 절차를 포함한다. 측정에 사용 하는 몇 가지 형태의 척도가 있다.
이 척도들의 차이점은 각각 한계점을 갖고 있어 통계과
정에 따라 자료 수집 시에 적절한 척도도 있지만 어떤 것
들은 적절치 못하다.
측정과 척도
• 명명척도(nominal scale)는 측정결과를 분류하여 각기 다른 유목이 되게 한다. 예) 성별<남=1, 여=2>, 종교, 취미, 신문구독 등
• 서열척도(ordinal scale)는 사물의 크기나 속성의 중요성에 따라 관찰결 과들의 순위를 매김. 명명척도의 유목분류에다 유목 사이의 순위를 나타낸 다는 조건을 추가. 예) 학력<초, 중, 고>, 학점<A, B, C, D> 금,은,동메달, 학교 석차 등
• 등간척도(interval scale)는 수 사이의 차이점(혹은 간격)이 크기의 차이 점을 반영(크기의 비율을 의미하는 것은 아님). 서열화 된 척도이면서 동시 에 각 척도들 간의 간격이 같다. 절대 영점이 없기 때문에 가감(+, -)은 성립 되지만 승제(×, ÷)는 성립되지 않음
예) 학업성취점수, IQ 등
• 비율척도(ratio scale)는 동일성, 서열성, 등간성 여부 뿐만 아니라 비율 성을 인정할 수 있는 변수. 비율의 수는 크기의 비율을 나타내며 이 척도 는 의미 있는 절대영점을 가짐
예) 몸무게, 길이, 시간, 질량, 금액 등
비연속변인과 연속변인
• 비연속 변인은 분리되어 있고 나뉘어 떨어질 수 없는 유목으로 구성된다.
두 이웃하는 유목 사이에는 어떤 값도 존재하지 않는다.
• 연속변인은 연속적으로 숫자를 써 내려갈 수 있다. 즉, 일직선상에 무한한 수의 점이 있는 상태. 두 관찰값 사이에 무한 수의 값 (소수점 표시가능)
예) 88kg인 두 사람이 실제로, 한 사람은 87.6kg이고, 또 다른 사람은 88.3kg
빈도분포의 정의
• 빈도분포(frequency distributions)는 측정 척도상의 각 유목 에 놓인 사례수를 기록하는 것
빈도분포표
• 예제 1> 다음 20개의 점수는 10점 만점인 체육측정평가 수 시시험 결과
• 이 점수들의 빈도분포표를 작성하여 다시 조직화 하라
• 8,9,8,7,10,9,6,4,9,8,7,8,10,9,8,6,9,7,8,8
빈도분포
표 1. 예제1의 단순빈도표 점수(X) 빈도(f)
10 2
9 5
8 7
7 3
6 2
5 0
4 1
표 2. 예제1 자료의 비율과 백분율
점수(X) 빈도(f) P(비율)=f/N %=P(100)
10 2 2/20=0.10 10
9 5 5/20=0.25 25
8 7 7/20=0.35 35
7 3 3/20=0.15 15
6 2 2/20=0.10 10
5 0 0/20=0 0
4 1 1/20=0.05 5
비율과 백분율
집단빈도분포표
• 규칙 1. 집단 빈도분포표는 약 10~20개 급간으로 나눈다.
• 규칙 2. 각 급간의 넓이는 간단한 수로 정해야 한다.
• 규칙 3. 각 급간의 제일 낮은 값에 넓이를 곱하면 된다.
• 규칙 4. 모든 급간은 똑같은 간격의 폭을 가지며 어떤 차이 점이나 중복 없이 점수의 모든 부분에 걸치므로 특정 값은 바로 한 계급에만 속하게 된다.
작성시 고려사항
표 3, 예제2의 집단 빈도분포표 점수(X) 빈도(f)
90-94 3
85-89 4
80-84 5
75-79 4
70-74 3
65-69 1
60-64 3
55-59 1
50-54 1
예제2> 25개(N=25)의 스포츠측정평가 시험 결과이다.
• 이 점수들의 빈도분포표를 작성하여 다시 조직화 하라.
82,75,88,93,53,84,87,58,72,94,69,84,61 91,64,87,84,70,76,89,75,80,73,78,60
넓이 점수 범위가 42인
급간의 수 2 21(너무 많다)
5 9(바람직하다)
10 5(너무 적다)
• 자료가 급간으로 묶여졌을 때, 예를 들어 40-49의 급간은 40점부터 49 점까지 포함된다.
• 실제 X=40은 39.5에서 40.5에 이르는 간격, X=49은 48.5에서 49.5
• 연속변인에서 각 값은 실제로 척도상의 급간에 대응
• 정확한계 는 이러한 급간으로 분리된 경계
연속변인과 정확한계
• 신체효율지수 최고점이 X=142이고 최하점이 X=65인 일 련의 점수들이 있다. 이 점수들을 집단 빈도분포표로 나타낸 다면,
연습문제 1
a) 급간 넓이는 얼마인가?
b) 최하위의 급간의 분명한 경계는?
c) 최하위 급간의 정확한계는?
142-65 + 1 = 78 60~69 급간
59.5~69.5
백분위와 백분점수
• 백분점수(percentile)는 원점수가 백분위(percentile rank)로 정의 될 때,
• 즉 특정 점수의 등위나 백분점수는 특정값이나 특정값 이하의 점수 를 지닌 분포에 있는 개별 백분율이다.
• 다시 말하면, 어떤 점수가 백분위로 정의 될 때의 점수를 백분점수 라 한다.
• 따라서 백분위는 백분율을 말하고 백분점수는 점수와 관계가 있다.
• 백분점수를 결정하는 최초의 단계는 분포 내에 각 지점이 위치해 있거나 각 지점 이하의 수를 파악하는 것
• 그 구간의 각 범주 내에 있거나 범주 이하에 있는 사례수를 파악함으로써 빈도분포표와 더불어 쉽게 알 수 있다.
• 그 결과값은 등간이 상승함에 따라 사례 수를 누가(더 해서) 나타낸다.
누가빈도와 누가백분율
표 1. 빈도분포표
점수(X) 빈도(f) cf(누가빈도) cp(누가백분율)
5 1 20 100%
4 5 19 95%
3 8 14 70%
2 4 6 30%
1 2 2 10%
누가빈도와 누가백분율
• 비율=p=f/N
• 백분율=%=f/N 표 1. 빈도분포표
점수(X) 빈도(f) cf(누가빈도) cp(누가백분율)
5 1 20 100%
4 5 19 95%
3 8 14 70%
2 4 6 30%
1 2 2 10%
• 빈도분포표에서의 누가 백분율은 각 점수값이나 점수값 이하의 빈도의 백 분율이다
• 그러나 표에서의 점수 값은 측정지점이라기보 다는 오히려 급간이라는 것을 명심해야 한다.
보간법(interpolation)
• 백분점수가 정확상한계이고 백분 위가 표에 나타난 백분율이라면 빈 도분포표에서 직접 백분점수와 백 분위를 결정할 수 있다
• 척도 중 하나에서 중간 값을 얻지 만 문제는 다른 척도에 해당하는 중 간 값을 찾는 것이다.
표 1. 빈도분포표
점수(X) 빈도(f) cf(누가빈도) cp(누가백분율)
5 1 20 100%
4 5 19 95%
3 8 14 70%
2 4 6 30%
1 2 2 10%
1) 95 번째 백분점수는?
2) X = 3.5점의 백분위는?
답 : X = 4.5 답 : 70%
예제 1) 다음에 답하시오.
보간법
• 보간법(interpolation) 과정의 4단계 1) 두 척도상의 급간을 알아낸다.
2) 급간의 중간값을 정한다. 이 위치는 전체 급간의 분수로 구한다.
분수=맨 위 급간으로부터의 거리/간격의 넓이 3) 이 분수를 다른 측정의 맨 위 급간의 거리를 정하는
데 사용한다.
거리=분수 ☓넓이
4) 다른 척도상의 위치를 정하기 위해 맨 위로부터의
거리를 사용한다.
표 2. 빈도분포표
점수(X) 빈도(f) cf(누가빈도) Cp(누가백분율)
10 2 25 100%
9 8 23 92%
8 4 15 60%
7 6 11 44%
6 4 5 20%
5 1 1 4%
예제 2) 다음의 점수 분포를 이용하여, 점수 7.0에 해당하는 백분위를 알 수 있다.
• 점수 7.0은 정확한계 6.5와 7.5로 경계 지어진 구간에 있다. 이들 정확 한계에 해당하는 누가백분율은 각각 20%와 44%이다.
점수 % 7.5 44%
7.0 ? 6.5 20%
예제 2의 보간법(interpolation) 과정의 4단계
1) 점수구간 넓이는 1점이고, 백분율 넓이는 24점이다.
2) 특정 점수는 맨 위의 구간과 비교해 0.5점 차이가 나고, 이것은 정확히 구간의 절반이다.
3) 백분율의 넓이를 절반으로 나누면, ½(24) = 12%
4) 백분율을 보면, 맨 위 구간이 44%이므로 12점을 빼면, 44%-12%=32%이다.
그러므로 점수 X=7.0에 해당하는 백분위는 32%이다.
점수 %
7.5 44%
7.0 ? 6.5 20%
Q & A
차시 예고
제12강 집중경향치, 변산도 및 표준점수
출처
송인섭(1994). 통계학의 이해. 서울: 학지사