1.1 통계학이란?
1.2 모집단과 표본 1.3 통계학의 분류 1.4 자료의 종류 1.5 자료의 정리
1.1 통계학이란?
⧠ 통계학(statistics) : 국가(status) + 학문(istics)의 합성어
⧠ 통계학이란?
- 객관적인 결론을 도출하기 위해 관심대상에 대해 관련된 자료를 수집하고, 요약․정리하는 이론과 방법을 제시하는 학문
- 자료의 종류와 규모․자료의 정리 및 방법․자료의 분석과 결론의 도출 방법․도출된 결론에 대한 오차 의 측정 등을 광범위하게 다루는 학문
1.2 모집단과 표본
⧠ 통계조사(statistical survey)의 목적
- 소량의 자료를 근거로 하여 다량의 집단의 특성을 파악하고, 추론하는 것
⧠ 모집단(population) 이란?
- 연구 대상이 되는 모든 집단의 모든 구성 원소들의 집합
- 관심 있는 연구 대상의 특성에 대한 모든 관측치들의 집합
⧠ 모집단의 종류
- 유한모집단(finite population) : 원소의 개수가 유한인 경우
- 무한모집단(infinite population) : 원소의 개수가 무한한 경우
⧠ 모수(parameter) : 모집단의 특성을 나타내는 양적인 측도(모평균, 모분산, 모표준편차 )
⧠ 표본(sample) : 모집단으로부터 수집된 일부분의 자료로서 모집단의 부분집합
⧠ 통계량(statistic) : 모집단의 특성을 나타내는 모수와 대응되는 표본의 특성값(표본평균, 표본분산, 표본표준편 차)
<표 1> 모수와 통계량
모수 통계량
모평균() 표본평균()
모분산() 표본분산()
모표준편차() 표본표준편차()
1.3 통계학의 분류
⧠ 수리통계학(mathematical statistics)
- 통계적 기법의 이론적 바탕을 증명하고 새로운 통계적 이론을 개발하여 통계이론을 체계화하는 순수 학 문
⧠ 응용통계학(applied statistics)
- 통계 개념의 활용과 통계기법을 적용하는 실천적 학문
⧠ 기술통계학(descriptive statistics)
- 자료를 수집하고 표나 그림 또는 대표값, 변동의 크기 등을 통하여 수집된 자료의 특성을 쉽게 파악할 수 있도록 자료를 정리, 요약하여 그 자료가 가진 정보를 명확하게 파악할 수 있는 자료처리 방법
- 대상이 되는 자료는 모집단이나 표본 모두가 적용
⧠ 추측통계학(inferential statistics)
- 모집단의 일부로서 관측된 표본을 이용하여 모집단의 특성을 추정하고 검정하는 통계적 방법
- 오차를 확률적으로 설명하는 것까지를 포함하면서 모집단에 대한 일반성을 찾아내는 분야
1.4 자료의 종류
⧠ 변수(variable)
- 집단에 속하는 개체(구성원)들의 공통적이고 수량화될 수 있는 특성
- 대문자 등으로 표기
- 변수 의 측정치(관측치), 즉 개체가 지니는 특성치를 … 라 표기
⧠ 통계자료(statistical data) : 변수 X의 측정치들의 집합
…
⧠ 변수의 종류
○ 질적변수(qualitative variable)
- 질적변수는 크기나 양을 나타내지 않는 숫자나 기호, 문자로 표현되는 변수로서 성별, 혈액형, 주민등록 번호, 전화번호, 석차 등
- 기본적으로는 숫자의 의미보다는 집단을 분류하는 기호로서의 의미
○ 양적변수(quantitative variable)
- 자료의 크기나 양을 나타내는 숫자로 표현되는 변수
- 연령, 키, 몸무게, 점수, 판매량 등
○ 연속변수(continuous variable)
- 변수의 값이 어떤 실수(real number) 구간 내에 임의의 수치
- 무게, 높이, 시간, 온도
○ 이산변수(discrete variable)
- 셀 수 있는(countable) 수치 값을 취하는 변수
- 교통사고 건수, 인구 수, 전화 통화 수 등
⧠ 자료의 종류
○ 측정자료(measurement data), 순위자료(rank data), 분류자료(classification data), 시계열자료(time series data)
○ 원시자료(raw data) 또는 그룹화 되지 않은 자료(ungrouped data) : 실험이나 조사를 통해 얻은 그 상태로 정리되지 않은 자료
○ 그룹화 된 자료(grouped data): 관측된 자료의 크기순으로 정리된 자료
⧠ 측도(척도)에 따른 자료 분류
○ 비계량자료(nonmetric data) - 명목자료와 순서자료
○ 계량자료(metric data) - 구간자료와 비율자료
⧠ 명목자료(nominal data)
- 명목척도(nominal scale)에 의해 측정된 자료
∙ 명목척도란 측정 대상의 특성을 분류하거나 확인할 목적으로 숫자를 부여하는 경우
- 측정 대상의 특성만을 나타내며 양적인 크기를 나타내는 것이 아니기 때문에 산술적인 계산을 할 수 없 음.
- 사칙 연산이 불가능
- 측정 대상을 포괄적이며, 상호 배타적인 집단으로 구분
- 상표의 구분, 성별의 구분, 직업의 구분 등
⧠ 순서자료(ordinal data)
- 순서척도(ordinal scale)에 의해 측정된 자료
∙ 측정 대상간의 순서 관계를 밝혀 주는 척도
- 측정 대상간의 크기가 높고 낮음 등의 순위를 부여해 주는 것
- 측정 대상간의 양적인 비교를 할 수 있는 정보를 제공해 주지 못함.
- 소비자의 태도와 선호도, 사회 계층 등을 측정하는데 이용
- 순서자료는 중위수(중앙값), 순위상관계수 등을 계산할 수 있음
- 명목자료와 마찬가지로 사칙연산은 불가능
⧠ 구간자료(interval data)
- 구간척도(interval scale)에 의해 측정된 자료
∙ 양적인 정도의 차이를 나타내는 척도
- 순서척도가 가지는 순위이외에도 구간의 의미를 가지는 자료
- 절대 영점을 갖지 않으므로 비율의 의미를 갖지는 못함.
- 섭씨 또는 화씨로 측정된 온도 (20℃가 10℃의 두 배를 뜻하는 것은 아님.)
- 물가 지수나 생산성 지수와 같은 지수의 측정에 이용
- 범위, 평균, 표준편차, 상관계수 등
⧠ 비율자료(ratio data)
- 비율척도(ratio scale)에 의해 측정된 자료
- 절대 영점을 가지므로 구간 자료가 갖는 특성에 추가적으로 측정값들 간의 비율 계산이 가능
- 연령, 상품 가격, 가구 수, 소득 등
1.5 자료의 정리
- 주어진 자료나 통계 조사를 통해 얻은 자료를 그림이나 도표를 이용하여 자료에 포함되어 있는 내용과 정보를 빠르게 파악하는 것
- 도수분포표, 도수분포 그래프 등
⧠ 표에 의한 자료의 정리
○ 도수분포표
- 범위의 계산 : 자료로부터 최대 값과 최소 값의 차이를 구해 범위를 계산
- 계급 수의 결정 : log, : 계급의 수 : 전체 자료 수
-
- 계급의 간격 결정 : 계급수 범위
- 도수의 계산 : 각 계급에 포함될 관찰치의 수를 계산
○ 계급의 상한과 하한 : 계급 구간의 큰 쪽을 그 계급의 상한이라 하고, 작은 쪽을 계급의 하한
○ 계급 폭 : 각 계급의 계급간격
- 두 개의 연속된 계급의 상한의 차이
○ 계급값 : 계급 구간의 중앙에 위치하는 값
- 주어진 계급의 상한과 하한의 합을 2로 나눈 값.
○ 구간경계선 : 한 계급의 상한과 다음 계급의 하한간의 중앙값
⧠ 액셀을 이용한 도수분포표 작성
예제 1) 혈액형 - 엑셀의 피벗테이블 마법사를 이용한 방법 1단계] 데이터 입력
2단계] 피벗 테이블 작성 1단계
피벗 테이블 마법사 1단계로서 “분석할 테이블 만들기”를 선택창에서 다음을 선택 ▪표 또는 범위 선택 - “Sheet1!$B$1:$B$41”
▪피벗테이블 보고서 넣을 위치 - 기존워크시트 : “Sheet1!$J$2:$M$10” 등을 선택한 후 “확인” 추 를 클릭.
3단계] 피벗 테이블 레이아웃 설정
- 피벗테이블 필드목록에서 “혈액형”을 선택하고, “혈액형” 필드를 아래의 “값” 필드로 드래그하면 피벗테이블 작성.
드래그
예제 1.4) 연속형 자료에 대한 도수분포표 - 40명의 주부가 일주일 동안 가계비로 지출한 금액에 대한 도수분 포표 작성.
☞ 엑셀의 “데이터분석 메뉴”를 이용한 방법
1단계] 데이터를 입력한 후 작성할 도수분포표의 계급을 적당히 구분하여 입력.
각 계급을 구분한 후 구간경계선의 상한 값을 각 계급에 입력.
2단계] 히스토그램 대화상자에서 다음 사항을 입력.
▪ 입력 범위 : $A$3:$J$6 ▪ 계급 구간 : $M$2:$M$9
▪ 이름표 - 만일 항목명을 포함하여 계급 구간 범위를 지정했을 경우 이 항목을 선택.
▪ 출력 옵션 항목은 따로 지정할 필요는 없음.
3단계] 도수분포표 작성완료와 함께 추가적으로 도수의 총계를 계산하여 완전한 도수분포표를 작성.
불필요한 항목은 그림과 같이 "행 숨기기"를 선택.
☞ 엑셀의 FREQUENCY 함수를 이용하는 방법
- 엑셀의 통계함수 중에서 도수를 구하는 “=FREQUENCY()" 함수를 이용
- 풀이2)의 경우와 같이 데이터에 대한 도수 분포표의 계급과 구간경계선 값을 먼저 입력.
1단계] 통계함수 중에서 FREQUENCY 함수 선택한 다음 확인 단추를 클릭하여 함수에 입력할 인수를 결정.
2단계] 데이터의 범위와 각 계급의 구간 경계선 상한 값이 입력된 범위를 마우스를 이용하여 설정.
▪Data array - 데이터 범위 : A3:J6
▪Bins array - 구간 경계선이 입력된 셀 범위 : M3:M9
3단계] 키보드의 키와 키를 동시에 누른 후 를 누름.
○ 상대도수분포표 : 계급도수를 총 도수()로 나눈 것(
)
- 각 계급에 상대도수를 대응시켜 작성한 표
○ 누적도수분포표 : 번째 계급까지의 도수를 합한 것( ⋯
)
- 누적도수를 각 계급에 대응시켜 작성한 표
○ 상대누적도수분포표 : 누적도수를 총 도수(N)로 나눈 것()
- 상대누적도수를 각 계급에 대응시켜 작성한 표
⧠ 그래프에 의한 자료의 정리
- 도수분포그래프 : 도수분포를 도표화한 것
○ 히스토그램(histogram) : 직교 좌표의 횡축 상에 도수분포표의 각 계급을 나타내는 구간을 밑변으로 하고 계급에 대응하는 도수를 높이로 하는 직사각형을 모든 계급에 대해서 만들어 연결한 것
○ 도수다각형(frequency polygon): 도수분포표에서 번째 계급값을 , 이에 대응하는 도수를 라 할 때 평 면상에 직교 좌표축을 세우고 점 을 그린 다음 이들 점을 직선으로 연결하여 얻어진 그래프
○ 도수곡선(frequency curve) : 도수다각형의 극한적인 곡선(계급을 무한히 잘게 나누어 얻은 도수 다각형).
○ 누적도수분포도(Ogive) : 도수분포표에서 구간 경계선 중 상한선을 수평축의 좌표로 하여 각 계급에 대응 하는 누적 도수를 점을 찍어 이어나간 것.
탐색적 자료 분석
- 자료의 특성을 그대로 유지하면서 자료를 분석, 정리하여 자료의 특성을 한 눈에 잘 이해할 수 있도록 표현 하는 방법
○ 줄기-잎 그림(stem-and-leaf display)
- 자료들을 줄기에 해당되는 부분과 잎에 해당되는 부분으로 나누어서 표현
- 일련의 수치가 어느 정도 퍼져 있는가?
- 다른 것과 멀리 떨어진 수치가 있는가?
- 수치가 집중되어 있는지의 여부
- 수치 전체가 어느 값을 중심으로 대칭적으로 퍼져 있는지의 여부
- 전체의 수치가 몇 개의 그룹으로 나누어져 있는가? 등을 파악
- 줄기-잎 그림 작성과정
∙ 자료를 줄기 부분과 잎 부분으로 나누어 줄기 값과 잎의 값을 정
∙ 줄기 값을 크기순서로 세로로 나열하고, 그 오른쪽 옆에 수직선을 그림.
∙ 각 줄기에 해당하는 잎의 값을 그 줄기의 오른쪽에 가로로 나열
∙ 각 줄기에 나열된 잎의 값을 크기 순서로 다시 배열