• 검색 결과가 없습니다.

확률 및 통계학

N/A
N/A
Protected

Academic year: 2022

Share "확률 및 통계학"

Copied!
29
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

담당교수: 손창균

E-mail : [email protected] Tel : 770-2244

연구실 : 자연과학관 202호

(2)

1.1 통계학이란?

1.2 모집단과 표본 1.3 통계학의 분류 1.4 자료의 종류 1.5 자료의 정리

(3)

1.1 통계학이란?

⧠ 통계학(statistics) : 국가(status) + 학문(istics)의 합성어

⧠ 통계학이란?

- 객관적인 결론을 도출하기 위해 관심대상에 대해 관련된 자료를 수집하고, 요약․정리하는 이론과 방법을 제시하는 학문

- 자료의 종류와 규모․자료의 정리 및 방법․자료의 분석과 결론의 도출 방법․도출된 결론에 대한 오차 의 측정 등을 광범위하게 다루는 학문

(4)

1.2 모집단과 표본

⧠ 통계조사(statistical survey)의 목적

- 소량의 자료를 근거로 하여 다량의 집단의 특성을 파악하고, 추론하는 것

⧠ 모집단(population) 이란?

- 연구 대상이 되는 모든 집단의 모든 구성 원소들의 집합

- 관심 있는 연구 대상의 특성에 대한 모든 관측치들의 집합

⧠ 모집단의 종류

- 유한모집단(finite population) : 원소의 개수가 유한인 경우

- 무한모집단(infinite population) : 원소의 개수가 무한한 경우

(5)

⧠ 모수(parameter) : 모집단의 특성을 나타내는 양적인 측도(모평균, 모분산, 모표준편차 )

⧠ 표본(sample) : 모집단으로부터 수집된 일부분의 자료로서 모집단의 부분집합

⧠ 통계량(statistic) : 모집단의 특성을 나타내는 모수와 대응되는 표본의 특성값(표본평균, 표본분산, 표본표준편 차)

<표 1> 모수와 통계량

모수 통계량

모평균() 표본평균()

모분산() 표본분산()

모표준편차() 표본표준편차()

(6)

1.3 통계학의 분류

⧠ 수리통계학(mathematical statistics)

- 통계적 기법의 이론적 바탕을 증명하고 새로운 통계적 이론을 개발하여 통계이론을 체계화하는 순수 학 문

⧠ 응용통계학(applied statistics)

- 통계 개념의 활용과 통계기법을 적용하는 실천적 학문

⧠ 기술통계학(descriptive statistics)

- 자료를 수집하고 표나 그림 또는 대표값, 변동의 크기 등을 통하여 수집된 자료의 특성을 쉽게 파악할 수 있도록 자료를 정리, 요약하여 그 자료가 가진 정보를 명확하게 파악할 수 있는 자료처리 방법

- 대상이 되는 자료는 모집단이나 표본 모두가 적용

(7)

⧠ 추측통계학(inferential statistics)

- 모집단의 일부로서 관측된 표본을 이용하여 모집단의 특성을 추정하고 검정하는 통계적 방법

- 오차를 확률적으로 설명하는 것까지를 포함하면서 모집단에 대한 일반성을 찾아내는 분야

(8)

1.4 자료의 종류

⧠ 변수(variable)

- 집단에 속하는 개체(구성원)들의 공통적이고 수량화될 수 있는 특성

- 대문자    등으로 표기

- 변수 의 측정치(관측치), 즉 개체가 지니는 특성치를   … 라 표기

⧠ 통계자료(statistical data) : 변수 X의 측정치들의 집합

  … 

⧠ 변수의 종류

○ 질적변수(qualitative variable)

(9)

- 질적변수는 크기나 양을 나타내지 않는 숫자나 기호, 문자로 표현되는 변수로서 성별, 혈액형, 주민등록 번호, 전화번호, 석차 등

- 기본적으로는 숫자의 의미보다는 집단을 분류하는 기호로서의 의미

○ 양적변수(quantitative variable)

- 자료의 크기나 양을 나타내는 숫자로 표현되는 변수

- 연령, 키, 몸무게, 점수, 판매량 등

○ 연속변수(continuous variable)

- 변수의 값이 어떤 실수(real number) 구간 내에 임의의 수치

- 무게, 높이, 시간, 온도

(10)

○ 이산변수(discrete variable)

- 셀 수 있는(countable) 수치 값을 취하는 변수

- 교통사고 건수, 인구 수, 전화 통화 수 등

⧠ 자료의 종류

○ 측정자료(measurement data), 순위자료(rank data), 분류자료(classification data), 시계열자료(time series data)

○ 원시자료(raw data) 또는 그룹화 되지 않은 자료(ungrouped data) : 실험이나 조사를 통해 얻은 그 상태로 정리되지 않은 자료

○ 그룹화 된 자료(grouped data): 관측된 자료의 크기순으로 정리된 자료

(11)

측도(척도)에 따른 자료 분류

○ 비계량자료(nonmetric data) - 명목자료와 순서자료

○ 계량자료(metric data) - 구간자료와 비율자료

명목자료(nominal data)

- 명목척도(nominal scale)에 의해 측정된 자료

∙ 명목척도란 측정 대상의 특성을 분류하거나 확인할 목적으로 숫자를 부여하는 경우

- 측정 대상의 특성만을 나타내며 양적인 크기를 나타내는 것이 아니기 때문에 산술적인 계산을 할 수 없 음.

- 사칙 연산이 불가능

- 측정 대상을 포괄적이며, 상호 배타적인 집단으로 구분

(12)

- 상표의 구분, 성별의 구분, 직업의 구분 등

순서자료(ordinal data)

- 순서척도(ordinal scale)에 의해 측정된 자료

∙ 측정 대상간의 순서 관계를 밝혀 주는 척도

- 측정 대상간의 크기가 높고 낮음 등의 순위를 부여해 주는 것

- 측정 대상간의 양적인 비교를 할 수 있는 정보를 제공해 주지 못함.

- 소비자의 태도와 선호도, 사회 계층 등을 측정하는데 이용

- 순서자료는 중위수(중앙값), 순위상관계수 등을 계산할 수 있음

- 명목자료와 마찬가지로 사칙연산은 불가능

(13)

구간자료(interval data)

- 구간척도(interval scale)에 의해 측정된 자료

∙ 양적인 정도의 차이를 나타내는 척도

- 순서척도가 가지는 순위이외에도 구간의 의미를 가지는 자료

- 절대 영점을 갖지 않으므로 비율의 의미를 갖지는 못함.

- 섭씨 또는 화씨로 측정된 온도 (20℃가 10℃의 두 배를 뜻하는 것은 아님.)

- 물가 지수나 생산성 지수와 같은 지수의 측정에 이용

- 범위, 평균, 표준편차, 상관계수 등

비율자료(ratio data)

- 비율척도(ratio scale)에 의해 측정된 자료

(14)

- 절대 영점을 가지므로 구간 자료가 갖는 특성에 추가적으로 측정값들 간의 비율 계산이 가능

- 연령, 상품 가격, 가구 수, 소득 등

(15)

1.5 자료의 정리

- 주어진 자료나 통계 조사를 통해 얻은 자료를 그림이나 도표를 이용하여 자료에 포함되어 있는 내용과 정보를 빠르게 파악하는 것

- 도수분포표, 도수분포 그래프 등

⧠ 표에 의한 자료의 정리

○ 도수분포표

- 범위의 계산 : 자료로부터 최대 값과 최소 값의 차이를 구해 범위를 계산

- 계급 수의 결정 :      log,  : 계급의 수  : 전체 자료 수

(16)

- 계급의 간격 결정 :   계급수 범위

- 도수의 계산 : 각 계급에 포함될 관찰치의 수를 계산

○ 계급의 상한과 하한 : 계급 구간의 큰 쪽을 그 계급의 상한이라 하고, 작은 쪽을 계급의 하한

○ 계급 폭 : 각 계급의 계급간격

- 두 개의 연속된 계급의 상한의 차이

○ 계급값 : 계급 구간의 중앙에 위치하는 값

- 주어진 계급의 상한과 하한의 합을 2로 나눈 값.

○ 구간경계선 : 한 계급의 상한과 다음 계급의 하한간의 중앙값

(17)

⧠ 액셀을 이용한 도수분포표 작성

예제 1) 혈액형 - 엑셀의 피벗테이블 마법사를 이용한 방법 1단계] 데이터 입력

(18)

2단계] 피벗 테이블 작성 1단계

피벗 테이블 마법사 1단계로서 “분석할 테이블 만들기”를 선택창에서 다음을 선택 ▪표 또는 범위 선택 - “Sheet1!$B$1:$B$41”

▪피벗테이블 보고서 넣을 위치 - 기존워크시트 : “Sheet1!$J$2:$M$10” 등을 선택한 후 “확인” 추 를 클릭.

(19)

3단계] 피벗 테이블 레이아웃 설정

- 피벗테이블 필드목록에서 “혈액형”을 선택하고, “혈액형” 필드를 아래의 “값” 필드로 드래그하면 피벗테이블 작성.

드래그

(20)

예제 1.4) 연속형 자료에 대한 도수분포표 - 40명의 주부가 일주일 동안 가계비로 지출한 금액에 대한 도수분 포표 작성.

☞ 엑셀의 “데이터분석 메뉴”를 이용한 방법

1단계] 데이터를 입력한 후 작성할 도수분포표의 계급을 적당히 구분하여 입력.

각 계급을 구분한 후 구간경계선의 상한 값을 각 계급에 입력.

(21)

2단계] 히스토그램 대화상자에서 다음 사항을 입력.

▪ 입력 범위 : $A$3:$J$6 ▪ 계급 구간 : $M$2:$M$9

▪ 이름표 - 만일 항목명을 포함하여 계급 구간 범위를 지정했을 경우 이 항목을 선택.

▪ 출력 옵션 항목은 따로 지정할 필요는 없음.

(22)

3단계] 도수분포표 작성완료와 함께 추가적으로 도수의 총계를 계산하여 완전한 도수분포표를 작성.

불필요한 항목은 그림과 같이 "행 숨기기"를 선택.

(23)

☞ 엑셀의 FREQUENCY 함수를 이용하는 방법

- 엑셀의 통계함수 중에서 도수를 구하는 “=FREQUENCY()" 함수를 이용

- 풀이2)의 경우와 같이 데이터에 대한 도수 분포표의 계급과 구간경계선 값을 먼저 입력.

1단계] 통계함수 중에서 FREQUENCY 함수 선택한 다음 확인 단추를 클릭하여 함수에 입력할 인수를 결정.

(24)

2단계] 데이터의 범위와 각 계급의 구간 경계선 상한 값이 입력된 범위를 마우스를 이용하여 설정.

▪Data array - 데이터 범위 : A3:J6

▪Bins array - 구간 경계선이 입력된 셀 범위 : M3:M9

(25)

3단계] 키보드의 키와  키를 동시에 누른 후  를 누름.

○ 상대도수분포표 : 계급도수를 총 도수()로 나눈 것( 

)

- 각 계급에 상대도수를 대응시켜 작성한 표

(26)

○ 누적도수분포표 : 번째 계급까지의 도수를 합한 것(   ⋯ 

  

)

- 누적도수를 각 계급에 대응시켜 작성한 표

○ 상대누적도수분포표 : 누적도수를 총 도수(N)로 나눈 것()

- 상대누적도수를 각 계급에 대응시켜 작성한 표

(27)

⧠ 그래프에 의한 자료의 정리

- 도수분포그래프 : 도수분포를 도표화한 것

○ 히스토그램(histogram) : 직교 좌표의 횡축 상에 도수분포표의 각 계급을 나타내는 구간을 밑변으로 하고 계급에 대응하는 도수를 높이로 하는 직사각형을 모든 계급에 대해서 만들어 연결한 것

○ 도수다각형(frequency polygon): 도수분포표에서  번째 계급값을 , 이에 대응하는 도수를 라 할 때 평 면상에 직교 좌표축을 세우고 점 을 그린 다음 이들 점을 직선으로 연결하여 얻어진 그래프

○ 도수곡선(frequency curve) : 도수다각형의 극한적인 곡선(계급을 무한히 잘게 나누어 얻은 도수 다각형).

(28)

○ 누적도수분포도(Ogive) : 도수분포표에서 구간 경계선 중 상한선을 수평축의 좌표로 하여 각 계급에 대응 하는 누적 도수를 점을 찍어 이어나간 것.

탐색적 자료 분석

- 자료의 특성을 그대로 유지하면서 자료를 분석, 정리하여 자료의 특성을 한 눈에 잘 이해할 수 있도록 표현 하는 방법

○ 줄기-잎 그림(stem-and-leaf display)

- 자료들을 줄기에 해당되는 부분과 잎에 해당되는 부분으로 나누어서 표현

- 일련의 수치가 어느 정도 퍼져 있는가?

- 다른 것과 멀리 떨어진 수치가 있는가?

(29)

- 수치가 집중되어 있는지의 여부

- 수치 전체가 어느 값을 중심으로 대칭적으로 퍼져 있는지의 여부

- 전체의 수치가 몇 개의 그룹으로 나누어져 있는가? 등을 파악

- 줄기-잎 그림 작성과정

∙ 자료를 줄기 부분과 잎 부분으로 나누어 줄기 값과 잎의 값을 정

∙ 줄기 값을 크기순서로 세로로 나열하고, 그 오른쪽 옆에 수직선을 그림.

∙ 각 줄기에 해당하는 잎의 값을 그 줄기의 오른쪽에 가로로 나열

∙ 각 줄기에 나열된 잎의 값을 크기 순서로 다시 배열

참조

관련 문서

• 상담자는 자아기능그래프를 활용함으로써 내담자의 정신 건강 여부 및 자아상태를 쉽게 파악할 수 있을 뿐만 아니 라 내담자의 어떤 자아가 문제인가를

* 이러한 기대심리의 투사 대상이 아들이나 남자 손자로 한정되고 있다는 점에서 전통사회에서의 사회적 기대가 얼마나 남자에 집중 되어

-의사결정을 보다 쉽게 할 수 있도록 하기 위해 각종 자료를 분석해 주는 컴퓨터 응용 프로그램.  전문가시스템(EX

• 추측통계학 : 추출된 표본의 조사를 통하여 모집단의 특성을 추정하거나 계획 또는 설계에 의한 자료의 수집, 즉 실험을 통하여 수립된 가정을 검정하는

- 보고서는 수집된 자료를 통해 도출한 결과들을 종합하면서 어떤 구체적인 질문이나 가설을 제시하고 있는가. - 만약 어떤 양적 자료를 수집하였다 한다면 이에

김영철이 어떻게든 고국으로 돌아가려 할 것이라는 점 을 분명하게 알고 있으면서도, 그의 누이동생을 김영철과 혼인시키는 전유년의 행위는 전유년 나 름대로

◦주요 조사 내용은 농업인과 도시민의 의식 변화를 지속적으로 파악할 수 있는 고정 문항과 정책 현안 등을 포함한 비고정 문항으로 구성되었음... – ‘주요 농산물

❍ 주요 농업지표의 국제 비교를 위해 해외 농업관련 자료를 제공하고 있는 다수 국제기구들의 데이터베이스를 검색하고 수집된 통계 중 비교 가능한 자료를 우선적으로