■ 범주형 자료분석
□ 자료의 종류
◦ 범주형 자료(categorical data)
▪ 명목자료 : 남녀, 후보, 혈액형
▪ 순서자료 : (상, 중, 하), (소년, 중년, 장년, 노년), 3단(5단,7단) 척도
◦ 측정형 자료(measurement data, 수치적 자료)
▪ 이산형 : 자녀의 수, 발생 회수
▪ 연속형 : 신장, 체중, 수명
□ 분할표 (contingency table)
◦ 범주형 자료를 분석하는데 있어 중간단계로 사용되는 것으로 각각의 범주에 포함되어 있는 관측개수를 표시한 표
▣ Mendel의 교배실험 (도수분포표)
▪ A : 둥근 완두, B : 노란 완두
▪ a : 모난 완두, b : 녹색 완두
완두종류 AB Ab aB ab 합계
관측수 315 108 101 32 556
▣ 선호도 조사
▪ 임의로 선택한 남자 76명과 여자 70명을 대상으로 남녀간 스마트폰 모델 선호도에 대한 조사결과
성별 스마트폰모델
A B C 합계
남자 35 23 18 76
여자 17 33 20 70
합계 52 56 38 146
▣ 고속도로 교통사고
▪ 차종과 사고내역의 연관성
사고내역 차종
대형 중형 소형 합
인사사고 67 26 16 109
비인사사고 128 63 46 237
합 195 89 62 346
□ 피어슨의
-적합도 검정▪ 개의 범주로 구성된 모집단의 각 범주에 속할 모비율이 얼마인가를 검정하는 방법
▪
: 번째 범주에 속하는 표본의 개수,
⋯
▪ 가설
⚫
… ⚫
는 사실이 아니다.▪ 검정통계량? - 범주가 2개인 경우,
∼
,
⚫ 분포이론:
∼
⇒
∼
⚫ 관측도수와 귀무가설 하에서의 기대도수의 차이
⚫ 값이 크다는 것은 귀무가설 하에서 관측도수는 이상한 자료라는 것을 의미
▪ 일반적인 에 대해,
∼
⚫
: 관측도수,
: 귀무가설 하에서의 기대도수⚫ 자유도 : 개의 범주에 속하는 관측 수
…
를 이용하지만
이라는 제약조건 때문에 자유도가 하나 상실되어 자유도는 ▪ 기각역 :
▣ Mendel의 교배실험
완두종류 AB Ab aB ab 합계
관측수 315 108 101 32 556
▪ 멘델의 유전법칙: 네 종류의 비율이 9 : 3 : 3 : 1
▪ 교배실험 결과 멘델의 이론에 어긋난다고 할 수 있는가?
▪ 가설:
▪ 검정통계량:
∼
▪ 기각역 (5% 유의수준):
내역 1 2 3 4 합계 기대도수 312.75 104.25 104.25 34.75 556
0.0162 0.1349 0.1013 0.2176 0.4700▪ 이므로 귀무가설 기각할 수 없음
⇨ 5% 유의수준에서 이 교배실험 결과는 멘델의 이론에 어긋난다고 할 수 없음
◯ 정규성 검정
▪
: 정규분포를 따른다. vs
: 정규분포를 따르지 않는다.□ 동질성 검정
▪ 독립적인 2개 그룹이 각각 2개 이상인 같은 범주로 구분되어 있는 경우에 각 그룹에서 어느 특정한 범주에 속할 비율이 같은지를 비교
▪ 실험 : 각 그룹에서 표본의 크기를 먼저 결정
◯ 두모집단의 모비율 검정
모집단 성공 실패 실험 비율 표본비율
1
▪ 가설:
vs
≠ ▪ 검정 통계량:
∼
⚫
⇨
⇨
▪ Alternative form
모집단 성공 실패 합
1
2
합
⚫
⇨ 모집단 1의 성공 빈도의 기댓값의 추정값
⚫
,
,
⇨
∼
⚫ 귀무가설 하에서 추정된
와 실제 관측값
의 차이가 크면 귀무가설의 적절성을 의심할 수 있음⚫ 자유도: 각 그룹에서 1개씩의 자유도를 가지나 확률 를 추정하는 과정에서 1개의 자유도가 빠짐 ⇨ df=1
▪ 일반화: 개의 그룹과 개의 범주
∼
⚫
▣ 스마트폰 선호도 조사
선호도 스마트폰모델
A B C 합계
남자
관측도수 35 23 18
76 기대도수 27.07 29.15 19.78
피어슨잔차 1.52 -1.14 -0.40 여자
관측도수 17 33 20
70 기대도수 24.93 26.85 18.22
피어슨잔차 -1.59 1.19 0.42
합 52 56 38 146
▪
□ 독립성 검정
◯ 통계적 독립
▪ “두 확률변수가 독립적이다”라는 것은 모든 에 대해
▪ 결합 확률과 주변 확률은 각각의 범주에 속하는 관측 값의 개수를 이용하여 추정
변수
⋯ 합
⋮
⋯
⋮ ⋱ ⋮
⋯
⋮
합
⋯
⚫ 결합확률 추정:
⇐
⚫ 주변확률 추정:
⇐
,
⇐
▪ 독립이라는 가정 하에서
≃
≃
⚫
: 관측빈도(
)⚫
: 독립 가정하에서의 기대빈도 추정값(
)⇨ 동질성 검정의 상황과 유사
∼
▪ 자유도:
▪ 만약 이 두 값이 큰 차이를 가진다면, 두 변수 간의 독립성을 의심할 수 있음
▣ 고속도로 교통사고
내역 차종
대형 중형 소형 합
인사사고
관측도수 67 26 16 109
기대도수 61.43 28.04 19.53 피어슨잔차 0.71 -0.38 -0.80 비인사사고
관측도수 128 63 46 237
기대도수 133.57 60.96 42.47 피어슨잔차 -0.48 0.26 0.54
합 195 89 62 346
▪