• 검색 결과가 없습니다.

■ 범주형 자료분석

N/A
N/A
Protected

Academic year: 2022

Share "■ 범주형 자료분석"

Copied!
20
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

■ 범주형 자료분석

□ 자료의 종류

◦ 범주형 자료(categorical data)

▪ 명목자료 : 남녀, 후보, 혈액형

▪ 순서자료 : (상, 중, 하), (소년, 중년, 장년, 노년), 3단(5단,7단) 척도

◦ 측정형 자료(measurement data, 수치적 자료)

▪ 이산형 : 자녀의 수, 발생 회수

▪ 연속형 : 신장, 체중, 수명

(2)

□ 분할표 (contingency table)

◦ 범주형 자료를 분석하는데 있어 중간단계로 사용되는 것으로 각각의 범주에 포함되어 있는 관측개수를 표시한 표

▣ Mendel의 교배실험 (도수분포표)

▪ A : 둥근 완두, B : 노란 완두

▪ a : 모난 완두, b : 녹색 완두

완두종류 AB Ab aB ab 합계

관측수 315 108 101 32 556

(3)

▣ 선호도 조사

▪ 임의로 선택한 남자 76명과 여자 70명을 대상으로 남녀간 스마트폰 모델 선호도에 대한 조사결과

성별 스마트폰모델

A B C 합계

남자 35 23 18 76

여자 17 33 20 70

합계 52 56 38 146

(4)

▣ 고속도로 교통사고

▪ 차종과 사고내역의 연관성

사고내역 차종

대형 중형 소형 합

인사사고 67 26 16 109

비인사사고 128 63 46 237

합 195 89 62 346

(5)

□ 피어슨의

-적합도 검정

▪ 개의 범주로 구성된 모집단의 각 범주에 속할 모비율이 얼마인가를 검정하는 방법

: 번째 범주에 속하는 표본의 개수,  

⋯

▪ 가설

       …    

는 사실이 아니다.

▪ 검정통계량? - 범주가 2개인 경우,

 

  

 



 ,



⚫ 분포이론:

 ⇒

∼ 

(6)

 

  

 

 

 

   

 

 

  

 

  

⚫ 관측도수와 귀무가설 하에서의 기대도수의 차이

⚫ 값이 크다는 것은 귀무가설 하에서 관측도수는 이상한 자료라는 것을 의미

(7)

▪ 일반적인  에 대해,

  



 

  

∼   

: 관측도수,

: 귀무가설 하에서의 기대도수

⚫ 자유도 : 개의 범주에 속하는 관측 수

 …

를 이용하지만

  

 이라는 제약조건 때문에 자유도가 하나 상실되어 자유도는   

▪ 기각역 :    

(8)

▣ Mendel의 교배실험

완두종류 AB Ab aB ab 합계

관측수 315 108 101 32 556

▪ 멘델의 유전법칙: 네 종류의 비율이 9 : 3 : 3 : 1

▪ 교배실험 결과 멘델의 이론에 어긋난다고 할 수 있는가?

▪ 가설:

   

    

    

    

▪ 검정통계량: 

  



 

  

∼ 

▪ 기각역 (5% 유의수준):     

(9)

내역 1 2 3 4 합계 기대도수 312.75 104.25 104.25 34.75 556

0.0162 0.1349 0.1013 0.2176 0.4700

▪     이므로 귀무가설 기각할 수 없음

⇨ 5% 유의수준에서 이 교배실험 결과는 멘델의 이론에 어긋난다고 할 수 없음

◯ 정규성 검정

: 정규분포를 따른다. vs

: 정규분포를 따르지 않는다.

(10)

□ 동질성 검정

▪ 독립적인 2개 그룹이 각각 2개 이상인 같은 범주로 구분되어 있는 경우에 각 그룹에서 어느 특정한 범주에 속할 비율이 같은지를 비교

▪ 실험 : 각 그룹에서 표본의 크기를 먼저 결정

◯ 두모집단의 모비율 검정

모집단 성공 실패 실험 비율 표본비율

1



(11)

▪ 가설:

    vs

  ≠ 

▪ 검정 통계량:

 

 

  





 

  

 

 

  

 

   

 

 

(12)

 

   

 

  

   



 

   



 

 

  

 

 

  

 

 

   

 

   

(13)

 

  

 

  

 

 

  

 

 

  

 

 

  

 

 

 

  

 

 

 

  



  



 

 

  



  



(14)

▪ Alternative form

모집단 성공 실패

1





2





 

⇨ 모집단 1의 성공 빈도의 기댓값의 추정값

  

 

⚫ 

   

  

, 

 

, 

 

(15)

  

  





  



∼ 

⚫ 귀무가설 하에서 추정된 

와 실제 관측값

의 차이가 크면 귀무가설의 적절성을 의심할 수 있음

⚫ 자유도: 각 그룹에서 1개씩의 자유도를 가지나 확률  를 추정하는 과정에서 1개의 자유도가 빠짐 ⇨ df=1

▪ 일반화:  개의 그룹과  개의 범주

  

  





  



∼ 

⚫               

(16)

▣ 스마트폰 선호도 조사

 선호도 스마트폰모델  

A B C 합계

남자

관측도수 35 23 18

76 기대도수 27.07 29.15 19.78

피어슨잔차 1.52 -1.14 -0.40 여자

관측도수 17 33 20

70 기대도수 24.93 26.85 18.22

피어슨잔차 -1.59 1.19 0.42

합 52 56 38 146

     

(17)

□ 독립성 검정

◯ 통계적 독립

▪ “두 확률변수가 독립적이다”라는 것은 모든   에 대해

 

  

 

 

▪ 결합 확률과 주변 확률은 각각의 범주에 속하는 관측 값의 개수를 이용하여 추정

(18)

변수

⋯ 





⋮ ⋱ ⋮













⚫ 결합확률 추정:

 

  ⇐ 



⚫ 주변확률 추정:

  ⇐ 



,

  ⇐ 



(19)

▪ 독립이라는 가정 하에서

 ≃ 

 

   

 

  ≃ 





: 관측빈도(

)



: 독립 가정하에서의 기대빈도 추정값(

)

⇨ 동질성 검정의 상황과 유사

 



  



∼ 

▪ 자유도:  

               

▪ 만약 이 두 값이 큰 차이를 가진다면, 두 변수 간의 독립성을 의심할 수 있음

(20)

▣ 고속도로 교통사고

내역 차종

대형 중형 소형 합

인사사고

관측도수 67 26 16 109

기대도수 61.43 28.04 19.53 피어슨잔차 0.71 -0.38 -0.80 비인사사고

관측도수 128 63 46 237

기대도수 133.57 60.96 42.47 피어슨잔차 -0.48 0.26 0.54

합 195 89 62 346

     

참조

관련 문서

Electronic properties of graphitic carbons Graphite is a well-known electric conductor in industry. Contacts in

이처럼 퇴치 소리에 대한 조류의 반응에 따라 동적으로 퇴치 소리의 재생 순서를 결정하면 현재 보유하고 있는 소리들을 이용하여 최대한 적응을 방지할 수 있을

기존에 연구가 진행된 혈액의 일반타액단백질의 농도 분석을 통해 나타난 결과 정상인에 비해 당뇨 환자의 일반타액단백질의 농도가 높은 것으로 나타났었고, 이번 실험을

[r]

이 연구를 통하여 학생들은 에너지 자원의 유한성에 대해 깨닫고 에너지 자립 운동을 하는 과정에서 전기와 관련된 물리개념, 태양 광 발전 시설과 빗물 재활용

Heme에서 H + 가 Fe 2+ -Heme 결합에 미치는 영향에 대한 개괄적 분석 Heme을 소 혈액으로부터 원심분리-화학적 용혈-단백질 침전의 프로토 콜로 추출한 후, Heme

4방 초음파 센서 부착의 경우 지각 능력을 통해 드론 조종 시의 안전사고들을 예방 할 수 있을 것이며 여러 센서를 이용한 놀이 제작으로 통해 학생들을 포함한

○ 이 연구의 주제는 보관공간을 최소화하도록 짐을 배치하는 체계적 방법을 찾아보려는 학생들의 호기심에서 시작되어 , 참여 학생들은 이 문제를 “이차원 공간에서 주어진