• 검색 결과가 없습니다.

Chapter 4. 재표현

N/A
N/A
Protected

Academic year: 2022

Share "Chapter 4. 재표현"

Copied!
11
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

Chapter 4. 재표현

김남형 응용통계학과 가천대학교

[email protected]

(2)

 자료의 재표현과 문자값의 재표현

자료의 박스-칵스 변환 문자값들을 동일한 변환으로 재표현

원 자료의 문자 값들만 변환하여 재표현 자료의 문자 값을 얻을 수 있다(수작업 가능) [미니탭의 활용]

File > Open Worksheet….

(max)) ),

( ), ( ), (

(min), (

max) ,

, ,

(min, H

L

M H

U

f f H

L

f M f H

U

f

(3)

자료의 변환

Calc > Calulator…

Stat > EDA > Letter Values…

원자료의 문자 값 √ 변환한 문자값

(4)

 분포의 대칭화에 관한 수리적 이론

분포의 대칭화 대칭화 변환을 수리적으로 규명

함수 ( 일 때는 로 해석)을 테일러 정리를 이용하여 (중위수)을 중심으로 2차 항까지 전개

에 의하여 변환된 자료의 위,아래 사분위수 과 은

변환에 의하여 대칭분포를 만족하려면

이어야 하므로 근사적으로

가 성립하여야 한다.

x

p

x

f ( ) = p ≥ p 0 ; = 0 y = log

e

x

M x =

2 / ) )(

( )

)(

( )

( )

( x f M f

'

M x M f

"

M x M

2

f ≅ + − + −

2 / ) (

) 1 (

)

(

2 2

1

x M p p M x M

pM

M

p

+

p

− + −

p

=

x

p

x

f ( ) = H

Lp

H

Up

2 / ) (

) 1 (

)

(

2 2

1

H M p p M H M

pM M

H

Lp

p

+

p L

− + −

p L

2 / ) (

) 1 (

)

(

2 2

1

H M p p M H M

pM M

H

Up

p

+

p U

− + −

p U

p p

U p

L

p

H H M

M − = −

2 / ) (

) 1 (

)

(

2 2

1

H M p p M H M

pM

p L

− − −

p L

2 / ) (

) 1 (

)

(

2 2

1

H M p p M H M

pM

p U

− − −

p U

(5)

즉,

가 유도된다.

즉, 변환의 차수 는 근사적으로

으로 주어진다.

예를 들면, 서울지역 I의 월 소득 분포에 적용시키면 이므로

이다.

0에 가까우므로 최종적으로 시도한 로그변환이 거의 근사적으로 최적값에 근접 2

/ ) )(

1 ( ) (

2 / ) )(

1 ( )

(

H M p H M

2

M H M p H M

2

M

L − − − L − ≅ U − + − U

2 / } ) (

) ){(

1 ( )}

( )

{( H M H M p H M

2

H M

2

M

L

− +

U

− ≅ −

L

− +

U

) 4 /(

} ) (

) ){(

1 ( } 2

/ )

{( H

L

+ H

U

M ≅ − p H

L

M

2

+ H

U

M

2

M

p

) 4 /(

} ) (

) {(

2 / )

1 (

2 2

M M

H M

H

M H

p H

U L

U L

− +

− +

8 . 283 ,

7 . 123 ,

182 = =

= H

L

H

U

M

) 182 4

/(

} ) 182 8

. 283 ( ) 182 7

. 123 {(

182 2

/ ) 8 . 283 7

. 123

1 (

2 2

×

− +

− +

p

1506 .

0 9040

. 18 / 7500 .

21

1 − = −

=

(6)

 산포의 균일화에 관한 수리적 이론

산포를 균일하게 해주는 변환 수리적인 이론을 설명

함수 ( 일 때는 로 해석)을 테일러 정리를 이용하여 (중위수)을 중심으로 1차 항까지 전개

에 의하여 변환된 자료의 위,아래 사분위수 과 은

으로 근사되므로

가 성립한다. 따라서 위 식의 양변에 로그를 취하면

이 되는데, 변환에 의하여 산포가 균일해 진다면 좌변은 상수이므로

가 유도된다.

x

p

x

f ( ) = p ≥ p 0 ; = 0 y = log

e

x M

x =

) (

) )(

( )

( )

( x f M f

'

M x M M pM

1

x M

f ≅ + − =

p

+

p

x

p

x

f ( ) = H

Lp

H

Up

) (

),

(

1

1

H M H M pM H M

pM M

H

Lp

p

+

p L

Up

p

+

p U

− ) ( )

(

1

1

H H pM spr H

pM H

H

Up

Lp

p U

L

=

p

)}

( log{

log ) 1 (

log )

log( H

Up

H

Lp

p + pM + spr H

x

p

상수 p M

p H

spr ( )} ( 1 ) log log( ) log

log{ ≅ − + −

(7)

위 식에서 를 세로축, 을 가로축에 놓고 플롯하였을 때

기울기가 대략 인 직선 형태

를 구하여 2차원 그래프(산점도)로 출력시켰을 때 기울기가 인 직선 형태의 그래프가 도출 된다.

변환이 대략적으로 자료간의 산포를 균일하게 하는 변환 예를들면

세 종류의 플랑크톤 자료에 의한 문자값 전시로 부터 문자 값 M과 4분위수 산포 spr(H) 를 찾아 (상용)로그 변환을 실시

M spr(H) log(M) log{spr(H)}

플랑크톤 I 580 386.5 2.76 2.59 플랑크톤 IV 9075 1935 3.96 3.29 플랑크톤 III 30200 5750 4.48 3.76

세 점 중에서 양끝에 있는 자료 I과 III의 점 (logM,log{spr(H)}을 연결하는 직선의 기울기

)}

(

log{ spr H log M

p 1

)}) (

log{

,

(log M spr H

p 1

x p

3 / 1 32

. 0 ,

1 68

. 76 0

. 2 48 . 4

59 . 2 76 .

3 = ≅ − ≅ =

p p

(8)

 통계분석에서 자주 쓰이는 그 밖의 변환 통계분석에 자주 사용되는 변환

(1) 자료가 도수(frequency)인 경우 : 자료가 범주형 관측도수 F인 경우 확률변량 F를 포아송(Poisson distribution)로 모형화, 평균 , 분산 이 같은 경우

분산 안정화 변환(Variance stabilizing transform)은 제곱근 변환 (2) 자료가 비율인 경우 : 통계분석에 자주 사용되는 비율 의 변환

① 로짓(logit) 변환 :

② 프로빗(probit) 변환 : 여기서, 는 N(0,1)

③ 각 변환(arcsin 변환) :

(3) 상관계수 : 모 상관계수 인 경우 표본상관계수 의 표본분포는 복잡 Fisher의 변환

을 통하여 근사적인 정규분포

m v

p )]

1 ( [

log

e

pp

)

1

(

p

Φ Φ ( u ) = Pr( Zu ), Z )

( sin

1

p

r ρ r

z

 

 

= +

r

z

e

r

1 log 1

2 1

)) 3 /(

1 )}, 1

/(

) 1

{(

log 2 / 1

( + − n

N

e

ρ ρ

(9)

(4) 표준점수로의 변환 : 여러 묶음의 자료를 자료의 대표값과 산포가 같도록 변환

EDA에서의 표준점수

(5) 로그변환 : 분포의 대칭화 또는 산포의 균일화를 위한 재표현 방법 승법모형의 가법모형화가 가능

예를들면,

경제•경영 시계열 는 승법 모형 :

로 표현되는 경우 로그변환

s m

x

z = ( − ) /

) ( /

) (

35 .

1 x M spr H

z = × −

O t

t t t t

t

T C S I

O = ⋅ ⋅ ⋅

) log(

log O

t

= T

t

C

t

S

t

I

t

t t

t

t

C S I

T log log log

log + + +

=

*

*

*

*

t t

t

t

C S I

T + + +

=

(10)

 요약

자료의 재표현 : 분포의 대칭화, 자료간 산포의 균등화, 변수간의 단순한 관계의 표출

박스-칵스 변환 : 재표현 사다리는 p=1(무변환)을 기점으로 하여

p>1 이면 올라가는 방향, p<1 이면 내려가는 방향

분포가 오른쪽으로 긴 꼬리를 뻗은 자료 대칭화 변환은 재표현 사다리를 내려감 분포가 왼쪽으로 긴 꼬리를 뻗은 자료 대칭화 변환은 재표현 사다리를 올라감

중위수가 커짐에 따라 산포가 늘어나는 자료의 경우 : 산포의 균일화를 위하여 재표현 사다리를 내려야 함

원 자료의 수치 요약은 동일한 변환으로 재 표현

분포의 대칭화를 위한 변환의 차수 는 다음과 같다

(max)) ),

( ), ( ), (

(min), (

max) ,

, ,

(min, H

L

M H

U

f f H

L

f M f H

U

f

x

p

p

) 4 /(

} ) (

) {(

2 / )

1 (

2 2

M M

H M

H

M H

p H

U L

U L

− +

− +

(11)

여러 묶음의 자료간 산포를 균일하게 하기 위한 방법

: 기울기

통계분석에서는 다음의 여러 변환들이 자주 쓰인다

① 자료가 돗수인 경우 : 제곱근 변환

자료가 비율인 경우 : 로짓 변환, 프로빗 변환, arcsin변환

② 상관계수에 관한 변환 : 피셔(Fisher)의 z 변환이 대표적

③ 표준화 점수로써 난이도가 다르게 출제된 시험에서 취득한 점수를 비교

④ 로그 변환 : 승법모형 가법모형

)}) (

log{

,

(log M spr H r = 1 − p

참조

관련 문서

1 Department of Health Sciences and Technology, Gachon Advanced Institute for Health Sciences and Technology (GAIHST), Gachon University, Incheon, Korea [Graduate

Department of Korean Rehabilitation Medicine, College of Korean Medicine, Gachon University, Department of Physiology, College of Korean Medicine, Gachon

Healthcare Research Center, Gachon University

of Medical Classics and History, College of Korean Medicine, Gachon University.. 2 Student at College of Korean Medicine, Gachon

Gachon University of Medicine and Science, Department of Emergency Medical Technology Gachon University of Medicine and Science, Department of Preventive Medicine..

기생충 질환

12장 샘플링 검사. 김남형

Gachon University