자료의 재표현과 문자값의 재표현
자료의 박스-칵스 변환 문자값들을 동일한 변환으로 재표현
원 자료의 문자 값들만 변환하여 재표현 자료의 문자 값을 얻을 수 있다(수작업 가능) [미니탭의 활용]
File > Open Worksheet….
(max)) ),
( ), ( ), (
(min), (
max) ,
, ,
(min, HL M H
U ⇒ f f HL f M f H
U f
f M f H
Uf
자료의 변환
Calc > Calulator…
Stat > EDA > Letter Values…
원자료의 문자 값 √ 변환한 문자값
분포의 대칭화에 관한 수리적 이론
분포의 대칭화 대칭화 변환을 수리적으로 규명
함수 ( 일 때는 로 해석)을 테일러 정리를 이용하여 (중위수)을 중심으로 2차 항까지 전개
에 의하여 변환된 자료의 위,아래 사분위수 과 은
변환에 의하여 대칭분포를 만족하려면
이어야 하므로 근사적으로
가 성립하여야 한다.
x
px
f ( ) = p ≥ p 0 ; = 0 y = log
ex
M x =
2 / ) )(
( )
)(
( )
( )
( x f M f
'M x M f
"M x M
2f ≅ + − + −
2 / ) (
) 1 (
)
(
2 21
x M p p M x M
pM
M
p+
p− + −
p−
=
− −x
px
f ( ) = H
LpH
Up2 / ) (
) 1 (
)
(
2 21
H M p p M H M
pM M
H
Lp≅
p+
p− L− + −
p− L−
2 / ) (
) 1 (
)
(
2 21
H M p p M H M
pM M
H
Up≅
p+
p− U− + −
p− U−
p p
U p
L
p
H H M
M − = −
2 / ) (
) 1 (
)
(
2 21
H M p p M H M
pM
p L− − −
p L−
−
− −2 / ) (
) 1 (
)
(
2 21
H M p p M H M
pM
p U− − −
p U−
≅
− −즉,
가 유도된다.
즉, 변환의 차수 는 근사적으로
으로 주어진다.
예를 들면, 서울지역 I의 월 소득 분포에 적용시키면 이므로
이다.
0에 가까우므로 최종적으로 시도한 로그변환이 거의 근사적으로 최적값에 근접 2
/ ) )(
1 ( ) (
2 / ) )(
1 ( )
(
H M p H M
2M H M p H M
2M
L − − − L − ≅ U − + − U −−
2 / } ) (
) ){(
1 ( )}
( )
{( H M H M p H M
2H M
2M
L− +
U− ≅ −
L− +
U−
⇔
) 4 /(
} ) (
) ){(
1 ( } 2
/ )
{( H
L+ H
U− M ≅ − p H
L− M
2+ H
U− M
2M
⇔
p
) 4 /(
} ) (
) {(
2 / )
1 (
2 2M M
H M
H
M H
p H
U L
U L
− +
−
−
− +
≅
8 . 283 ,
7 . 123 ,
182 = =
= H
LH
UM
) 182 4
/(
} ) 182 8
. 283 ( ) 182 7
. 123 {(
182 2
/ ) 8 . 283 7
. 123
1 (
2 2×
− +
−
−
− +
≅ p
1506 .
0 9040
. 18 / 7500 .
21
1 − = −
=
산포의 균일화에 관한 수리적 이론
산포를 균일하게 해주는 변환 수리적인 이론을 설명
함수 ( 일 때는 로 해석)을 테일러 정리를 이용하여 (중위수)을 중심으로 1차 항까지 전개
에 의하여 변환된 자료의 위,아래 사분위수 과 은
으로 근사되므로
가 성립한다. 따라서 위 식의 양변에 로그를 취하면
이 되는데, 변환에 의하여 산포가 균일해 진다면 좌변은 상수이므로
가 유도된다.
x
px
f ( ) = p ≥ p 0 ; = 0 y = log
ex M
x =
) (
) )(
( )
( )
( x f M f
'M x M M pM
1x M
f ≅ + − =
p+
p−−
x
px
f ( ) = H
LpH
Up) (
),
(
11
H M H M pM H M
pM M
H
Lp≅
p+
p− L−
Up≅
p+
p− U− ) ( )
(
11
H H pM spr H
pM H
H
Up−
Lp≅
p− U−
L=
p−)}
( log{
log ) 1 (
log )
log( HUp − HLp ≅ p + p − M + spr H
≅ p + p − M + spr H
x
p상수 p M
p H
spr ( )} ( 1 ) log log( ) log
log{ ≅ − + −
위 식에서 를 세로축, 을 가로축에 놓고 플롯하였을 때
기울기가 대략 인 직선 형태
를 구하여 2차원 그래프(산점도)로 출력시켰을 때 기울기가 인 직선 형태의 그래프가 도출 된다.
변환이 대략적으로 자료간의 산포를 균일하게 하는 변환 예를들면
세 종류의 플랑크톤 자료에 의한 문자값 전시로 부터 문자 값 M과 4분위수 산포 spr(H) 를 찾아 (상용)로그 변환을 실시
M spr(H) log(M) log{spr(H)}
플랑크톤 I 580 386.5 2.76 2.59 플랑크톤 IV 9075 1935 3.96 3.29 플랑크톤 III 30200 5750 4.48 3.76
세 점 중에서 양끝에 있는 자료 I과 III의 점 (logM,log{spr(H)}을 연결하는 직선의 기울기
)}
(
log{ spr H log M
− p 1
)}) (
log{
,
(log M spr H
− p 1
x p
3 / 1 32
. 0 ,
1 68
. 76 0
. 2 48 . 4
59 . 2 76 .
3 = ≅ − ≅ =
−
− p p
통계분석에서 자주 쓰이는 그 밖의 변환 통계분석에 자주 사용되는 변환
(1) 자료가 도수(frequency)인 경우 : 자료가 범주형 관측도수 F인 경우 확률변량 F를 포아송(Poisson distribution)로 모형화, 평균 , 분산 이 같은 경우
분산 안정화 변환(Variance stabilizing transform)은 제곱근 변환 (2) 자료가 비율인 경우 : 통계분석에 자주 사용되는 비율 의 변환
① 로짓(logit) 변환 :
② 프로빗(probit) 변환 : 여기서, 는 N(0,1)
③ 각 변환(arcsin 변환) :
(3) 상관계수 : 모 상관계수 인 경우 표본상관계수 의 표본분포는 복잡 Fisher의 변환
을 통하여 근사적인 정규분포
m v
p )]
1 ( [
log
ep − p
)
1
(
−
p
Φ Φ ( u ) = Pr( Z ≤ u ), Z )
( sin
−1p
r ρ r
z
−
= +
r
z
er
1 log 1
2 1
)) 3 /(
1 )}, 1
/(
) 1
{(
log 2 / 1
( + − n −
N
eρ ρ
(4) 표준점수로의 변환 : 여러 묶음의 자료를 자료의 대표값과 산포가 같도록 변환
EDA에서의 표준점수
(5) 로그변환 : 분포의 대칭화 또는 산포의 균일화를 위한 재표현 방법 승법모형의 가법모형화가 가능
예를들면,
경제•경영 시계열 는 승법 모형 :
로 표현되는 경우 로그변환
s m
x
z = ( − ) /
) ( /
) (
35 .
1 x M spr H
z = × −
O t
t t t t
t
T C S I
O = ⋅ ⋅ ⋅
) log(
log O
t= T
t⋅ C
t⋅ S
t⋅ I
tt t
t
t
C S I
T log log log
log + + +
=
*
*
*
*
t t
t
t
C S I
T + + +
=
요약
자료의 재표현 : 분포의 대칭화, 자료간 산포의 균등화, 변수간의 단순한 관계의 표출
박스-칵스 변환 : 재표현 사다리는 p=1(무변환)을 기점으로 하여
p>1 이면 올라가는 방향, p<1 이면 내려가는 방향
분포가 오른쪽으로 긴 꼬리를 뻗은 자료 대칭화 변환은 재표현 사다리를 내려감 분포가 왼쪽으로 긴 꼬리를 뻗은 자료 대칭화 변환은 재표현 사다리를 올라감
중위수가 커짐에 따라 산포가 늘어나는 자료의 경우 : 산포의 균일화를 위하여 재표현 사다리를 내려야 함
원 자료의 수치 요약은 동일한 변환으로 재 표현
분포의 대칭화를 위한 변환의 차수 는 다음과 같다
(max)) ),
( ), ( ), (
(min), (
max) ,
, ,
(min, HL M H
U ⇒ f f HL f M f H
U f
f M f H
Uf
x
pp
) 4 /(
} ) (
) {(
2 / )
1 (
2 2M M
H M
H
M H
p H
U L
U L
− +
−
−
− +
≅
여러 묶음의 자료간 산포를 균일하게 하기 위한 방법
: 기울기
통계분석에서는 다음의 여러 변환들이 자주 쓰인다
① 자료가 돗수인 경우 : 제곱근 변환
자료가 비율인 경우 : 로짓 변환, 프로빗 변환, arcsin변환
② 상관계수에 관한 변환 : 피셔(Fisher)의 z 변환이 대표적
③ 표준화 점수로써 난이도가 다르게 출제된 시험에서 취득한 점수를 비교
④ 로그 변환 : 승법모형 가법모형