재표현의 목적 1) 분포의 대칭화
2) 산포를 비슷하게 하기 위해
3) 변수 사이의 단순한 관계의 표출
재표현의 활용
줄기그림이 한쪽으로 기울어진 모형 평균과 중위수가 상당히 다르다 어떤 값을 대표값으로 쓸 것인가?
< 서울지역 I의 월 소득 자료>
줄기 그림
단위 = 10(만원)
6 0 566888
20 1 00111222333444 (9) 1 556788999
21 2 013344 15 2 5589 11 3 001114
5 3 57 3 4 3 4 568
문자값 전시
Depth Lower Upper Mid Spread N= 50
M 25.5 181.966 181.966
H 13.0 123.694 283.798 203.746 160.104 E 7.0 100.000 318.000 209.133 217.871 D 4.0 86.000 373.000 229.965 287.750 C 2.5 67.000 461.500 264.262 393.631 B 1.5 61.500 475.000 268.344 414.110 1 57.000 483.000 270.340 425.154
중위수 182만원, 아래 사분위수 123.7만원, 위 사분위수 283.8만원 비대칭
자료의 변환(transform) 즉, 재표현(re-expression) 후의 분 포 (1) 제곱근 변환
여전히 비대칭인 분포 줄기 그림
단위 = 0.1
1 7 5
3 8 03 6 9 233 11 10 02788 19 11 01245789 23 12 0367
(5) 13 24489 22 14 127 19 15 2456 15 16 008 12 17 033778
6 18 57 4 19 3 3 20
3 21 369
문자값 전시
Depth Lower Upper Mid Spread N= 50
M 25.5 13.486 13.486
H 13.0 11.122 16.846 13.984 5.725 E 7.0 10.010 17.834 13.922 7.825 D 4.0 9.278 19.335 14.307 10.056 C 2.5 8.212 21.472 14.842 13.261 B 1.5 7.824 21.803 14.814 13.978 1 7.567 21.987 14.777 14.420
(2) 로그 변환
자료의 재표현(로그 변환후 대칭적인 모형)
자료의 재표현의 목적
(1) 독립적으로 산포의 균일화가 변환의 목적 평균과 중위수가 거의 유사 (2) 분포의 대칭화가 목적
줄기 그림
단위 = 0.01
1 17 5
3 18 14 6 19 334
13 20 0267789 21 21 01244568 (8) 22 01456899 21 23 036788 15 24 01567799
7 25 0347 3 26 568
문자값 전시
Depth Lower Upper Mid Spread N= 50
M 25.5 2.260 2.260
H 13.0 2.092 2.453 2.273 0.361 E 7.0 2.001 2.503 2.252 0.502 D 4.0 1.935 2.573 2.254 0.638 C 2.5 1.829 2.664 2.246 0.835 B 1.5 1.786 2.677 2.232 0.891 1 1.758 2.684 2.221 0.926
## 서울지역의 월소득 원자료와 제곱근 변환, 로그변환후의 상자 그림 비교 (1) 원자료
---
---I + I--- ---
---+---+---+---+---+---+C1 8.0 160.0 240.0 320.0 400.0 480.0
(2) 제곱근변환 후 자료
---
---I + I--- ---
--+---+---+---+---+---+----C2 7.0 10.0 13.0 16.0 19.0 22.0
(3) 로그변환 후 자료
---
---I + I--- ---
+---+---+---+---+---+---C3 1.60 1.80 2.00 2.20 2.40 2.60
재표현의 사다리
자료분석에서 가장 많이 사용되는 변환 방법
박스-칵스 변환(Box-Cox transform)
이면 무변환(no transform) 이면 제곱근 변환
이면 로그변환 이면
변환 단조함수(monoton function)이어야 함
x f (x )
<
−
=
>
=
0 ,
0 ),
log(
0 ,
p x
p x
p x
y
p p
= 1 p
2 /
= 1 p
= 0 p
≈ 0
p ( x p − 1 ) / p ≈ log
e( x )( = 2 . 303 log
10( x ))
<p의 부호와 크기에 따른 변환의 곡률의 부호와 크기의 관계>
p=3 볼록 재 p=2
표 p=1 무변환
현 p=1/2
의 p=1/3
p=0
사 p=-1/3 오목
다 p=-1/2
리 p=-1
p=-2 p=-3
(1) 오른쪽으로 꼬리가 긴 모형 (p<1) 경향이 누그러진다 (2) 왼쪽으로 꼬리가 긴 모형 (p>1) 경향이 누그러진다 (3) 오른쪽으로 꼬리가 긴 모형 (p=1에서 p=0까지 변환)
계속 오른쪽으로 꼬리가 긴 모형 음의 역변환(p=-1)
(4) 로그변환 후 오른쪽으로 꼬리가 긴 모형이 왼쪽으로 꼬리가 긴 모형으로 된다면 재표현의 사다리를 거슬러 올라가 제곱변환(p=1/2)
<표본으로 채취된 세 종류의 플랑크톤 수의 자료>
(1) 자료
(2) 문자값 전시
Depth Lower Upper Mid Spread 플랑크톤 I N= 12
M 6.5 580.000 580.000
H 3.5 483.500 870.000 676.750 386.500 E 2.0 428.000 1020.000 724.000 592.000 1 387.000 1050.000 718.500 663.000 Depth Lower Upper Mid Spread 플랑크톤 IV N= 12
M 6.5 9075.000 9075.000
H 3.5 8080.000 10015.000 9047.500 1935.000 E 2.0 7600.000 11000.000 9300.000 3400.000 1 6060.000 15500.000 10780.000 9440.000 Depth Lower Upper Mid Spread 플랑크톤 III N= 12
M 6.5 30200.000 30200.000
H 3.5 27950.000 33700.000 30825.000 5750.000
<플랑크톤 자료의 제곱근 변환 결과>
Depth Lower Upper Mid Spread 플랑크톤 I N= 12
M 6.5 24.069 24.069
H 3.5 21.986 29.493 25.740 7.506 E 2.0 20.688 31.937 26.313 11.249 1 19.672 32.404 26.038 12.731 Depth Lower Upper Mid Spread 플랑크톤 IV N= 12
M 6.5 95.258 95.258
H 3.5 89.883 100.071 94.977 10.187 E 2.0 87.178 104.881 96.029 17.703 1 77.846 124.499 101.172 46.653 Depth Lower Upper Mid Spread 플랑크톤 III N= 12
M 6.5 173.747 173.747
H 3.5 167.182 183.559 175.371 16.377 E 2.0 149.332 198.746 174.039 49.414 1 137.477 208.087 172.782 70.609
--- I I+I-
---
----
IV ----I+ I- * ----
---
III * ---I + I--- ---
---+---+---+---+---+---+
35 70 105 140 175 210
<플랑크톤 자료의 (상용)로그 변환 결과>
Depth Lower Upper Mid Spread 플랑크톤 I N= 12
M 6.5 2.762 2.762
H 3.5 2.684 2.939 2.812 0.255 E 2.0 2.631 3.009 2.820 0.377 1 2.588 3.021 2.804 0.433 Depth Lower Upper Mid Spread 플랑크톤 IV N= 12
M 6.5 3.958 3.958
H 3.5 3.907 4.001 3.954 0.093 E 2.0 3.881 4.041 3.961 0.161 1 3.782 4.190 3.986 0.408 Depth Lower Upper Mid Spread 플랑크톤 III N= 12
M 6.5 4.480 4.480
H 3.5 4.446 4.527 4.487 0.081 E 2.0 4.348 4.597 4.472 0.248 1 4.276 4.636 4.456 0.360
--- 플랑크톤 I --I + I---
---
플랑크톤 IV ---I+I---- *
--- ---
플랑크톤 III * --I+I---
---+---+---+---+---+---C12 --- 2.80 3.20 3.60 4.00 4.40
<플랑크톤 자료의 세제곱근 변환 결과>
Depth Lower Upper Mid Spread 플랑크톤 I N= 12
M 6.5 8.335 8.335
H 3.5 7.848 9.546 8.697 1.697 E 2.0 7.536 10.066 8.801 2.530 1 7.287 10.164 8.726 2.877 Depth Lower Upper Mid Spread 플랑크톤 IV N= 12
M 6.5 20.858 20.858
H 3.5 20.065 21.554 20.810 1.489 E 2.0 19.661 22.240 20.950 2.579 1 18.232 24.933 21.582 6.702 Depth Lower Upper Mid Spread 플랑크톤 III N= 12
M 6.5 31.136 31.136
H 3.5 30.348 32.298 31.323 1.950 E 2.0 28.147 34.056 31.102 5.909 1 26.637 35.115 30.876 8.478 플랑크톤 I -I+ I-----
----
----
플랑크톤 IV ---I +I- * ----
플랑크톤 III * ----I+ I------- ----
--+---+---+---+---+---+---- 6.0 12.0 18.0 24.0 30.0 36.0