• 검색 결과가 없습니다.

Chapter 9. 2변량 자료의 탐색적 분석

N/A
N/A
Protected

Academic year: 2022

Share "Chapter 9. 2변량 자료의 탐색적 분석"

Copied!
15
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

Chapter 9. 2변량 자료의 탐색적 분석

김남형 응용통계학과 가천대학교

nhkim@gachon.ac.kr

(2)

Too flexible (Over-fitting)

Not flexible enough

(Under-fitting)

비모수적 방법론

(3)

윈도우, 가중 최소제곱법 및 LOWESS

산점도 평활(scatterplot smoothing)의 뼈대를 구성 하는 두 요인은 윈도우(window)와 가중 최소제곱법(weighted least squares method) 이라 할 수 있다.

윈도우란 <도표 11> : 스캐터 플롯의 일부만을 볼 수 있게 열어 놓은 창틀을 의미

한 개체의 X변수값을 중심으로 열리게 되며 그 윈도우에서 어떤 계산을 마치면, 또 다음 개체의 X변수값을 중심으로 가능한 대칭 적으로 열리게 된다.

가중 최소 제곱법이란

자료가 값에 의하여 정렬되어 있다고 가정하고 (즉, ), 한 윈도우에 포함된 자료점들을

라고 하자. 이 윈도우의 중심개체는 인데 논의를 간단히 하기 위하여 우선

<도표 11>의 ①에서와 같이 왼 쪽과 오른 쪽에 각각 개의 개체를 두는 경우를 생각하기로 하고, 이렇게 생긴 개 점에

x x

1

x

2

≤  ≤ x

n

k j

y

x

i+j

,

i+j

), = 0 , ± 1 , , ±

( 

) , ( x

i

y

i

k

)

1

2

( = k +

K

(4)

라는 한 직선에 회귀시켜 에서 적합값을 구하기로 하자 이 때 회귀계수 와 를 어떻게 얻을 것인가?

방법은 보통 최소제곱법으로 알고 있고 을 최소화 하는 것

지금 우리의 관심사는(즉, 윈도우의 중심인 에서 적합값을 구하는 것)를 적절히 고려한 것이라 보기 어렵다.

이것 보다는 윈도우내의 개체 중에서 중앙에 가까울 수록 큰 가중치를 주는 것이 좋다.

즉, 윈도우내의 개체들

에 다음과 같은 가중치를 두는 것이 바람직

가중치를 각 개체에 부여한 다음 회귀계수 와 를 추정하기 위하여 적용할 수 있는 방법은 가중 최소제곱(weighted least squares : WLS)법이다.

즉, 을 최소화하여 윈도우 내에서의 회귀계수 와 를 구하자.

x i

x = a i

b i

)

2

(

i i j

k

k j

i j

i

a b x

y

+

= +

− −

x

i

x =

) ,

( , ), ,

( ), , ( ), ,

( , ), ,

( x i k y i kx i 1 y i 1 x i y i x i + 1 y i + 1x i + k y i + k

k

k w w w w

w ≤  ≤ 101 ≥  ≥

a i

b i

)

2

(

i j i i i j

k

k j

j

y a b x

w

+ +

=

∑ − a i b i

x b a

y = i + i

(5)

WLS의 해는

를 풀어 얻어질 수 있는데 이것을 간단히 행렬을 사용하여 표현 하면

가 된다. 여기서

이고 는 대각행렬 이다. 이렇게 하고 나서 최종적으로

에서의 적합값 를 그 점에서의 산점도 평활값 로 한다.

j i k

k j

j i

j i k

k j

k

k j

j i

j

a w x b w y

w

+

− + =

= =−

) + () =

(

j i k

k j

j i j i

j i k

k j

k

k j

j i

j i

j

x a w x b w x y

w

+

= +

− +

= + =−

) + () =

(

2

) (

)

( i ' i 1 i ' i

i

i X WX X Wy

b

a

 =

 

 

 

 

 

 

 

=

 

 

 

 

 

 

=

+

+

k i

i k i

i

k i

i k i

i

y y y

y

x x x

X

1 1 1

W diag ( w

k

,  , w

1

, w

0

, w

1

,  , w

k

) x

i

x = a

i

+ b

i

x

i

smooth

i

(6)

이제까지의 윈도우 안에 개의 개체가 포함되는 경우를 생각하였는 데 <도표 11>의

②에서 처럼 한 쪽의 자료점을 충분히 확보할 수 없는 경우는 어떻게 되는가?

이 때는 윈도우 내에서 쓸 수 있는 개체만을 활용하는 수 밖에 없다.

가중치의 부여방식은 앞에서와 동일하다.

가령 마지막 점 이 윈도우의 중앙이 되는 경우에는 윈도우 내의 개체들

각각에 가중치

가 부여된다. 그리고, 이 때 에서의 산점도 평활값은

이다. 여기서 과 은 윈도우 내에서의 자료로부터 계산되는 가중최소제곱 추정치 이렇게 하여 개체의 값을 중심으로 윈도우를 만들고 그 점에서의 선형 회귀 적합값을 가중최소제곱법을 사용하는 과정을 모든 개체에서 수행하면 개의 산점도 평활점

이 점들을 연결하면 자연스러운 곡선이의 형태가 표출 LOWESS(locally weighted regression scatterplot smoothing)방법 이라고 한다.

1 2 k +

) , ( x

n

y

n

) ,

( ), ,

( , ),

,

( x

nk

y

nk

x

n1

y

n1

x

n

y

n

0

1 w

w

w k ≤  ≤ x = x

n

n n n

n a b x

smooth = +

a n b n

x

n

) ,

( , ), ,

( ), ,

( x 1 smooth 1 x 2 smooth 2x n smooth n

(7)

LOWESS 방법에서 윈도우의 너비 를 너무 작게 잡으면 울퉁불퉁한 회귀곡선을 얻게 되고

LOWESS 방법에서 윈도우의 너비 를 너무 크게 잡으면 밋밋한 회귀곡선을 얻게 된다

처음시도에서는 너비 를 자료수 의 1/3에서 2/3 사이에서 잡는 것이 보통

미니탭의 매크로 기능과 활용

매크로(macro) : 어떤 계산의 반복시 사용하는 알고리즘을 한 서브루틴에 모아놓고 그것을 필요한 때마다 불러서 사용하는 것

확장자는 반드시 ‘mtb’로 저장

두 확률변수 과 가 각각 (-1, +1)구간에서 균일분포를 독립적으로 따를 때 확률변수 가 어떤 확률분포를 따르는지 모의 실험

(수학적 정답은 (-1, +1)에서의 대칭 삼각형 분포(symmetric triangular distribution)).

매크로를 이용하여 알아보자.

) 1 2 ( = k + K

) 1 2 ( = k + K

K n

X

1

X

2 2 / ) (

X

1

X

2

Y

= +

(8)

[미니탭의 활용]

‘시작 > 프로그램 > 보조프로그램 > 메모장’ ==>> ‘파일 > 저장’

‘MTB > let k1=1’을 수행하여 상수 k1을 초기값을 1로 지정 File > Other Files > Run an Exec…

파일 name의 확장자를 *.mtb

(9)

미니탭을 이용한 LOWESS 적용사례

자료는 자동차의 배기량과 연료효율에 관한 자료

이 자료를 이용하여 LOWESS방법을 적용하여 회귀곡선을 구하여 보자

준비작업 :

① 자료를 C2의 순서로 정렬(sort)한다

② 홀수 길이의 가중치 함수를 C4에 입력한다. 여기서는 다음과 같이 대칭 삼각형 가중치를 쓰기로 한다.

(예 : C4 = (1,2,3,…,9,10,9,…,3,2,1)’)

③ 자료길이의 1 벡터를 C5에, 0 백터를 C6에 만들어 넣는다.

④ 마지막으로 상수 k1=1로 놓는다.

(10)

자료(Data) 자료의 정렬 Data > Sort …

가중치 함수를 C4에 입력 Calc > Make Patterned Data > Arbitrary Set of Numbers…

(11)

C5에 자료길이의 1 벡터를, C6에 0 벡터 생성

Calc > Make Patterned Data > Arbitrary Set of Numbers…

배기량과 연료효율의 산점도

-

- x

32.0+

- x

C3 - x x x -

- x x x 24.0+ 3

- 2 x 2

- 2 2 2

- 7 x

- 24 xx x

16.0+ x x x x

- 4 2 x

- 2

- -

--+---+---+---+---+---+----C2 70 140 210 280 350 420

(12)

Session 창에서 ‘MTB> let k1=1’을 수행

File > Other Files > Run an Exec… 명령어 수행 [미니탭 매크로 Lowess.mtb 내용]

noecho

let k2=n(c4) let k4=1 let k5=n(c1)

let k6=k1-(k2-1)/2 let k7=k1+(k2-1)/2 copy k4 k6 c10

let k6=maximum(c10) copy k5 k7 c10

let k7=minimum(c10) copy c5 c11;

use k6:k7.

copy c2 c12;

use k6:k7.

copy c3 c13;

use k6:k7.

let k8=(k2+1)/2+(k6-k1) let k9=(k2+1)/2+(k7-k1) copy c4 c14;

use k8:k9.

copy c11 c12 M1 diagonal c14 M2 transpose M1 M3 multiply M3 M2 M4 multiply M4 M1 M5 multiply M4 c13 M6 invert M5 M7

multiply M7 M6 M8 copy M8 c15

let k10=c15(1)+c15(2)*c2(k1) let c6(k1)=k10

let k1=k1+1

echo

(13)

요약

☞ 산점도는 두 변수 사이의 관계를 효율적으로 보여 주는 그래프 수치요약은 불충분한 자료축약을 나타낼 수도 있다.

☞ 두 변수의 관계는 그 성격에 따라 두 종류로 분류

① 두 변수가 호환적(exchangeable)인 경우( 상관분석)

② 어떤 한 변수가 다른 한 변수에 의존적(dependent)인 관계의 경우 ( 회귀분석)

☞ 두 변수가 호환적인 경우, 산점도는 2변량 결합확률밀도함수의 추정치로 생각

확률밀도가 높은 영역에서 많은 자료점들이 조밀하게 찍히고 확률밀도가 낮은 영역 에서는 자료점들이 드문드문 찍히거나 전혀 찍히지 않는다.

☞ 산점도에서 관찰하여야 할 한가지 사항은 소수군집의 존재여부

소수군집이 존재한다면 왜 그런 군집이 생겼는지 그 이유를 탐구해야 함. 특이점도 소수군집의 한 예

☞ 원자료의 섭동을 통하여 숨어있는 자료점을 바깥에 드러나도록 할 수 있다. 해당 변량의 마지막 유의숫자의 단위를 s라고 할 때, 자료를 섭동 하는 방법은 구간 (-s/2,+s/2)에서 균일분포를 따르는 난수를 원자료 값에 붙여 주는 것이다.

섭동자료를 반올림(반내림)하면 다시 원자료값이 된다.

(14)

☞ 산점도를 작성할 때 가급적 가로와 세로의 크기를 같게 하고 적당한 크기의 좌우상하 여백을 두는 것이 좋다. 그러나, 시계열 자료의 플롯에서는 예외이다.

☞ 산점도 평활기법인 LOWESS는 비모수적 곡선형의 회귀관계를 자료 스스로가 보여주 도록 유도한다. 따라서, LOWESS를 비모수적 회귀 평활(non-parametric regression

smoother)라고 할 수 있다.

☞ 자료의 일부를 보여주는 창틀인 윈도우(window)는 국소적 패턴(local pattern)을

추정하기 위한 수단으로 사용된다. 윈도우내에서는 중앙에 가까운 관측개체에 상대적 으로 큰 가중치를 부여하고 중앙에서 먼 관측개체에는 상대적으로 작은 관측치를 부여한다. 가중 최소제곱 회귀 방법으로 한 윈도우의 중앙에서 적합값을 계산하게 되고 이러한 국소적 패턴을 종합하여 LOWESS 평활곡선이 만들어 진다.

☞ LOWESS 방법에서 윈도우의 너비 를 너무 작게 잡으면 울퉁불퉁한 회귀 곡선을 얻게 되고 반대로 너무 크게 잡으면 밋밋한 회귀곡선을 얻게 되므로 여러 개의 너비를 시도하여 보고 적당한 너비 를 선택하여야 한다. 자료수 의 1/3에서 2/3사이에서 처음 시도에서 쓸 너비 를 잡아보는 것이 보통이다.

) 1 2 ( = k + K

K n

K

(15)

☞ 미니탭의 매크로 기능을 사용하면 효율적으로 반복계산을 할 수 있다.

저장시 확장자를 mtb로 하여야 함.

File > Other Files > Run an Exec…를 실행

☞ 특이점의 탐색이 자료분석의 중요한 목적인 경우가 있으므로, EDA에서는 적합값 뿐만 아니라 잔차에도 관심을 두어야 한다는 것을 잊지 말자.

LOWESS 적합 후 잔차분석을 통하여 특이한 사항을 알아내자.

참조

관련 문서

지난 해 이후 오피스 임대시장 호황으로 오피스 빌딩은 꾸준히 높은 수요를 보이고 있는 가운데 공급과 매물이 수요에 못 미치면서 도심, 강남, 마포여의도 등 주요

그러나 중증 아토피피부염 여부에 가장 큰 영향을 주는 알레르기 유발 물질이 무엇인지 다변량 로지스틱 회귀 분석 결과, 곰팡이 중에서도 칸디 다 곰팡이에 대한

대기실이나 고사실, 또는 종료 후 대기 중인 친구나 지인에게 문제에 대한 연락을 하는 등 부정한 방법으로 정당한 입시업무의 진행을 방해해서는 안됩니다.. 만약 이러한 행위를 한

본 연구에서는 이러한 roll-to-roll printing 방식 중 그라비어 인쇄법을 선택하여 전도성 paste 를 이용한 전도성 패턴을 형성하 였다 전도성 필러로써.. Ag 에 유동성

이러한 정보가 직접적으로 또는 피험자와 연 결된 식별자(identifier)를 통해 피험자를 식 별할 수 없는 방법으로 기록된 경우...

1) Electric field는 electric charge에 의해서 만들어 진다. Magnetic charge는 존재하지 않는다. 그렇다면 무엇이 magnetic field를 만드는가?.. 2) 전자석의 경우처럼

이러한 척도는 가장 적절한 자료의 요약방법과 통계적 분석을 결정한다. 이러한 척도는 자료에

간단히 말해서 통계분석을 하는 이유는 주 관적인 판단을 피하고 객관적인 근거에서 자료를 판단하기 위한 것이다.. 그러므로 이 때는