• 검색 결과가 없습니다.

1 1) 다변량분석 (Multivariate analysis)

N/A
N/A
Protected

Academic year: 2022

Share "1 1) 다변량분석 (Multivariate analysis)"

Copied!
10
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

1

- 많은 변수를 가진 데이터에 대한 분석 1) 다변량분석 (Multivariate analysis)

(2)

2

- 여러 변수들의 변량을 ‘주성분(principal component)’이라고 함 - 서로 상관성이 높은 여러 변수들의 선형조합

- 새로운 변수들로 요약, 축소하는 기법

- 첫번째 주성분은 전체 변동을 가장 많이 설명할 수 있도록 하고 두번째 주성분은 첫번째 주성분과는 상관성이 없으며, 첫번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실없이 가장 잘 설명할 수 있도록 변수들의 선형조합을 만듦

- 주성분분석, 요인분석은 다변량통계-> 차원 축소 2) 주성분(Principal component)이란…

- 여러 변수들 간에 내재하는 상관관계, 연관성을 이용하여 소수의 주성분 또는 요인으로차원을 축소함으로써 데이터를 쉽고 관리하기 쉽게 해주는 통계방법 3) 주성분분석(principal component analysis),

요인분석(factor analysis)은 왜 하는가…

(3)

3

- 회기분석이나 의사결정나무(decision tree) 등의 모형 개발 시, 입력변수들간의 상관관계가 높은 다중공선성(multicollinearity)이 존재할 경우 모형이 잘못 만들어지고 따라서 해석에 문제 생김

-> 해결방안으로상관도가 높은 변수들을 하나의 주성분 또는 요인으로 축소하여 모형개발에 활용

3) 주성분분석(principal component analysis), 요인분석(factor analysis)은 왜 하는가…

- 연관성이 높은 변수 간주성분 또는 요인분석을 통해 차원을 축소 후, 군집분석을 수행하면, 군집화 결과 또는 시계열 분포나 추세의 변화 분석이 용이

3) 주성분분석(principal component analysis), 요인분석(factor analysis)은 왜 하는가…

(4)

4

- 아래 그림에서 같이 2차원 좌표평면에 n개의 점 데이터 (x1, y1), (x2, y2), …. (xn, yn)들이 타원형으로 분포 시,

->이들 데이터들의 분포 특성을 2개의 벡터로 가장 잘 설명위해서는 e1의 방향과 크기, e2의 방향과 크기 알면 데이터 분포의 형태를 단순하고 효과적으로 파악할 수 있음

1) 주성분(Principal component)

: 그 방향으로 데이터들의 분산이 가장 큰 방향 벡터를 의미 : e1 방향을 따라 데이터들이 분산(흩어진 정도)이 가장 큼 : e2 방향은 다음으로의 데이터들 분산이 가장 큰 방향 임 1) 주성분(Principal component)

(5)

5

- 고유벡터는 정방행렬에서만 가능

- 고유벡터에 대한 스케일 처리는 고유벡터의 방향에 영향 미치지 않음

예) 두 점 (2, 3), (2, 1) 2) 고유벡터와 고유값

- PCA 알기 위해서는 공분산 행렬(covariance matrix) 알아야 함 x와 y의 공분산(covariance) 식

mx는 x의 평균 my는 y의 평균 E[]는 기대값(평균) 3) PCA 계산

(6)

6

- 공분산 행렬(covariance matrix)

: 데이터의 좌표 성분들 사이의 공분산 값을 원소로 하는 행렬 : 데이터의 i번째 좌표성분과 j번째 좌표성분의 공분산 값을

행렬의 i행j열 원소값으로 하는 행렬

: 예) 2차원 데이터 n개 (x1, y1), (x2, y2), …, (xn, yn) 있다면, 공분산 행렬은

3) PCA 계산

- 공분산 행렬(covariance matrix) 3) PCA 계산

(7)

7

- PCA는 입력데이터들의 공분산 행렬(covariance matrix)에 대한 고유값분해(eigen-decomposition)으로 볼 수 있음

이때 나오는 고유벡터가 주성분 벡터로 데이터의 분포에서 분산이 큰 방향을 나타내고, 대응되는 고유값(eigenvalue)이 분산 크기 나타냄 3) PCA 계산

(8)

8

- 예) 한국신용평가정보에서 나온 '국내 증권회사의 주요 재무제표' (2007.3.31 기준)를 가지고 주성분분석

-> 데이터는 18개 증권사별로 V1.총자본순이익율, V2.자기자본순이익율, V3.자기자본비율, V4.부채비율, V5.자기자본회전율 재무지표 변수로 구성

3) PCA 계산

Variable Observations Obs. with missing data Obs. without missing data Minimum Maximum Mean Std. deviation

한식 44 0 44 2.000 5.000 4.318 0.800

맛 44 0 44 2.000 5.000 4.273 0.788

향 44 0 44 2.000 5.000 3.909 1.096

한식 색상 44 0 44 1.000 5.000 4.159 0.963

국물요리(찌개,탕..) 44 0 44 2.000 5.000 4.273 1.020

김치류, 무침류 44 0 44 2.000 5.000 4.000 0.915

일품식(비빔밥 등) 44 0 44 1.000 5.000 4.091 1.096

구이, 찜(불고기, 갈비 등) 44 0 44 3.000 5.000 4.614 0.618

음청류, 떡, 과일류 등 44 0 44 2.000 5.000 4.159 0.987

길거리 음식(떡볶이, 순대 등) 44 0 44 2.000 5.000 4.432 0.846

Correlation matrix (Pearson (n)):

Variables 한식 맛 향 한식 색상국물요리(찌개,탕..)김치류, 무침류일품식(비빔밥 등)구이, 찜(불고기, 갈비 등)음청류, 떡, 과일류 등길거리 음식(떡볶이, 순대 등)

한식 1 0.891 0.750 0.536 0.290 0.635 0.390 0.301 0.170 0.136

0.891 1 0.810 0.707 0.339 0.677 0.374 0.221 0.092 0.238

0.750 0.810 1 0.631 0.231 0.696 0.549 0.359 0.336 0.194

한식 색상 0.536 0.707 0.631 1 0.192 0.343 0.427 0.301 0.340 0.313

국물요리(찌개,탕..) 0.290 0.339 0.231 0.192 1 0.399 0.081 0.134 0.187 0.265

김치류, 무침류 0.635 0.677 0.696 0.343 0.399 1 0.394 0.206 0.077 0.240

일품식(비빔밥 등) 0.390 0.374 0.549 0.427 0.081 0.394 1 0.499 0.395 0.233

구이, 찜(불고기, 갈비 등)0.301 0.221 0.359 0.301 0.134 0.206 0.499 1 0.446 0.638

음청류, 떡, 과일류 등0.170 0.092 0.336 0.340 0.187 0.077 0.395 0.446 1 0.306

길거리 음식(떡볶이, 순대 등)0.136 0.238 0.194 0.313 0.265 0.240 0.233 0.638 0.306 1 Values in bold are different from 0 with a significance level alpha=0.05

(9)

9

Principal Component Analysis:

Eigenvalues:

F1 F2 F3 F4 F5 F6 F7 F8 F9 F10

Eigenvalue 4.605 1.662 1.052 0.764 0.686 0.445 0.384 0.213 0.153 0.038

Variability (%) 46.048 16.619 10.518 7.637 6.864 4.445 3.836 2.127 1.527 0.377

Cumulative % 46.048 62.668 73.186 80.823 87.687 92.132 95.968 98.096 99.623 100.000

Eigenvectors:

F1 F2 F3 F4 F5 F6 F7 F8 F9 F10

한식 0.385 -0.274 -0.050 -0.060 0.023 -0.400 -0.403 -0.434 -0.167 -0.480

맛 0.405 -0.310 0.011 -0.123 0.227 -0.040 -0.104 -0.198 0.140 0.776

향 0.412 -0.148 -0.190 0.056 -0.072 -0.160 0.193 0.437 0.675 -0.234

한식 색상 0.346 -0.007 -0.192 0.063 0.645 0.436 0.066 0.253 -0.353 -0.200

국물요리(찌개,탕..) 0.194 -0.037 0.750 0.457 -0.073 0.255 -0.308 0.111 0.098 -0.050

김치류, 무침류 0.344 -0.252 0.209 -0.105 -0.448 -0.050 0.551 0.127 -0.489 0.023

일품식(비빔밥 등) 0.301 0.211 -0.381 0.064 -0.498 0.590 -0.146 -0.304 0.078 0.008

구이, 찜(불고기, 갈비 등)0.258 0.520 0.008 -0.315 -0.148 -0.240 -0.436 0.473 -0.216 0.155

음청류, 떡, 과일류 등0.200 0.459 -0.143 0.667 0.087 -0.381 0.254 -0.190 -0.097 0.145

길거리 음식(떡볶이, 순대 등)0.213 0.466 0.391 -0.453 0.208 0.063 0.332 -0.370 0.248 -0.154 0

20 40 60 80 100

0 1 2 3 4 5

F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 Cumulative variability (%)

Eigenvalue

axis Scree plot

(10)

10

참조

관련 문서

개념원리 중학수학을 통해 개념과 원리를 정확히 이해하고 문제를 통해 체험하므로 개념과 원리를 확실히 이해하게 됩 니다.. 그 다음 단계는 개념원리 익힘책인 RPM을 통해

즉 사각형 ABCD가

③ 분자가 반응하기 위해서는 반드시 충돌이 필요하며 그 충돌은 분자가 활성화에너지 이상 의 에너지를 갖고 화학적 반응에 필요한 방향이 알맞을 때 반응을 일으킬

따라서 계산

이러한 위기와 지각 변동을 겪으며 기업들은 새로운 경쟁구도로 재편되는데 , 시장선도자와 후발주자 간 순위의 변화에서부터 산업의 경쟁구도가 새로운

나는 우리 집에 많은 로봇을 가지고 있어.. 나는 애완동물 두

재무제표

홈페이지 또는 모바일 앱을 통해 위치 정보 제공 여부를 선택할 수 있으며 위치기반 동의를 하지 않은 경우도 출퇴근 버튼 사용이 가능합니다.. 만일 학적 변동을