• 검색 결과가 없습니다.

1.인자분석의 지리적 활용

N/A
N/A
Protected

Academic year: 2022

Share "1.인자분석의 지리적 활용"

Copied!
21
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

전 시간 : 도로망 등의 네트워크의 구조 분석

이번 시간부터 : 인자분석을 활용한 지역의 구조분석

1.인자분석의 지리적 활용

Q) 2학년 지리통계 시간에 다변량 해석에서 배운 분석기법을 말해보시오

1. 다변량분석 기법간의 차이점

1) 산포도(散布圖, 산점도(散点圖), scatter plot) 2) 상관분석(相關分析, correlation analysis) 3) 단회귀분석(單回歸分析, regression analysis)

4) 중회귀분석(重(多)回歸分析, analysis of multiple regression) 5) 인자분석(因子分析, factor analysis)

Q) 산포도란 무엇이며 몇 개의 변수를 이용하나?

⇒ 각 샘플에 대한 두 개의 변수 값을 X축, Y축에 plot한 것

⇒ 2개

1) 산포도

Q) 위 산포도를 통해 알 수 있는 내용은?

(2)

⇒ 하나의 변수가 크면 다른 한 변수도 크다.

⇒ 분포를 파악,

일정한 관계성의 유무 파악

⇒ 비례적 관계, 반비례적 관계, 무관계

Q) 다음 산포도에서 추가적으로 알고 싶은 내용은?

⇒ 직선적 관계에 대한 관계성의 정도에 대한 수치화

Q) 관계성의 정도를 수치로 나타내는 분석기법은 무엇이 있었나?

⇒ 상관분석, 또는 회귀분석

2) 상관분석

Q) 상관분석은 몇 개의 변수를 사용하나?

⇒ 2개

Q) 상관분석을 이용할 때 주로 사용되는 자료를 지리학에서는 무엇이라고 부르는 가?

⇒ 지리행렬

Q) 지리행렬의 행과 열에는 주로 어떤 속성들이 나열되나?

(3)

거리 인구 밀도

동대문구 2 1600

강남구 8 2000

강동구 9 1900

하남시 15 1400

용인시 20 1200

이천 23 1350

여주 25 900

상관계수

1 .965**

.000

16 16

.965** 1 .000

16 16

Pearson 상관계수 유의확률 (양쪽) N

Pearson 상관계수 유의확률 (양쪽) N

VAR00001

VAR00007

VAR00001 VAR00007

상관계수는 0.01 수준(양쪽)에서 유의합니다.

**.

⇒ 일반적으로 행에 지역 명,

열에 지역특성(거리, 인구밀도)

Q) 위 지리행렬을 가지고 상관분석을 하여 상관계수가 r = - 0.643를 얻었다면,

위수치는 앞서 살펴본 산포도(散布圖)와 어떤 점이 다른가?

⇒ 관계성의 유무 또는 관계의 정도를 수치로 표시

Q) 결정계수란 무엇이었나?

⇒ 다른 변수의 변동에 의한 설명량의 비율 r2(결정계수)로 표시한다.

Q) 다음은 SPSS 통계프로그램을 통해 얻은 상관분석의 결과표이다.

표를 읽어 보면?

(4)

⇒ 변수1과 변수7의 상관계수는 0.965이다.

두변수간의 상관성은 매우 높다.

하나의 변수가 증가하면 다른 한 변수도 증가하는 경향을 갖는다.

r = 0.965 r2= 0.931

Q) r = 0.8이면? 한 변수가 다른 한 변수의 몇% 설명력을 갖는가?

⇒ r2= 0.64이므로 64%이다.

Q) 산포도와 상관분석과의 차이점을 다시 정리해 보면?

⇒ 산포도 : 두변수의 관계를 그림, 시각적으로

두변수의 직선적 관계를 시각적으로 판단

⇒ 상관분석 : 두변수의 관계를 수치로

두변수의 직선적 관계가 나타날 때 수치로

⇒ 즉, 산포도를 통해 직선적 관계를 알아 본 후에 상관분석을 한다.

Q) 회귀 분석과 산포도 및 상관분석의 차이는 무엇일까?

(5)

3) 단회기분석

* 산포도에서 직선적 관계

* 2개의 변수 사용(종속변수(y), 독립변수(x))

⇒ 원인과 결과의 구분

⇒ 회귀식 즉 1차 방정식으로 나타낸다.

Q) 1차방정식이란 어떻게 표현하며 그 의미는?

즉, 1차 방정식을 푼다는 것은 상관계수 이외에 무엇을 구해낸다는 것일까?

* 두변수간의 관계 상태를 관계식(1차방정식)으로 표현

* Y = a + bX

⇒ 기울기와 절편을 구한다.

⇒ 플로트한 점에 관한 공변동의 평균적 경향 ⇒ 독립변수의 값을 적용하여 종속변수의 값을 예측

⇒ R2(결정계수) ; X변수에 의해 설명된 Y값의 변동(분산비율)

Q) 다음은 단회귀분석에 의한 SPSS의 결과이다.

결과를 식으로 표현하고 해석하면?

모형 요약

.965a .932 .927 34491323 모형

1

R R 제곱 수정된 R 제곱

추정값의 표준오차 예측값: (상수), VAR00001

a.

계수a

26777125 15800902 1.695 .112 1.792 .130 .965 13.805 .000 (상수)

VAR00001 모형

1

B 표준오차

비표준화 계수

베타 표준화 계

t 유의확률

종속변수: VAR00007 a.

(6)

⇒ Y= 26,777,125 +1.792X1 R2 = 0.927

Q) 이때 기울기의 의미는?

⇒ X변수가 한 단위 증가할 때, Y변수가 증가하는 양.

Q) 회귀분석이 산포도나 상관분석에서 얻을 수 없는 새로운 정보는 무엇인가?

⇒ 원인과 결과, 기울기.

즉, 결과에 대한 원인과의 경향이다.

회귀분석은 경향파악 이외에도 예측이나,

잔차를 이용한 평균적 경향에 대한 샘풀의 분포를 파악할 수도 있다.

Q) 그럼에도 불구하고 회귀분석의 결과가 의미를 가지지 못하는 경우는 어떤 경우 일까? 그럴 땐 어떤 방법이 좋을까?

⇒ R2 의 값이 작을 때,

즉 R = 0.7이면 R2 = 0.49 즉 X 변수는 Y의 원인(요인)을 49%만 설명하고 있다.

Q) 이때 나머지 51%를 설명할 수 있는 다른 요인을 알고자 한다면 어떤 방법이 유 효할까?

(7)

(Y) (X1) (X2) (X3) (X4) (X5)

인구밀도 거리 아파트

세대수

단독주택

세대수 소득 주간인구

동대문구 강남구 강동구 하남시 용인시

⇒ 중다회기분석 (설명)

* 단회귀에서 설명되지 않은 부분(1-r2)을 다른 변수로 설명할 수 있다.

* Y = a +b1X1+ b2X2 +b3X3

* 다수의 독립변수로부터 중요도에 따른 Y변동의 요인을 찾아낸다.

* 따라서 회귀분석을 요인분석이라고도 부른다.

Q) 단회기의 방정식이 기울기와 절편을 구한다고 한다면 중회귀분석은 무엇을 구하는 것일까?

⇒ 정수(절편)와 편회귀계수, 표준편회기계수 등을 계산 ⇒ 2개 이상의 독립변수(x)와 종속변수(y)와의 관계 ⇒ 독립변수의 값을 적용하여 종속변수의 값을 예측

Q) 다음 행렬의 중회귀 분석의 결과가 Y = 50 - 5X1 +3X2 -2X5 라면 이 식을 해석하면?

(8)

⇒ 거리=10, 아파트세대 =10 주간인구=10 일 때 인구밀도=10명/㎢

Q) 다음 SPSS 중회귀분석의 결과(모형 2)를 식으로 표현하면?

모형 요약c

.965a .932 .927 34491323 .932 190.590 1 14 .000 .999b .998 .997 6437973.8 .066 388.836 1 13 .000 모형

1 2

R R 제곱 수정된 R 제곱

추정값의

표준오차 R 제곱 변화량 F 변화량 자유도1 자유도2

유의확률 F 변화량 통계량 변화량

예측값: (상수), VAR00001 a.

예측값: (상수), VAR00001, VAR00004 b.

종속변수: VAR00007 c.

계수a

26777125 15800902 1.695 .112

1.792 .130 .965 13.805 .000 .965 .965 .965 1.000 1.000 3443542.4 3177842.1 1.084 .298

1.000 .047 .539 21.312 .000 .965 .986 .278 .267 3.749 1.021 .052 .498 19.719 .000 .959 .984 .257 .267 3.749 (상수)

VAR00001 (상수) VAR00001 VAR00004 모형

1

2

B 표준오차 비표준화 계수

베타 표준화 계

t 유의확률 0차 편 부분 상관계수

공차한계 VIF 공선성 통계량

종속변수: VAR00007 a.

(9)

(Y) (X1) (X2) (X3) (X4) (X5) • • • 인구

밀도 거리 아파트세

대수

단독주택

세대수 소득 주간

인구 동대문구

강남구 강동구 하남시 용인시 이천시 여주군

산포도 원인결과 없음

두 개 변수 사용 사용안함

상관분석 원인결과 없음

두 개 변수 사용 사용안함

단 회귀분석원인(X), 결과(Y) 지정

두 개 변수 사용 사용안함

중 회귀분석

결과로 지정

(Y) 설명변수(X)로 사용

원인 추출 선택 선택 선택

? 전부 동등하게 사용 할 수 없을까?

⇒ Y = 3,443,542 +1[0.539]X1 + 1.021[0.498]X2 R2 =0.997

Q) 중 회귀분석과 단 회귀분석의 차이점과 공통점은?

⇒ 차이점 : 설명변수(독립변수)의 개수의 차이

⇒ 공통점 : 결과와 원인으로 구분

입력한 변수 중에서 결과와 요인으로 구분

→ 단회기, 중회기에서는 연구자의 의도에 의한 설명변수(독립)와 피설명변 수(종속)를 결정하고, 종속변수(Y)를 제외한 나머지 변수에서 요인변수를 찾 아낸다.

→ 즉, 요인은 독립변수명이 그대로 사용된다.

Q) 지리행렬로 위 내용을 정리 해 보면?

(10)

산포도, 상관분석 : 인구밀도와 거리의 관계 단회귀 분석 : 인구밀도와 거리의 관계

Y를 피설명변수(결과) + X를 설명변수(원인) X 변수가 요인으로 지정되어 있음

중회귀분석 : 인구밀도에 대한 다수 원인의 해법

Y를 피설명변수(결과) + X1~Xm 중 몇 개의 설명변수(원인) X1~Xm 중 어떤 조합관계로 나올지는 미지수

Q) 이와 같이 산포도, 상관분석, 단회귀, 는 지리행렬의 일부를 사용한다.

중회귀분석기법은 변수를 다 이용은 하지만 Y 변수를 지정하여야한다.

수집된 인구밀도 변수 ~ m개의 변수를 모두 동등한 입장에서 사용하여 요인을 분석해 내는 방법이 없을까?

⇒ 그 해답이 인자분석 또는 주성분분석이다.

5)주성분 및 인자분석

5-1) 주성분분석과 인자분석

* 주성분(인자)분석은 상관되어 있는 많은 변수들 가운데 상관관계가 높은 (공변동 하는) 변수들을 동질적으로 몇 개의 집단으로 묶어 냄으로서 자료의 복잡성을 줄이고 변수들 내에 존재하는 상호독립적인 특성을 밝히는 기법.

- 이때 묶어낸 집단 하나 하나가 주성분(인자)가 되며 그 주성분(인자)의 이 름을 재설정(인자명)한다.

(11)

(Y) (X1) (X2) (X3) (X4) (X5) • • • 인구

밀도 거리 아파트세

대수

단독주택

세대수 소득 주간

인구 동대문구

강남구 강동구 하남시 용인시 이천시 여주군

산포도 원인결과 없음

두 개 변수 사용 사용안함

상관분석 원인결과 없음

두 개 변수 사용 사용안함

단 회귀분석원인(X), 결과(Y) 지정

두 개 변수 사용 사용안함

중 회귀분석

결과로 지정

(Y) 설명변수(X)로 사용

원인 추출 선택 선택 선택

?

전부 동등하게 사용 할 수 없을까?

선택 1 선택1

선택2 선택2 선택2

Q) 예를 들어 기차역 대합실 내에 걸린 여러 개의 시계가 있고 정확한 기차 출발시간이 있다고 하자!

- 이 예를 단 회귀분석으로 풀이하면?

- 이 예를 중 회귀분석으로 풀이하면?

- 이 예를 인자분석으로 풀이한다면?

(12)

- 단 회귀분석 : 정확한 실제 시간을 Y로 놓고 대합실의 임의 시계를 X로 하여, 선택된 시계의 시간은 실제 시간의 어느 정도를 설명하는가? 를 판단 하는데 적당하다. 즉, 기차의 출발시간(Y), 다른 벽시계(X1, X2, X3…)중 어 느 것이 정확한 시간을 대변해 주는 시계인가? 를 찾는 방법이다.

- 중회기 ; 100% 정확한 시계가 없다면 기차의 출발시간(Y), 다른 벽시계 (X1, X2, X3…)중 어느 조합(예: 평균?)이 정확한 시간을 대변해 주가? 를 찾는 방법에 적당하다.

- 인자분석 ; 실제 시간을 포함한 모든 시계들에 대해서 서로 다른 시간을 나타내는 태협의 구조에서 원인을 찾아내고, 그 유사한 원인들의 조합으로 구성된 요인을 찾아내는 결과가 된다. 즉 공통원인의 조합별로 가능성의 차 이가 나타난다.

Q) 하나의 뿌리에서 나온 줄기가 여러 개의 가지를 치고, 각각 가지마다 각 각 다른 종류의 열매가 열리는 나무를 상상해 보자

그림에서 단 회귀분석, 중 회귀분석, 인자분석을 구분해서 이야기 해보면?

(13)

- 단회귀 ; 임의의 열매(Y)은 어느 가지(X1, X2, X3…)의 영향을 많이 받 는가?

즉, 가시 달린 귤의 요인은 X7 가지가 원인이다.

- 중회기 ; 임의의 열매(Y)은 어느 가지(X1, X2, X3…)의 영향을 많이 받 는가?

즉, 포도 모양의 단감(Y6)은 X1 가지와 X2 가지의 조합으로 설명할 수 있 다.

- 인자분석 ; 열린 모든 열매의 패턴을, 줄기(열에 나열된 변수)를 찾기보 다는 줄기를 형성하는 이유, 어떤 모양과 구조를 가진 눈에 보이지 않는 뿌 리의 조합(인자)이 존재하는가? 를 찾는 것. 눈에 보이지 않는 요인들로 결 합된 인자라는 이름으로 밝혀내는 것이다.

즉 배, 밤, 귤, 포도, 가시달린 귤, 포도모양의 단감을 이루는 가장 큰 요인 은 ‘모양’이고, 그 다음은 ‘맛,’ 그 다음은 ‘가시’이다 로 해답을 얻는다.

모양, 맛, 가시 등은 땅속에 감추어져 있어 눈으로 보기 힘들다.

(14)

과 배

복 숭 아

수 박

자 두

론 귤

오 렌 지

키 위

포 도

망 고

토 마 토

말자 4 5 6 6 5 8 1 1 2 2 6 4

숙자 7 6 8 3 10 1 8 9 4 6 2 3

화자 4 5 3 9 2 6 4 2 1 5 4 7

길자 순자

영자 (생 략)

2. 인자(주성분)의 의미와 인자축의 설정

1) 다음과 같은 설문조사

(1) 다음의 과일에 대하여 좋아하는 정도를 10점 만점으로 표시하라!

(2) 대상과일 ; 사과 배 복숭아 수박 자두 메론 귤 오렌지 키위 포도 (3) 설문지 대상자 ; 말자 숙자 화자 길자 영자…

(4) 설문 결과 예시

Q) 위 행렬 중 말자와 숙자의 관계를 2차원 상에 분포로 표현하면?

(15)

말 자

10 9 8 메론

7 망고

6 수박 배 복숭

5 자두

4 토마

토 사과

3

2 키위 포도

1 귤 오렌

1 2 3 4 5 6 7 8 9 10

숙자

Q) 위 분포에서 말자와 숙자에 의한 과일의 분포를 가장 잘 설명할 수 있는 직선(축)은 무엇일까?

* 축을 설정한다는 것은?

- 볼펜의 모양을 하나의 선으로 가장 많이(잘) 설명한다면?

- 책을 두 개의 선으로 표현하면?

단 두 번째 선은 첫 번째 선과 직각을 이룬다. 라면?

- 내가 서있는 모양을 서로 직각인 3개의 선으로 표현하면?

- 내 몸이 여러 개의 점으로 이루어진 분포라면, 이때 3개의 선의 길이는 모양의 무엇을 나타내는가?

(16)

말 자

10 9 8 메론

7 망고

6 수박 배 복숭아

5 자두

4 토마토 사과

3

2 키위 포도

1 귤 오렌지

1 2 3 4 5 6 7 8 9 10

숙자

→ 메론∼오렌지에 이르는 가상 축을 발견

→ 이 가상 축은 과일의 분포상태를 가장 많이 설명하는, 즉 최대 분산을 나타내는 축이다

Q) 이 축을 제1인자(주성분 분석에서는 제1 주성분) 이라 부른다.

이 축은 무엇에 의해 점수가 주어졌는가?

즉, 샘플(말자, 영자…)들의 취향은 무엇일까?

여기서는 Q-mode 방법(행간의 관계분석)을 사용였다.

(17)

⇒ 이 축에 따라 수직으로 과일의 배치를 재 정렬하면?

(그림)

메론 망고 수박

토마토 배

복숭아, 키위

사과 포도 자두

귤 오렌지

→ 메론>망고>수박>토마토>배>복숭아=키위>사과>포도>자두>귤>오렌지

Q) 이런 서열에서 읽어낼 수 있는 인자(요인, 과일명이 아닌 다른 정의는 무 엇일까?

(18)

단맛∼신맛, 즉 단 과일을 좋아하고(높은 점수) 신 과일을 싫어하는(낮은 점수)를 준

말자와 숙자의 공통된 요인(인자)을 찾아낼 수 있다

Q) 그렇다면 말자와 숙자의 공동 요인인 제1축에 이름(인자 명)을 붙인다 면?

⇒ 제 1인자를 “맛” 이라 명명한다. 즉 설문 대상이 된 사람들이 과일의 선 호도를 결정하는 공통인자로서 “맛”이라는 인자가 첫 번째 인자로 판명되었 다

즉, 제 1인자인 ‘맛’은 과일 분포의 가장 많은 분산을 설명한다.

Q) 다음은 제1인자인 “맛”인자 이외에 다른(독립적인) 어떤 인자(취향)는 존 재할까? 존재한다면 그것을 찾는 다른 방법은 무엇일까?

(조건)

- 두 번째 인자의 존재는 제1인자(맛)와는 독립적으로 형성되는 인자를 의 미한다.

- 독립적 인자는 제1인자 축에 대하여 수직(직각)의 방향을 가지며 직선적 인 하나의 축을 형성한다.

(19)

말 자

10 9 8 메론

7 망고

6 수박 배 복숭아

5 자두

4 토마토 사과

3

2 키위 포도

1 귤 오렌지

1 2 3 4 5 6 7 8 9 10

숙자

⇒ 제2인자 축의 모양은 다음과 같다.

→ 자두∼키위 로 형성되는 가상 축 발견

Q) 제2축에 과일의 배치를 해 보면?

⇒ 좋아하는 순서대로

자두>복숭아>배>사과>오렌지=수박=메론=망고>귤>포도>토마토>키위 Q) 위 결과로 제2인자 명을 찾아내면?

(20)

⇒ 딱딱함을 좋아하고 부드러운 과일을 싫어하는 요인으로 과일의 “강도” 이다

Q) 이와 같은 방법으로 앞서 설문결과에서 다른 3,4,5...인자((취향)를 예측 해보면?

⇒ 크기, 색, 모양이나 형태 등등...

→ 이러한 인자는 주성분/인자 분석에서는 변수수와 동일한 N개 까지 추출 가능하다.

→ 그러나 통상 앞의 주요 인자를 중심으로 해석한다. 이때 추출되는 인자 수를 공통인자라고 한다.

(21)

(Y) (X1) (X2) (X3) (X4) (X5) • • • 인구

밀도 거리 아파트세

대수

단독주택

세대수 소득 주간

인구 동대문구

강남구 강동구 하남시 용인시 이천시 여주군

산포도 원인결과 없음

두 개 변수 사용 사용안함

상관분석 원인결과 없음

두 개 변수 사용 사용안함

단 회귀분석원인(X), 결과(Y) 지정

두 개 변수 사용 사용안함

중 회귀분석

결과로 지정

(Y) 설명변수(X)로 사용

원인 추출 선택 선택 선택

인자분석

전체 열의 특성을 동등하게 사용 한다 1인자를

설명하는 힌트

1인자 1 1

2인자의

힌트 2 2

3인자의

힌트 3 3 3

4인자 힌트 오늘 배운 내용은 인자분석을 이해하기 위하여

지리통계학에서 배운 다른 분석 기법과의 차이점을 중심으로 알아보았다.

이를 정리하면 다음과 같다.

참조

관련 문서

③ 분자가 반응하기 위해서는 반드시 충돌이 필요하며 그 충돌은 분자가 활성화에너지 이상 의 에너지를 갖고 화학적 반응에 필요한 방향이 알맞을 때 반응을 일으킬

따라서 계산

재무제표

Crossing 여러 운전자가 여러 세그멘트 사이에 택할 수 있는 지리적 교차점 Crossing 여러 운전자가 여러 세그멘트 사이에 택할 수 있는 지리적 교차점 Destination

- 축산업으로 인한 환경부담을 낮추고, 사회로부터 인정받아야 중장기적으로 축산업 성장 가능 - 주요과제: 가축분뇨 적정 처리, 온실가스 저감, 축산악취 저감

Our analysis has shown that automation is already widespread among both domestic and foreign investors in Vietnam, and that both groups plan to continue investing

이는 아직 지부지사에서 확인 및 승인이 완료되지 않은 상태. 지부지사에서 보완처리 및 승인처 리 시

본 융합인재교육(STEAM) 프로그램 활용 가이드북은 우선 융합인재교육(STEAM)을 이해하도록 하였 으며, 그동안 한국과학창의재단에서 개발하여 보급한 <STEAM 아웃