• 검색 결과가 없습니다.

지역의 구조 분석

N/A
N/A
Protected

Academic year: 2022

Share "지역의 구조 분석"

Copied!
44
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

인자분석을 활용한 지역의 구조 분석

건국대학교 지리학과

「교통지리학 및 실습」

(2)

Q ) 2학년 지리통계 시간에 배운 다변량 분석기법을 말해보시오.

(3)

1)

산포도 (散布度, 산점도(散点圖), scatter plot)

2)

상관분석 (相關分析, correlation analysis)

3)

단회귀분석 (單回歸分析, regression analysis)

4)

중회귀분석 (重(多)回歸分析, analysis of multiple regression)

5)

인자분석 (因子分析, factor analysis)

(4)

Q ) 산포도란 무엇이며 몇 개의 변수를 이용하나?

1) 산포도

■ 산포도

: 각 샘플에 대한 두 개의 변수 값을X축, Y축에 plot 한 것

■ 2개의 변수를 이용

(5)

Q ) 다음 산포도를 통해 알 수 있는 내용은?

1) 산포도

■ 하나의 변수가 크면 다른 한 변수도 크 다.

■ 분포 파악, 일정한 관계성의 유무 파악

■ 비례적 관계, 반비례적 관계, 무관계

(6)

Q ) 다음 산포도에서 추가적으로 알고 싶은 내용은?

1) 산포도

직선적 관계에 대한 관계성의 정도를 수치

Q ) 분석기법은? 상관분석,

또는 회귀분석

(7)

Q) 상관분석은 몇 개의 변수를 사용하나?

Q) 상관분석을 이용할 때 주로 사용되는 자료를 지리학에서는 무엇이라고 부르는가?

2) 상관분석

2개

지리행렬

(8)

Q) 지리행렬의 행과 열에는 주로 어떤 속성들이 나열 되나?

2) 상관분석

일반적으로 행에 지역 명, 열에 지역특성

(거리, 인구밀 도)

< 지리행렬의 예 >

(9)

Q) 위 지리행렬을 가지고 상관분석을 하여 상관계수가 r = - 0.643를 얻었다면,

위 수치는 앞서 살펴본 산포도(散布圖)와 어떤 점이 다른가?

2) 상관분석

■ 상관분석

: 관계성의 유무 또는 관계의 정도 를

수치로 표시

(10)

Q) 결정계수란 무엇이었나?

2) 상관분석

다른 변수의 변동에 의한 설명량의 비율

r² (결정계수)로 표시

(11)

Q) 다음은 SPSS 통계프로그램을 통해 얻은 상관분석의 결과표이다. 표를 읽어 보면?

2) 상관분석

■ 변수1과 변수7의 상관계수는 0.965이다.

■ 두 변수간의 상관성은 매우 높다.

■ 하나의 변수가 증가하면 다른 한 변수도 증가하는 경향을 갖는다.

(r = 0.965, r²= 0.931)

(12)

Q) r = 0.8이면?

한 변수가 다른 한 변수의 몇% 설명력을 갖는가?

2) 상관분석

r²= 0.64이므로 64%이다.

(13)

Q) 산포도와 상관분석과의 차이점을 다시 정리해 보면?

2) 상관분석

산포도

두 변수의 직선적 관 계를

그림, 시각적으로 판 단

상관분석

두 변수의 직선적 관계가 나타 날 때 그 관계를 수치로 나타냄

→ 즉, 산포도를 통해 직선적 관계를 알아본 후에 상관분석을 한다.

(14)

Q) 회귀 분석과 산포도 및 상관분석의 차이는 무엇 일까?

3) 단회귀분석

■ 산포도에서 직선적 관계

■ 2개의 변수 사용(종속변수(y), 독립변수 (x))

→ 원인과 결과의 구분

→ 회귀식, 즉 1차 방정식으로 나타

낸다.

(15)

Q) 1차 방정식이란 어떻게 표현하며 그 의미는?

즉, 1차 방정식을 푼다는 것은 상관계수 이외에 무엇을 구해낸다는 것 일까?

3) 단회귀분석

■ 기울기와 절편을 구한다.

■ 플로트한 점에 관한 공변동의 평균적 경향

■ 독립변수의 값을 적용하여 종속변수의 값을 예측

■ R²(결정계수)

: X변수에 의해 설명된 Y값의 변동(분산비 율)

Y = a + bX

두 변수간의 관계 상태를 관계식(1차방정식)으로

표현

(16)

Q) 다음은 단회귀분석에 의한 SPSS의 결과이다.

결과를 식으로 표현하고 해석하면?

3) 단회귀분석

Y = 26,777,125 +1.792X1

R² = 0.927

Q ) 이 때 기울기의 의미 는?

X변수가 한 단위 증가할

때, Y변수가 증가하는 양.

(17)

Q) 산포도나 상관분석에서 얻을 수 없는 회기분석의 새로운 정보는 무엇인가?

3) 단회귀분석

원인과 결과, 기울기. 즉, 결과에 대한 원인과의 경향이 다.

회귀분석은 경향파악 이외에도 예측이나,

잔차를 이용한 평균적 경향에 대한 샘플의 분포를 파악할 수

도 있다.

(18)

Q) 그럼에도 불구하고 회귀분석의 결과가 의미를 가지지 못하는 경우 는

어떤 경우 일까? 그럴 땐 어떤 방법이 좋을까?

3) 단회귀분석

R² 의 값이 작을 때, R = 0.7이면 R² = 0.49,

즉 X 변수는 Y의 원인(요인)을 49%만 설명하고 있다.

Q) 이때 나머지 51%를 설명할 수 있는 다른 요인을 알고자 한다면 어떤 방법이 유효할까?

(19)

Y = a + b₁X1 + b₂X2 + b₃X3

단회귀에서 설명되지 않은 부분(1-r²)을 다른 변수로 설명할 수 있다.

다수의 독립변수로부터 중요도에 따른 Y변동의 요인을 찾 아낸다.

4) 중회기분석

→ 따라서 회귀분석을 요인분석이라고도 부른다.

(20)

Q) 단회기의 방정식이 기울기와 절편을 구한다고 한다면 중회귀분석은 무엇을 구하는 것일까?

4) 중회기분석

■ 정수(절편)와 편회귀계수, 표준 편회기계수 등 을 계산

■ 2개 이상의 독립변수(x)와 종속변수(y)와의 관 계

■ 독립변수의 값을 적용하여 종속변수의 값을 예

(21)

Q) 다음 행렬의 중회귀 분석의 결과가

Y = 50 - 5X₁ + 3X₂ - 2X

5

라면, 이 식을 해석하면?

4) 중회기분석

거리=10, 아파트세대 =10 주간인구=10 일 때,

인구밀도=10명/㎢

(22)

Q) 다음 SPSS 중회귀분석의 결과(모형 2)를 식으로 표현하 면?

4) 중회기분석

Y = 3,443,542 +1[0.539]X₁ +1.021[0.498]X₂

R² = 0.997

(23)

Q) 중 회귀분석과 단 회귀분석의 차이점과 공통점은?

4) 중회기분석

■ 입력한 변수 중에서 결과와 요인으로 구분

→ 단회기, 중회기에서는 연구자의 의도에 의한

설명변수(독립)와 피설명변수(종속)를 결정하고,

종속변수(Y)를 제외한 나머지 변수에서 요인변수를 찾 아낸다.

→ 즉, 요인은 독립변수명이 그대로 사용된다.

• 결과와 원인으로 구분 공통점

• 설명변수(독립변수)의 개수의

차이점 차이

(24)

Q) 지리행렬로 지금까지의 내용을 정리 해 보면?

4) 중회기분석

(25)

(1)

산포도, 상관분석

: 인구밀도와 거리의 관계

(2)

단회귀분석

: 인구밀도와 거리의 관계

Y를 피설명변수(결과) + X를 설명변수(원인) X 변수가 요인으로 지정되어 있음

(3)

중회귀분석

: 인구밀도에 대한 다수 원인의 해법

Y를 피설명변수(결과) + X₁~Xm중 몇 개의 설명변 수(원인)

X1~ Xm 중 어떤 조합관계로 나올지는 미지수

4) 중회기분석

(26)

Q) 이와 같이 산포도, 상관분석, 단회귀분석은 지리행렬의 일부를 사 용한다.

중회귀분석기법은 변수를 모두 이용하지만 Y 변수를 따로 지정하여 야한다.

수집된 인구밀도 변수 ~ m개의 변수를 모두 동등한 입장에서 사용 하여

요인을 분석해 내는 방법이 없을까?

4) 중회기분석

인자분석 또는 주성분분석

(27)

■ 주성분(인자)분석 은 상관되어 있는 많은 변수들 가운데 상관관계가 높은(공변동 하는) 변수들을

동질적으로 몇 개의 집단으로 묶어 냄으로서 자료의 복잡성을 줄이고

변수들 내에 존재하는 상호독립적인 특성을 밝히는 기법.

■ 이때 묶어낸 집단 하나 하나가 주성분(인자)가 되며 그 주성분(인자)의 이름을 재설정(인자명)한다.

5) 주성분 및 인자분석

연속

(28)

5) 주성분 및 인자분석

(29)

Q) 예를 들어 기차역 대합실 내에 걸린 여러 개의 시계가 있고 정확한 기차 출발시간이 있다고 하자!

■ 이 예를 단 회귀분석으로 풀이하면?

■ 이 예를 중 회귀분석으로 풀이하면?

■ 이 예를 인자분석으로 풀이한다면?

5) 주성분 및 인자분석

(30)

5) 주성분 및 인자분석

• 정확한 실제 시간을 Y로 놓고 대합실의 임의 시계를 X로 하여, 선택된 시계의 시간은 실제 시간의 어느 정도를 설명하는가?

• 즉, 기차의 출발시간(Y), 다른 벽시계(X₁, X₂, X₃…)중 어느 것이 정확한 시간을 대변해 주는 시계인가?

단회기분 석

• 100% 정확한 시계가 없다면 기차의 출발시간(Y), 다른 벽시계 (X₁, X₂, X₃…)중, 어느 조합(예: 평균)이 정확한 시간을 대변 해 주는가?

중회기분 석

• 실제 시간을 포함한 모든 시계들에 대해서

서로 다른 시간을 나타내는 태협의 구조에서 원인을 찾아내고, 그 유사한 원인들의 조합으로 구성된 요인을 찾아내는 결과가 된

다.

• 즉 공통원인의 조합별로 가능성의 차이가 나타난다.

인자분

(31)

Q) 하나의 뿌리에서 나온 줄기가 여러 개의 가지를 치고,

각각 가지마다 각각 다른 종류의 열매가 열리는 나무를 상상해 보자.

그림에서 단 회귀분석, 중 회귀분석, 인자분석을 구분해서 이야기 해보면?

5) 주성분 및 인자분석

■ 단 회귀분석?

■ 중 회귀분석?

■ 인자분석?

(32)

5) 주성분 및 인자분석

• 임의의 열매(Y)은 어느 가지(X₁, X₂, X₃…)의 영향을 많이 받는 가?

• 즉, 가시 달린 귤의 요인은 X7 가지가 원인이다.

단회기분 석

• 임의의 열매(Y)은 어느 가지(X₁, X₂, X₃…)의 영향을 많이 받 는가?

• 즉, 포도 모양의 단감(Y6)은 X₁ 가지와 X₂ 가지의 조합으로 설명할 수 있다.

중회기분 석

• 열린 모든 열매의 패턴을, 줄기(열에 나열된 변수)를 찾기보다는

줄기를 형성하는 이유, 어떤 모양과 구조를 가진 눈에 보이지 않는 뿌리의 조합(인자)이 존재하는가?

눈에 보이지 않는 요인들로 결합된 인자라는 이름으로 밝혀내는 것이다.

• 즉 배, 밤, 귤, 포도, 가시 달린 귤, 포도 모양의 단감을 이루는 가 장 큰 요인은 ‘모양’이고, 그 다음은 ‘맛,’ 그 다음은 ‘가시’이다.

• 모양, 맛, 가시 등은 땅 속에 감추어져 있어 눈으로 보기 힘들다.

인자분 석

연속

(33)

1) 다음과 같은 설문조사

(1) 다음의 과일에 대하여 좋아하는 정도를 10점 만점으로 표시하라!

(2) 대상과일 : 사과 배 복숭아 수박 자두 메론 귤 오렌지 키위 포도

(3) 설문지 대상자 : 말자 숙자 화자 길자 영자…

(34)

(4) 설문 결과 예시

Q) 위 행렬 중 말자와 숙자의 관계를 2차원 상에 분포로 표현하면?

(35)

Q) 위 분포에서 말자와 숙자에 의한 과일의 분포를 가장 잘 설명할 수 있는 직선(축)은 무엇일까?

연속

(36)

Q ) 축을 설정한다는 것은?

■ 볼펜의 모양을 하나의 선으로 가장 많이(잘) 설명한다면?

■ 책을 두 개의 선으로 표현하면?

단, ‘두 번째 선은 첫 번째 선과 직각을 이룬다.’ 라면?

■ 내가 서있는 모양을 서로 직각인 3개의 선으로 표현하면?

■ 내 몸이 여러 개의 점으로 이루어진 분포라면,

이 때 3개의 선의 길이는 모양의 무엇을 나타내는가?

(37)

Q) 이 축을 제1인자(주성분 분석에서는 제1 주성분) 이라 부른다.

이 축은 무엇에 의해 점수가 주어졌는가?

즉, 샘플(말자, 영자…)들의 취향은 무엇일까?

여기서는 Q-mode 방법(행간의 관계분석)을 사용하였다

.

메론∼오렌지에 이르는 가상 축을 발견

→ 이 가상 축은 과일의 분포상태

가장 많이 설명하는,

즉 최대 분산을 나타내는 축이 다.

Q ) 이 축에 따라 수직으로 과일의 배치를 재 정렬하면?

(38)

→ 메론>망고>수박>토마토>배>복숭아=키위>사과>포도>자두>귤>오렌 지

Q ) 이런 서열에서 읽어낼 수 있는

인자(요인, 과일명이 아닌 다른 정의)는 무엇일까?

단맛∼신맛,

즉 단 과일을 좋아하고(높은 점 수),

신 과일을 싫어하는(낮은 점수)를

말자와 숙자의 공통된 요인(인자)

찾아낼 수 있다.

(39)

Q) 그렇다면 말자와 숙자의 공동 요인인 제1축에 이름(인자 명)을 붙인다면?

제 1인자를 “맛” 이라 명명한다.

즉 설문 대상이 된 사람들이 과일의 선호도를 결정하는 공통인자로서 “맛”이라는 인자가 첫 번째 인자로 판명되 었다

즉, 제 1인자인 “맛”은 과일 분포의 가장 많은 분산을 설 명한다.

(40)

Q) 다음은 제1인자인 “맛”인자 이외에

다른(독립적인) 어떤 인자(취향)는 존재할까?

존재한다면 그것을 찾는 다른 방법은 무엇일까?

■ 조건 !

- 두 번째 인자의 존재는

제1인자(맛)와는 독립적으로 형성되는 인자를 의미한 다.

- 독립적 인자는 제1인자 축에 대하여

수직(직각)의 방향을 가지며 직선적인 하나의 축을 형 성한다.

(41)

제2인자 축의 모양은 다음과 같다.

→ 자두∼키위 로 형성되는 가상 축 발

Q) 제2축에 과일의 배치를 해 보면?

좋아하는 순서대로

자두>복숭아>배>사과>오렌지=수 박=메론=망고>귤>포도>토마토>

키위

Q) 위 결과로 제2인자 명을 찾아내면?

딱딱함을 좋아하고 부드러운 과일을 싫어하는 요인으로 과일의 “강도”

이다

(42)

Q) 이와 같은 방법으로 앞서 설문결과에서 다른 3,4,5...인자(취향)를 예측해보면?

크기, 색, 모양이나 형태 등등...

■ 이러한 인자는 주성분/인자 분석에서는 변수수와 동일한 N개 까지 추출가능하다.

■ 그러나 통상 앞의 주요 인자를 중심으로 해 석한다.

이 때 추출되는 인자를 공통인자라고 한다.

(43)

인자분석과 다변량 분석기법과의 차이 점

이를 정리하면?

(44)

참조

관련 문서

q 환급특례법에 의한 관세환급이란 수출용원재료를 수입하는 때에 납부한 관세 등을 수출 등에 제공하였을 경우 되돌려주 는 제도를 말함.. q 세관에 납부한 관세를

q 혈중 암모니아 수치가 상승한 경우 비위관을 통해 neomycin투여 또는 lactulose관장 시행.. 2- 2)

Q-스위칭은 광학 공진기의 손실을 증가 시켜 이득 계수가 발진 문턱 값보다 아주 큰 값이 되어 순간적으로 강한 레이저를 발진 시킬 수 있는 기술을 Q-스위칭이라

두 변수가 높은 상관관계를 갖는다고 해도, 한 변수가 다른 변수의 원인이 된다는 것을 의미하지는 않는다. 예 , 식당의

2) 비용을 계산하고 장비대수와 EST를 조정하여 총비용이 가장 적게 나올 수 있는 조건을 구하시오(정답이

지난 시간에 배운

– 데이터 마이닝 기법은 통계학에서 발전한 탐색적자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모형 등의 방법론과 데이터베이스 측면에서 발전한

q 등록기관: 인증서 신청자의 신원 확인 및 인증서 등록을 대행하는 기관 q 인증기관: 인증서를 발행하는 기관. q 인증기관: