• 검색 결과가 없습니다.

지리통계학 및 실습

N/A
N/A
Protected

Academic year: 2022

Share "지리통계학 및 실습"

Copied!
37
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

지리통계학 및 실습

제1강 통계의 기초개념

최재헌 교수

(2)

통계학이란?

통계학은 수치자료(numerical data)를 수집 (collecting), 정리(organizing), 기술

(describing), 분석(analyzing)하고, 그 결과를 해석(interpreting)하는 규칙과 절차를 연구하 는 학문

통계적 사고(statistical thinking)를 증진시켜 불

확실한 상황에서 논리적으로 타당한 결론을 도

출하여 최선의 의사결정이 이루어지도록 하는

것이 목적

(3)

지리학이란?

• 공간패턴과 공간 활동을 기술하고, 설명하고, 예 측하기 위한 시도

• 지역에 따라 각종 지리적 현상들의 차이가 나타 나는 이유와 방식에 관심

• 시간에 따른 공간 패턴의 변화에 관심

(4)

지리학의 접근방법

• 실증주의 접근 – 과학적 분석과 가설검정을 통해 지식과 이해력을 증진시키는 목적

• 인본주의 접근 – 인간의 마음속에 주관적인 세계가 형성되기 때문에, 주관성을 관철하는 방법론에 의해 행동을 이해하기 위한 목적

• 구조주의 접근 – 패턴 자체를 연구하는 것으

로는 패턴을 설명할 수 없기 때문에, 인간의

행동의 사회적 조건의 발달을 설명할 수 있는

이론을 구축하는 것이 목적

(5)

지리학과 통계학적 접근

• 계량적 분석을 통한 공간 패턴의 해석

• 계량적 분석과 정량적 분석과의 균형 유지 의 필요성

• 일상 생활에서의 통계학과 측정수단의 유 용성

• 공간적 의사결정에서의 긍정적 역할 (입지

구매, 투자, 확률에 의한 최적의 선택)

(6)

지리학에서의 통계의 역할

• 자료의 기술과 정리

• 복잡한 공간 패턴에 대한 일반화

• 특정 입지에서의 사건의 발생 확률 추정

• 표본을 통한 모집단의 추정

• 실제 패턴과 이론적 패턴의 일치성 검정

• 분포 패턴의 비교와 상호 관련성 분석

(7)

통계자료의 오용

부적절한 통계의 사용: 잘못된 조사

적용범위의 왜곡: 소수의 사례로 일반화 비율의 함정: 잘못된 표본

비교근거의 오류: 유리한 자료만 사용 제시방법의 오류: 자료의 조작

해석상의 오류: 인과관계 해석의 오류

(8)

부적절한 통계의 사용

토지소유 실태자료에서 행정자치부는

“상위 1%가 전체 사유지의 51.5%, 상위 5%가 82.7%의 토지를 보유하고 있으며 땅을 1평이라도 소유하고 있는 사람은 전체의 28.7%(1,397만 명)”

라고 발표한 바 있다.

우리나라 토지 소유 관행은 가구주의 명의로 되어 있으므로 경제활동을 하지 않는 부녀자, 미성년자를 포함하는 전체 인구수로 나눈 통계는 적절한 통계라고 볼 수 없다. 가구당 평균 가족 수를 4명으로 가정하고 가구수를 이용해 계산하면 28.7%가 아니라 80%에 근접할 것이다.

(9)

적용범위의 왜곡

통계자료는 대부분 모집단에서 추출한 표본의 자료이다. 따라서

이 자료를 근거로 추출한 모집단의 범위를 넘어서 확대 해석하는 것 은 금물이다.

서울과 6대 광역시 전화가입자를 대상으로 표본 조사하여

분석한 결과를 우리나라 전체 국민의 의견으로 해석할 수는 없고

조사지역의 전화가입자의 의견으로 국한하여 해석하여야 한다.

(10)

• 담배가 건강에 해롭다는데 우리 할아버지 는 담배를 많이 피워도 95세에 사망

• 통계는 특정개체를 설명 하는 것이 아니고 집단의 양적 기술

• 미국사람이 우리나라사람보다 크다고 하여도 최홍만보다 큰 미국 사람은 거의 없다.

• 담배가 미치는 영향은 개인 차이가 있음

• 할아버지가 담배 안 피셨다면 100세를 넘겨 사셨을 수도

10/30

17:35

(11)

비율의 함정

4명 중 1명, 20명 중 5명, 100명 중 25명, 1000명 중 250명 모두

비율로는 1/4이다. 그러나 내 주위 친구 4명이 복권을 구입하여 1명이 당첨되었다고 이 복권의 당첨확률이 1/4이라고 주장하기에는 미흡하다.

만일 1000명을 조사하여 250명이 당첨되었다면 이 복권의 당첨확률이 1/4이라고 할 경우 큰 무리는 없을 것이다.

비율로 발표된 경우 분모나 분자의 수가 약간 변하더라도 비율에 큰 영향을 미치지 않을 정도로 분모의 수가 충분히 커야 한다는 점에 유의하여야 할 것이다.

(12)

• 안전 벨트를 맵시다.

고속도로 교통사고 사망자의 50%는 안전벨트 미착용

• 역시 안전하게 안전벨트를 착용 해야 해!

• 무슨 소리! 50%는 안전벨트를 매고도 죽었다는 거잖 아! 안전벨트 소용 없구먼!

• 이 자료는 안전벨트 안전성에대한 설명이 안됨

• 고속도로에선 80%가 안전벨트를 매는데 동일한 숫자 가 사망 했음으로 안전벨트가 4배로 사망률을 줄여줌 - 이런 식으로 설명해야 함

12/30

17:35

(13)

비교근거의 오류

1898년 미국과 스페인이 쿠바에서 벌인 전쟁에서 미국 해군의

전사율은 1,000명 당 9명이고, 같은 기간 뉴욕의 사망률은 1,000명당 16명이었다. 이 자료로 해군 징병관들은 해군에 입대하여 전쟁터에 나간다 하더라도 대도시에서 사는 것보다 안전하다고 선전하였다.

믿어도 되는 통계일까?

통계 수치에 거짓말은 없을 것이지만 해군은

건강한 젊은이로 구성돼 있고, 뉴욕시민은 노인, 환자, 갓난아기 등 노약자를 모두 포함하고 있어 비교 근거가 잘못된 경우라고 하겠다.

(14)

제시방법의 오류

8,000 8,500 9,000 9,500 10,000

A B C D E

(15)

표현의 차이

15/30

17:35

(16)

해석상의 오류

1986년 1월 미국 유인우주선 ‘Challenger’호의 발사 직후에 폭발한 사고의 원인은 로켓 추진체의 저온에 의한 ‘O-ring seal’ 기능장애 때문이라고

밝혀졌다. ‘O-ring seal’의 손상 건수와 로켓 모터 조인트의 온도의 관계를 볼 수 있는 <그림>의 a)는 적어도 하나 이상의 조인트가 손상을 입은 7번 경우의 산점도이고, b)는 과거 23번 전체의 산점도이다.

(17)

통계분석을 위한 기초개념

(18)

표본과 모집단

조사자의 관심의 대상이 되는 모든 개체들의 총집합

실제 조사를 위해 모집단에서 추출한 일부, 모집단을 알기 위한 목적

모집단

표본

ex) 유권자 조사대상

모집단(population)

표본(sample)

(19)

모수와 통계량

모집단의 특성을 수치로 표현한 것, 희랍문자로 표시

표본을 분석하여 그 특성을 수치로 표현한 것, 라틴문자로 표시 [예]

인천지역의 모든 제조업체 현재 등록한 모든 학생 인천 용현동의 모든 가구

모집단 개체 변수/특성

년수익, 종업원수, 종업원건강지출액규모

평점, 신청학점, 주당근로시간

가구소득, 자동차 대수, 사분기당 문화비지출규모 모수(parameter)

통계량(statistic)

(20)

기술통계학 / 추론통계학

수집한 자료의 특성을 적절히 묘사하기 위하여 자료의 정리, 요약, 계산, 기술하는 방법과 관련된 통계학

기술통계학 (descriptive statistics)

모집단에서 추출한 표본을 분석하고 그 결과를 기초로 하여 모집단의 특성을 유추하고 일반화(generalization)하는 통계학, 확률 이론 이용 추론통계학 (inferential statistics)

ex) 여론조사, 품질검사

ex) 통계청의 인구주택총조사

(21)

기능에 따른 분류

기술통계

관찰, 측정된 잡다한 개개의 현상을 전체적

파악 및 간략하게 기술해 주는 기능

방법: (수량적 자료제시)

빈도분포, 백분율, 표준편차, 평균, 상 관관계 등

추리통계

관찰, 측정된 소수의 결과에 의해 관 찰되지 않은 현상을 일반적인 결론으

로 일반화 시키는 기능

T검정, 분산분석, 회귀분석 등이 해당 (추리통계는 통계적 방법에 따라

모수적 통계와 비모수적 통계)

(22)

모집단 분포 가정에 따른 종류

모수적 추리통계(parametric statistics)

• 정규분포 가정

• 모집단의 특성을 추정, 특정치의 연속성과 등간격성(선형성), 모집 단의 어떤 특성의 정규분포성, 분산의 등질성의 조건을 충족

비모수적 추리통계(nonparametric statistics)

• 모집단의 특성 분포에 어떤 가정도 하지 않은 상태

• 선형성, 정규분포성 등의 조건 불필요

• 가설 검정력이 모수적 통계보다 덜 정밀함.

(23)

변수의 수에 따른 분류

일원적 통계분석

하나의 변수만을 분석하는 통계

다원적 통계분석

둘 이상의 변수을

동시에 분석하는 통계

(24)

변수(변인, Variable)

• 연구대상이 되고 있는 집단 구성원이 계층적 성 격에 있어서 서로 구별 지어질 수 있을 때 이 속 성을 변수라고 함

• 연구대상이 되고 있는 집단 구성원이 계층적 성 격에 있어서 서로 구별 지어질 수 있을 때 이 속 성을 변수라고 함

변수

• 관심이 되는 분석의 단위를 의미

• 관심이 되는 분석의 단위를 의미 구성원

• 성별, 연령, 학교, 종교 등이 변수

• 성별, 연령, 학교, 종교 등이 변수

예)) 만약 개인이라면……

(25)

변수 (변인, Variable)

독립 변수

매개 변수

선행 변수 등

종속 변수 변수

위치

명목(명명)변수 서열 변수

등간 변수 비율 변수 변수의

종류

질적 변수

양적 변수

(26)

• 수량화 할 수 없는 것들을 말하며 눈 의 색깔, 성별, 취미, 직업 등

질적변수

• 수량화 할 수 있는 것들을 말하며 체 중, 신장, 성적 등

양적변수

• 어떤 변인에 영향을 주는 변인, 변인 자체로서의 독립적인 성격을 띤다.

독립변수(설명변인)

• 다른 변인의 영향을 받는 변인으로 과가 된다.

종속변수(반응변인)

• 3가지 조건 만족

• 1. 독립 • 종속변수와 연관 2. 선행변수는 통제되어 도 독립, 종속변수 관계는 유지 3. 독립변수가 통제 되면 종속변수와 아무런 관계가 없다

선행변수

• 독립변인과 종속변인과의 관계를 자세히 설명하는 기능

매개변수

• 제2의 독립변인으로 종속변수에 미치는 영향정도 를 파악하기 위해 통제되는 변수

★통제변수

• 신장, 몸무게 등과 같은 일정한 범위 내에서 무한 히 나타낼 수 있는 변수의 값

연속적 변수

• 가족의 수, 자동차 대수 등과 같은 일정한 수치이 며 그 사이의 어떠한 값도 가질 수 없는 변수 비연속적 변수

(27)

1차자료 / 2차자료

1차자료 (primary data)

실험, 설문조사, 면접을 통하여 조사자가 처음으로 창출한 자료 cf. 시장조사, 종업원만족도조사, 중소제조업체 애로점조사

2차자료 (secondary data)

정부기관, 회사, 공공단체 또는 개인 등 조사자 이외의 다른 사람이 수집하여 이미 발간한 자료

cf. 통계청자료, OECD통계, 세계철도협회 통계자료, 하나은행 지점통계 등

(28)

횡단면자료 / 시계열자료

횡단면자료 (cross-section data) 일정 시점을 기준으로 수집한 자료

ex. 시군구 인구수 2010’

시계열자료 (time series data)

일정한 시간 간격을 두고 변화의 흐름을 나타내는 자료

ex. 상업지구 지가의 변동 1990-2010’

(29)

정량적변수 / 정성적변수

정량적변수 (quantitative variable)

많고 적음이나 크고 작음에 대하여 양적인 면을 표현한 변수 ex. 몸무게, 나이, 소득

정성적변수 (qualitative variable)

질적인 면이나 성격적인 면을 표현한 변수

ex. 성별, 직업

(30)

이산적변수 / 연속적변수

이산적 변수 (discrete variable) 세어서(count) 값을 수집하는 변수 ex. 종업원수, 사고건수, 유권자수 연속적 변수 (continuous variable)

측정(measure)하여 값을 수집하는 변수

ex. 몸무게, 키

(31)

척도(scale)

수치로 표현된 자료는 측정수준(level of

measurement)에 따라 가장 낮은 수준인 명목

척도(nominal scale), 순위척도(ordinal scale),

등간척도(interval scale), 그리고 가장 높은 수

준인 비율척도(ratio scale) 4개의 척도로 구분

할 수 있으며 수준에 따라 수치가 갖는 의미가

다르며 적용할 통계기법 또한 다르다.

(32)

명목척도 / 순위척도

수치가 순서의 개념 없이 집단이나 부류로 분류하기 위하여 사용 되는 경우

명목척도 (nominal scale)

(33)

집단이나 부류가 순서의 개념을 갖는 경우

순위척도 (ordinal scale)

(34)

등간척도 / 비율척도

정의에 의한 편의상 어떤 점을 나타내는 경우 등간 척도 (interval scale)

수치에서 의미하는 바가 절대적으로 아무 것도 없음을 나타내는 경우 비율척도 (ratio scale)

(35)

측정수준에 따른 변수의 분류

변수의 분

특성 보기

비율변수 절대영점을 갖고 있다 측정치는 비율 또는 퍼센트로 비교될 수 있다.

거리, 시간, 무게 등

등간변수 동간적이다.

측정시간의 거리가 비교될 수 있다.

연(year), 온도, IQ 등

서열변수 순위의 정보만 있다. 백분위수, 랭킹, 순위(학업 성적) 등

명목변수 서로 다른 속성의 정보만 있

다. 성별, 국적, 눈의 색깔,

출신학교 등

(36)

변수측정

• 서열성, 동간성의 정보를 제공해줄 뿐 아니라, 절대 영점(0)을 갖고 있는 척도 로 한 측정치는 다른 측정 치의 두배, 세배 또는 10배 등의 비율에 관한 정보를 갖고 있는 척도를 말함

• 평균, 표준편차, 모수통계, 정규분포 검정 등 등간척도 와 같다.

• 서열상 뿐만 아니라 어느 만큼 차이가 있는가 하는 동간성에 관한 정보를 갖고 있는 척도

• 서열화된 척도, 동시에 척도 간의 간격이 같다.

• 평균, 표준편차, 모수통계, 정규분포검정 등

• 한 변인이 측정 또는 분류되 었을 때 같다, 다르다라는 정보 뿐만 아니라 크다, 작 다라는 서열에 관한 정보를 제공하는 척도

• 서열상의 관계, 비모수 통계 분석의 순위비교 등이 있다.

• 한 변인이 측정 또는 분류 되었을 때

• 어떤 사물 사람 또는 속성 을 분류하기 위한 목적

• 계량의 의미가 없으며, 질 적인 성격을 가짐

• 빈도분석, 비모수통계분석, 교차분석, 카이검정 등

명목척도 서열척도

비율척

등간척도

(37)

참조

관련 문서

equiptment Mixing bowl, electronic scale, seive, cotton cloth, spatula, rolling

equiptment Mixing bowl, electronic scale, seive, cotton cloth, spatula, rolling

Anaerobic acidogenic reactor (0.5 m 3 ) for organic acid production from effluent of semi-anaerobic hydrolysis/acidogenic reactor

Musical essence of typical trot is the Japanese pentatonic minor scale that exclude the fourth and seven notes, but major trot is done in pentatonic major scale.. Such

Comparison of pain scale between the conventional and 2-step needle insertion technique according to the injection area ··· 11... The combination of pain scale and

l Understand the basic filter and analysis parameters and limitations. l Understand the difference between signal

 Gray-scale Compression, Gray-scale Stretching, Gray-level Sliding, Gray-level Thresholding, Gray-level Negative 등.. Laganière, OpenCV2 Computer Vision: Application

• Gray-Scale Compression, Gray-Scale Stretching, Gray-Level Slicing, Gray- Level Thresholding, Gray-Level Negation. − 히스토그램