• 검색 결과가 없습니다.

기술통계-수치적 방법

N/A
N/A
Protected

Academic year: 2022

Share "기술통계-수치적 방법"

Copied!
29
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

기술통계-수치적 방법

Descriptive Statistics-

Numerical Methods

(2)

학습내용

 중심위치

 산포

box plot

 상관계수 , 회귀식

(3)

모수와 통계량

구분 모수

(parameter)

통계량

(statistic)

대상 모집단의

특성치

표본의

특성치

성질 상수

constant (확률)변수

(random) variable

모집단의

크기 N n

평균

μ X

표준편차

σ s

(4)

중심위치

변동(산포)

모양

데이터의 특성

(5)

데이터의 특성

Mean Median Mode

중심위치

Range

Interquartile Range Variance

산포

Skewness Kurtosis

모양

데이터의 특성 및 측도

(6)

중심위치 (Central Tendency)

데이터들이 어디를 중심으로 분포하는가?

평균(mean, average)

모평균

표본평균

중앙값(median)

(n+1)/2번째 크기의 값

최빈값(mode)

(7)

Excel 함수

average : average(데이터 범위)

median : median(데이터 범위)

mode : mode(데이터 범위)

데이터-데이터분석-기술통계법

(8)

중심위치 측도의 비교

중앙값과 최빈값

정보의 유실

극단적인 비대칭분포, 異常値(outlier)가 있을 경우

평균

‘통계적으로’ 좋은 성질이 많다.

극단적인 수치에 민감하다.

다듬은 평균(trimmed mean)

가장 큰 값과 가장 작은 값 각각 일정한 수 만큼을 제외하고 구한 평균

체조, 피겨스케이팅의 점수

서열데이터, 범주형 데이터의 경우

평균은 부적절

(9)

Skewness(왜도)

Right-Skewed Left-Skewed Symmetric

Mean = Median = Mode

Mean Median Mode Mode Median Mean

3 1

3

3

) (

) 2 )(

1

( s

x x

n n

a n

n

i

i

 

(10)

중심위치와 산포

A 반

B 반

A반과 B반의 중심위치(평균)는 같지만 ...

(11)

산포 /변동(dispersion/variation)

중심위치에서부터 흩어져 있는 정도

범위

사분위 범위

평균편차

분산

표준편차

산포는 작아야 좋은가, 커야 좋은가?

원자재나 부품의 품질(균질성)

교통수단별 목적지까지의 소요 시간

학생의 성적분포 – 대학입시

투자 대안의 수익률

투구의 속도

(12)

범위(Range)

R = Xmax - Xmin

구하기가 쉽다.

정보의 유실

range(데이터 범위)

(13)

평균편차

N x MAD

N

i

i

1

|

| 

Mean Absolute Deviation(MAD)

avedev(데이터 범위)

(14)

분산과 표준편차

) (

) (

1

2 1

2 2

N x

N x

N

i

i N

i

i

(15)

모집단과 표본의 분산, 표준편차

1 2

2 2

1 2

2 2

1 ) (

)

(

s n s

x x

s

σ N σ

x

n

i

i N

i

i

 

표본 모집단

표준편차 분산

Variance Standard deviation

(16)

간편 계산 공식

 

   

n

i

n

i

i i

n

i

i x x x n

x

1 1

2 2

1

2 ( ) /

)

(

(17)

변동계수(Coefficient of Variation)

x CV s

CV  , 

상대적인 측도

2 이상의 그룹의 비교(달러와 원화 환율의 변동 비교)

(18)

사분위 범위(사분편차)

p%번째 백분위수(pth percentile)

크기 순으로 p%째의 수

수능점수, SAT

p%번째 백분위수의 위치 Lp=(n+1)*p/100

4분위수(quartile) : 크기 순으로 배열된 데이터를 4등분한 수

Lower Quartile(Q1) = (n+1)/4 번째 위치한 수

Upper Quartile(Q3) = 3(n+1)/4 번째 위치한 수

(n+1)/4나 3(n+1)/4가 정수가 아니면 인접한 두수를 이용한 보간법으로 구함

4분위범위(interquartile range; IQR) = Q3 - Q1

범위에 비해 異常値의 영향을 적게 받음 → Box plot

(19)

Box plot

상자(box)와 수염(whisker)으로 구성; box-whisker plot

box 구성 : Q1, 중앙값(median), Q3

outlier(이상치) : 상자에서 1.5*IQR 밖에 있는 점, o으로 표시

whisker : 이상치를 제외한 점 중에서 가장 극단적인(크거나 작은) 점 까지 연장

median

Q1 Q3

o outlier

min max

(20)

Box plot 작성

box

Q

1

= 63, median=73, Q

3

=84

Fence

IQR=84-63=21

H-spread = 1.5*IQR =31.5

fence

lower fence = Q

1

- 1.5*IQR=63-31.5=31.5

upper fence = Q

3

+1.5*IQR=84+31.5=115.5

outlier(이상치)

fence 밖의 점

whisker

이상치를 제외한 점 중에서 가장 크거나(98) 작은 (53)점까지 연장

4 5 3 7 9

11 6 1 2 3 5 6 7 8 (7) 7 0 2 3 4 4 5 7 8 8 1 4 5 6 6 7 8 1 9 8

LO 21

경영통계 성적

(21)

Box Plot

중심위치, 산포도, 대칭성, 꼬리의 길이, outlier(이상치) 등의 정보 제공

중심부분(middle)및 꼬리의 패턴

이상치의 존재 유무 확인

이상치의 원인은 판독(reading) 오류, 기록의 오류, malfunction(이 상 기능) 등이지만 중요한 정보가 담겨있을 수도 있다.

(22)

두 변수간의 관련성

변수간의 선형관계

방향(정, 음)

강도

공분산

상관계수

결정계수

(23)

공분산

1

)]

)(

[(

1

 

n

y y

x x

S

n

i

i i

xy

N y x

N

i

y i

x i

xy

 

1

)]

)(

[(  

모공분산

표본공분산

(24)

상관계수(correlation coefficient)

y x

xy

S S rS

y x

xy

  

모상관계수

표본상관계수

1. σxy나 Sxy는 측정단위에 따라 크기가 달라진다.

2. ρ나 r은 측정단위와 무관하다(-1≤ ρ,r≤1).

(25)

상관분석

Strong Positive Correlation Weak Positive Correlation

No Correlation Nonlinear Relation

두 변수간의 선형관계(linear correlation)

(26)

Line Fitting

0 50 100

0 20 40 60

A

B

(27)

최소자승법

x b b

y y y

e   ˆ , ˆ  

잔차(residual)

y ˆ

i

y ˆ  b 0b 1 X y i

x i

e

i

y

x

(28)

최소자승선

x b y

b

S b S

x b b

y

x xy

1 0

1 2

1

ˆ 0

(29)

Excel 활용

상관계수

데이터-데이터분석-상관분석

correl(array1,array2)

회귀식

데이터-데이터분석-회귀분석

참조

관련 문서

Taken together, the results of correlation analysis exhibit four major findings: (1) DK rates for behavioral items have only a weak, or moderate at best, correlation with

In addition, a correlation analysis was conducted to examine the relationship between generality 5 factors (neuroticism, extroversion, openness, agreeableness,

difference depending upon health state of the family (p=.000). In conclusion, the family's depression had positive correlation with burden as well as physical and

Sixth, there was no significant correlation between lower extremity muscle thickness, static stability, and dynamic stability of excellent athletes in college

These results demonstrated that a positive role of Slug and Twist in tumor invasion in CRA, and inverse correlation between Twist and Slug expression

Pearson Correlation

Results: The results demonstrated a significant positive correlation between the muscle atrophy and the tendon tear.(p<0.05) And there was statistically

Correlation of automated red cell count (aRBC) and mean of manual red cell counts (mRBC).. Correlation of estimated red cell count (eRBC) and mean of manual red