기술통계-수치적 방법
Descriptive Statistics-
Numerical Methods
학습내용
중심위치
산포
box plot
상관계수 , 회귀식
모수와 통계량
구분 모수
(parameter)
통계량(statistic)
대상 모집단의
특성치
표본의특성치
성질 상수
constant (확률)변수
(random) variable
모집단의
크기 N n
평균
μ X
표준편차
σ s
중심위치
변동(산포)
모양
데이터의 특성
데이터의 특성
Mean Median Mode
중심위치
Range
Interquartile Range Variance
산포
Skewness Kurtosis
모양
데이터의 특성 및 측도
중심위치 (Central Tendency)
데이터들이 어디를 중심으로 분포하는가?
평균(mean, average) 모평균
표본평균
중앙값(median) (n+1)/2번째 크기의 값
최빈값(mode)Excel 함수
average : average(데이터 범위)
median : median(데이터 범위)
mode : mode(데이터 범위)
데이터-데이터분석-기술통계법중심위치 측도의 비교
중앙값과 최빈값 정보의 유실
극단적인 비대칭분포, 異常値(outlier)가 있을 경우
평균 ‘통계적으로’ 좋은 성질이 많다.
극단적인 수치에 민감하다.
다듬은 평균(trimmed mean)
가장 큰 값과 가장 작은 값 각각 일정한 수 만큼을 제외하고 구한 평균
체조, 피겨스케이팅의 점수
서열데이터, 범주형 데이터의 경우 평균은 부적절
Skewness(왜도)
Right-Skewed Left-Skewed Symmetric
Mean = Median = Mode
Mean Median Mode Mode Median Mean
3 1
3
3
) (
) 2 )(
1
( s
x x
n n
a n
n
i
i
중심위치와 산포
A 반
B 반
A반과 B반의 중심위치(평균)는 같지만 ...
산포 /변동(dispersion/variation)
중심위치에서부터 흩어져 있는 정도 범위
사분위 범위
평균편차
분산
표준편차
산포는 작아야 좋은가, 커야 좋은가? 원자재나 부품의 품질(균질성)
교통수단별 목적지까지의 소요 시간
학생의 성적분포 – 대학입시
투자 대안의 수익률
투구의 속도
범위(Range)
R = Xmax - Xmin
구하기가 쉽다.
정보의 유실
range(데이터 범위)평균편차
N x MAD
N
i
i
1|
|
Mean Absolute Deviation(MAD)
avedev(데이터 범위)분산과 표준편차
) (
) (
1
2 1
2 2
N x
N x
N
i
i N
i
i
모집단과 표본의 분산, 표준편차
1 2
2 2
1 2
2 2
1 ) (
)
(
s n s
x x
s
σ N σ
x
n
i
i N
i
i
표본 모집단
표준편차 분산
Variance Standard deviation
간편 계산 공식
n
i
n
i
i i
n
i
i x x x n
x
1 1
2 2
1
2 ( ) /
)
(
변동계수(Coefficient of Variation)
x CV s
CV ,
상대적인 측도
2 이상의 그룹의 비교(달러와 원화 환율의 변동 비교)사분위 범위(사분편차)
p%번째 백분위수(pth percentile) 크기 순으로 p%째의 수
수능점수, SAT
p%번째 백분위수의 위치 Lp=(n+1)*p/100
4분위수(quartile) : 크기 순으로 배열된 데이터를 4등분한 수 Lower Quartile(Q1) = (n+1)/4 번째 위치한 수
Upper Quartile(Q3) = 3(n+1)/4 번째 위치한 수
(n+1)/4나 3(n+1)/4가 정수가 아니면 인접한 두수를 이용한 보간법으로 구함
4분위범위(interquartile range; IQR) = Q3 - Q1 범위에 비해 異常値의 영향을 적게 받음 → Box plot
Box plot
상자(box)와 수염(whisker)으로 구성; box-whisker plot
box 구성 : Q1, 중앙값(median), Q3
outlier(이상치) : 상자에서 1.5*IQR 밖에 있는 점, o으로 표시
whisker : 이상치를 제외한 점 중에서 가장 극단적인(크거나 작은) 점 까지 연장median
Q1 Q3
o outlier
min max
Box plot 작성
box
Q
1= 63, median=73, Q
3=84
Fence
IQR=84-63=21
H-spread = 1.5*IQR =31.5
fence
lower fence = Q
1- 1.5*IQR=63-31.5=31.5
upper fence = Q
3+1.5*IQR=84+31.5=115.5
outlier(이상치)
fence 밖의 점
whisker
이상치를 제외한 점 중에서 가장 크거나(98) 작은 (53)점까지 연장
4 5 3 7 9
11 6 1 2 3 5 6 7 8 (7) 7 0 2 3 4 4 5 7 8 8 1 4 5 6 6 7 8 1 9 8
LO 21
경영통계 성적Box Plot
중심위치, 산포도, 대칭성, 꼬리의 길이, outlier(이상치) 등의 정보 제공 중심부분(middle)및 꼬리의 패턴
이상치의 존재 유무 확인
이상치의 원인은 판독(reading) 오류, 기록의 오류, malfunction(이 상 기능) 등이지만 중요한 정보가 담겨있을 수도 있다.두 변수간의 관련성
두 변수간의 선형관계 방향(정, 음)
강도
공분산
상관계수
결정계수공분산
1
)]
)(
[(
1
n
y y
x x
S
n
i
i i
xy
N y x
N
i
y i
x i
xy
1
)]
)(
[(
모공분산
표본공분산
상관계수(correlation coefficient)
y x
xy
S S r S
y x
xy
모상관계수
표본상관계수
1. σxy나 Sxy는 측정단위에 따라 크기가 달라진다.
2. ρ나 r은 측정단위와 무관하다(-1≤ ρ,r≤1).
상관분석
Strong Positive Correlation Weak Positive Correlation
No Correlation Nonlinear Relation
두 변수간의 선형관계(linear correlation)
Line Fitting
0 50 100
0 20 40 60
A
B
최소자승법
x b b
y y y
e ˆ , ˆ
잔차(residual)
y ˆ
iy ˆ b 0 b 1 X y i
x i
e
iy
x
최소자승선
x b y
b
S b S
x b b
y
x xy
1 0
1 2
1
ˆ 0
Excel 활용
상관계수 데이터-데이터분석-상관분석
correl(array1,array2)
회귀식 데이터-데이터분석-회귀분석