• 검색 결과가 없습니다.

Mean and Variance

N/A
N/A
Protected

Academic year: 2022

Share "Mean and Variance"

Copied!
61
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

Mean and Variance

(2)

Distribution ?

(3)
(4)

dist’n of a sample pop’n dist’n statistics

(sample) statistic (population) parameter

(5)

X %freq

Head 1 0.5

Tail 0 0.5

Total 1.0

X freq %freq

Head 1 20 0.4

Tail 0 30 0.6

Total 50 1.0

dist’n of a sample

pop’n dist’n

X %freq

Head 1 0.35

Tail 0 0.65

Total 1.0

(6)

Y %freq

1 1/6

2 1/6

3 1/6

4 1/6

5 1/6

6 1/6

Total 1.0

Y freq %freq

1 10 0.1

2 20 0.2

3 10 0.1

4 20 0.2

5 20 0.2

6 20 0.2

Total 100 1.0

(7)

mseg X Low Spender 1 Med Low Spender 2 Average Spender 3 Med High Spender 4 High Spender 5

A new variable X from mseg

of credit card data

(8)

X freq %freq

1 26 0.26

2 20 0.20

3 11 0.11

4 25 0.25

5 18 0.18

Total 100 1.00

X %freq

1 ?

2 ?

3 ?

4 ?

5 ?

Total 1.00

Variable X of credit card data

?

(9)

Measure for location (center) Mean,

Mode Median

(truncated, winsorized) Mean

(10)

Mean

(11)

Median

(12)

50% 50%

Median

(13)

Mode

(14)
(15)

Hit/Stop Burst

(16)

Dealer's hidden card ?

(17)

2 - 9

1,11 10

(18)

Outlier

(19)

4 6

5 6

Truncated mean / Winsorized mean

(20)

6 4 5 6

1 9

6 4 5 6

4 6

6 4 5 6 4 6

5 6

Truncated mean / Winsorized mean

(21)

50% 50%

Q1 Q2 Q3

75% 25%

25% 75%

Quartiles

25 percentile 50 percentile 75 percentile Median

(22)

일러스트=유재일 기자 jae0903@chosun.com

빗나간 주택통계 부동산 정책도 헛발질

한국의 PIR은 주택의 평균 가격과 도시근로자의 평균 가계소득을 기준으로 계산한다.

반면 미국의 PIR은 미디언 가격(MEDIAN PRICE·중간가격)과 미디언 소득을 기준으로 한다.

미디언 가격은 그 지역에서 거래된 가장 가격이 싼 주택에서부터 가장 비싼 주택을 일렬로 늘어 놓은 뒤 그 중간치를 선택한다.

건설산업전략연구소 김선덕 소장은 “평균가격이나 평균소득은 고가의 주택이나 엄청난 고소득자가 일부 포함되면 통계가 왜곡될 수 있다”고 말했다. 더군다나 한국의 주택가격은 호가(呼價)이고 미국의 주택가격은 실거래가를 기준으로 한다.

차학봉 기자 , hbcha@chosun.com 입력 : 2007.03.26 23:31

Wrong housing statistics make wrong real estate policy.

While median is better statistic than mean in representing house prices,

Korean government publishes statistics calculated by mean on house prices.

Mean price can be distorted by just one or two extreme prices.

(23)

percentile

p% (100-p)%

p-th percentile

(24)

Measure for variability Range

InterQuartile Range (IQR) Variance

Standart Deviation

(25)

1 1

Range

 

(26)

Q 1 Q 2 Q

3

1

3

Q

Q

IQR = −

(27)

1 1

 

variance, standard deviation

(28)

Y %freq

1 1/6

2 1/6

3 1/6

4 1/6

5 1/6

6 1/6

Total 1.0

Y freq %freq

1 10 0.1

2 20 0.2

3 10 0.1

4 20 0.2

5 20 0.2

6 20 0.2

Total 100 1.0

Mean (Y) = 1*0.1 + 2*0.20 + 3*0.1 +

...

+ 6*0.2 = 3.8

Mean (Y) = 1*(1/6) + 2*(1/6) +

...

+ 6*(1/6) = 3.5

(29)

X freq %freq Low Spender 1 26 0.26 Med Low Spender 2 20 0.20

Average Spender 3 11 0.11 Med High Spender 4 25 0.25 High Spender 5 18 0.18

---

Total 100 1.00

Mean of X

Mean (X) = 1*0.26 + 2*0.20 + 3*0.11 + 4*0.25 + 5*0.18 = 2.89

(30)

f X ~

=

i

i i

f x x

X

E ( ) ( )

X f

) ( x

1

1

f x

) ( x

n

n

f x

Total 1

 

 

  ( ) = 1

i

x

i

f

(31)

f X ~

=

i

i

i

f x

x X

E (

2

)

2

( ) X f

) ( x

1

1

f x

) ( x

n

n

f x

Total 1

X

2

2

x

1

2

x

n

(32)

X Q %freq Low Spender 1 (-2)2 0.26 Med Low Spender 2 (-1)2 0.20

Average Spender 3 02 0.11 Med High Spender 4 12 0.25 High Spender 5 22 0.18

---

Total 1.00

A new variable Q = (X – 3)

2

Mean (Q) = (-2)

2

*0.26 + (-1)

2

*0.20 + 0

2

*0.11 + 1

2

*0.25 + 2

2

*0.18

(33)

f X ~

=

i

i

i

c f x

x c

X

E [( )

2

] ( )

2

( )

] )) (

[(

)

( X E X E X

2

Var = −

) ( X E

Let c = ,

(34)

~ f *

X

X x

f x X

E

i

i

i

=

=  ( )

)

(

*

*

f

*

X

) (

1

*

x

1

f x

)

*

( x

n n

f

x

Total 1

Distribution of a sample

(35)

= =

=

i

i i

i

i

x X

x n f

x X

E 1

) ( )

( *

*

f *

X

5 / 1 2

5 / 1 3

Total 1

5 / 2 2

f *

X

5 / 1 1

5 / 1 3

Total 1

5 / 2 1

5 / 1 1

5 / 2 1

Sample mean

freq

2

1

2

5

(36)

2

*

*

*

( X ) E ( X E ( X ))

Var = −

~ f *

X

2

*

2

1 ( )

) ( )

( x x

x n f

x x

i

i i

i

i

=

=

(O)

Sample variance

2 2

)

2

1 ( 1

X i

i

x s or s

n x − =

= − 

2

*

*

*

( ( ))

) 1

( E X E X

n X n

Var

= −

(37)

=

1

)

2

1 ( 1

i

i

x

n x For large n,

=

1

)

2

1 (

i

i

x

n x

1  1

n n

 20

n large enough

(38)

=

− −

=

1

2

2

( )

1 1

i

i

x

n x s

n N

=

=

1

2

2

1 ( )

i

x

i

N

X

(39)

Standard deviation

) (

)

( X Var X

sd =

) (

* )

(

* X Var X

sd =

(40)

X V freq Low Spender 1 (1-2.89)2 26 Med Low Spender 2 (2-2.89)2 20

Average Spender 3 (3-2.89)2 11 Med High Spender 4 (4-2.89)2 25 High Spender 5 (5-2.89)2 18

---

Total 100

V = (X – 2.89 )

2

Var*(X)= (1/99)[(1-2.89)

2

*26 + …+ (5-2.89)

2

*18] = 2.22

sd*(X) = 1.49

(41)

dist’n of a sample pop’n dist’n statistics

sample mean population mean

sample variance population variance

sample median population median

…. ….

(42)

n N

no. of teeth

weight of body

no. of phone calls

(43)

N

no. of teeth weight of body

N x freq

f (

i

) =

i

f (x )

1 )

( =

f x dx

1 )

( =

i

x

i

f

no. of phone calls

n

n x freq

f (

i

) =

i

1 )

( =

i

x

i

f

(44)

(45)

f ( x ) dx

i

x

i

f ( )

x

2

f ( x ) dx

i

i

i

f x

x

2

( )

(46)

E

 

) ( ,

) (

, ) (

* x f x f x

f i i

(47)

=

= E X E X x f x dx

X

Var ( ) ( ( ))

2

(  )

2

( )

= x f x dx X

E ( ) ( )

=

i

i

i

f x

x X

E ( ) ( )

) ( )

( ))

( (

)

(

2 i 2 i

i

x f x

X E X

E X

Var = − =  − 

(48)

Expected value

(49)

= x f x dx X

E ( ) ( )

=

i

i

i

f x

x X

E ( ) ( )

(50)

X f(xi)

Head 1 0.5

Tail 0 0.5

5 . 0 )

( X = E

0 1

(51)

Y f(yi)

1 1/6

2 1/6

3 1/6

4 1/6

5 1/6

6 1/6

5 . 3 )

( Y =

E

(52)

1 )

1

( = E

1 )

( 1 )

1

( =  =

i

x

i

f E

c c

E ( ) =

X f(xi)

1 1/2

1 1/4

1 1/8

1 1/8

(53)

) (

3 )

3

( X E X

E =

) ( 3 )

( 3

) ( 3

) 3

( X x f x x f x E X

E

i

i i

i

i

i

 =

 

= 

=  

X 3X f(xi)

1 3 1/2

2 6 1/4

3 9 1/8

4 12 1/8

) (

)

( cX c E X

E =

(54)

) (

) 1 ( )

( )

1 ) (

( ))

(

( E X E E X E X E E X

E =  =  =

))

2

( ( )

( )

( )

) (

( )

) (

( E X X E E X X E X E X E X

E =  =  =

(55)

E

 

) ( ),

( ),

(

* x f x f x

f i i

(56)

100 x + 10 x

i

( a x

i

+ b y

i

) = a

i

x

i

+ b

i

y

i

) ( )

( )

( a X b Y a E X b E Y

E + = +

(57)

100 x + 10 x

X Y 100X 10Y 100X+10Y f

1 (H) 1 100 10 110 1/12

0 (T) 1 0 10 10 1/12

1 (H) 2 100 20 120 1/12

0 (T) 2 0 20 20 1/12

1 (H) 6 100 60 160 1/12

0 (T) 6 0 60 60 1/12

    

] 60 10

110 )[

12 / 1 ( )

10 100

( X + Y = + +  +

E

85 )

( 10 )

(

100 + =

= E X E Y

(58)

)) 2

( (

)

( X E X E X

Var = −

2 2 ) ( ( ))

( X E X

E

=

( X

2

2 X E ( X ) ( E ( X ))

2

)

E − +

(59)

2

2

( )

)) (

( )

( X E X E X E X c

Var = −  −

For any constant c

(60)

0 )

1

( = Var

) (

)

( aX a 2 Var X

Var =

(61)

Thank you !!

참조

관련 문서

③ 한 이동통신회사의 통계자료에 의하면 과거 고객들의 평균 통화시간은 2분 30초였다. 그런데 이 통신회사는 통화요금을 인하하면 고객들의 평균 통화시 간이

 평균 이상의 학생 수와 평균 이하의 학생수를 얻 어내어 출력한다..  학생들의

평균,

표본의 크기 n이 크면, 평균 μ, 표준편차 σ인 모집단 에서의 확률표본에 대하여 의 분포는 평균 μ이고 표준편차 인 정규분포와 근사하게 된다..

변화율 계산시 원 수량과 가격을 평균 수량과 평균 가격으로 대치하면

순자산, 가구소득 분위별 평균, 점유율 및

(The algebraic mean of west and east, and south and north components) VWD,VWS : 도(˚)단위의 평균 벡터풍향과 ㎧단위의 평균

(The algebraic mean of west and east, and south and north components) VWD,VWS : 도(˚)단위의 평균 벡터풍향과 ㎧단위의