기초통계량와확률

(1)

기초통계량와 확률

에술심리치료양적연구방법론을 위한 기초 개념

(2)

기초통계량

교재 32 쪽 부

터

(3)

자료를 요약하는 방법

1. 그림

2. 표

3. 숫자 => 대표값 ,

산포도

(4)

대표값은

예 > 우리반 통계학시험 결과 평균 =60,

최소값 30, 최대값 80

중심위치

산포도 ( 퍼진 정도 )

산포도는

중심위치에 관한 측도 퍼진 정도에 관한 측도

50 100 150 200 250 300 350 400 450 500 550 600 650 700 750 800 850 900 950

2019 직장인 토익점수 분포

(5)

우선 용어에 익숙해지기 위하여

앞으로 평균 (mean),

분산 (variance) 등의 용어가 나오는데

이 값들이 모집단 (population)에서 구한 것인지 표본 (sample)에서 구한 것인지 구분해줍니다 평균에는 표본평균과 모평균

분산에는 표본분산과 모분산

(6)

모수와 통계량

(Population)

모집단

- 우리가 관심을 갖 대상 전체는

표본 (sample)

모수 (parameter)

- 우리가 관심을 특정한 값갖는

통계량 (statistic)

< 연습 >

우리나라 남자대학생 의

월평균 용돈을 조사하기 위해

무작위 (random) 로 100 명을 뽑아

조사하여

평균값을 구했다

(7)

이제 대표값에 대하여 알아보겠습니다

대표값이 뭐였 지 ?

중심위치에 관한 측 도 !!!

(8)

평균 Mean

Average

대표적인

자료중심의 측도

= 합계 / 개수 대 표 값

n

X _  X

ⁱ

(9)

중앙값 Median

= 순서 중 가운데 값 대 표 값

6 7

4 5 2 3

1

5 6

4 3

1 2







 





 _

k X n

X

k n

X

Med k k

k

2 2 ,

1 2

,

) 1 ( )

( ) (

(10)

평균과 중앙값의 비교

160 170 180 190 200

Me d

Mea n

대 표 값

이상값 (outlier) 의 출현

(11)

평균과 중앙값의 비교

160 170 180 190 200

Me d

Mea n Mea

n Me d

대 표 값

이상값 (outlier) 의 출현

(12)

평균과 중앙값의 절충

정보의 활용 이상값에 취약

정보의 손실 이상값에 강함

평균 중앙값

타협이 필요

대 표 값

(13)

새로운 평균의 계산법

160 170 180 190 200

대 표 값

Mea n

(14)

절사평균

Trimmed Mean

= 양쪽 좀 자르고 나머지들 의 평균

이상값 (outlier) 에 영향을 별로 받지 않는다

정보의 손실이 적다

체조경기 , 다이빙 등

대 표 값

(15)

절사평균의 예

10% 절사평균

◦ 예 > 20 개의 자료 중 양쪽에서 하나씩 모두 2 개를 제거한 뒤 18 개의 평균

20% 절사평균

◦ 예 > 20 개의 자료 중 양쪽에서 두개씩 모두 4 개를 제거한 뒤 16 개의 평균

다이빙 점수

◦ 7 명의 심판 중 최고점과 최저점을 제외하고 5 명의 평균에 난이도를 고려해서 계산

◦ 자국심판의 우호적인 판정의 효과를 제거할 것으로 기대함

◦ 경쟁국 심판의 견제효과도 제거해줄 것으로 기대함

대 표 값

(16)

이제 산포도에 대하여 알아보겠습니다

산포도가 뭐였지 ?

자료가퍼진 정 도 !!!

(17)

분산

Variance

대표적인

산포도의 측도

= 편차제곱합 / 개수 산 포 도

Mea n

Why not n ?

과소추정

줄여주자

1 )

( ²

2







 n

X

S X ⁱ

(18)

분산 계산법

Data

1 2 3 4

(1-2.5)²+(2-2.5)²+(3-2.5)²+(4- 2.5)²

분산 =

4 3

산 포 도

= 1.667

(19)

표준편차 Standard Devia- tion

분산의 제곱근

= √( 편차제곱합 / 개 수 )

산 포 도

예 > 대학생 한달용돈

평균이 50 만원 , 표준편차가 10 만원

분산이 9

표준편차는 3

정상적인 분포에서는

±3 배의 편차안에 대부분의 데이터가 존재

분산이 2 표준편차는

_Mea

n

30 40 50 60 70 80 20

(20)

범위 Range

⁼ ^{최대값 -} ^최소값 ^=> 이상값에 영향을 받음

산 포 도

data = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13

2 3 4 5 6 7

1 8 9 10 11 12 13

범위 = 13 – 1 =12

중앙값 = 7

25% 25% 25% 25%

1 사분위수

최소값 = 1 3 사분위수 최대값 = 13

(21)

참고 >

분산은 뭔가를 알고 있 다 ?

 분산이 적은 자료가 좋은 자료인가 ?

예 > 중간고사 성적 평균 =30, 편차 =0 은 무슨 의미인가 ? 예 > 중간고사 성적 평균 =30, 편차 =10 은 무슨 의미인가 ?

 자료의 분산 ( 오차 ) 은 왜 생기는가 ? 그 이유를 말할 수 있다면…

 사람들이 모든 식당에 대한 평가가 다르다

 사람들은 모든 영화에 대한 평가가 다르다

즉 분산은 정보이다 ^{분산분석의 아이디어}

(22)

확률과 확률분포

SPSS 를 이용한 통계학 1~53P

(23)

통계학의 정의

1. 관심을 갖는 어떤 대상에서 자료를 수집하여

2. 이를 정리 , 요약하고

3. 자료를 분석하여 불확실한 사실에 대하여 과학적 , 합 리적 판단을 내린다

(24)

추론통계학 (Inferential Statistics)

대부분의 통계학 분야

…

이제부터

시작하려는 이야기

(25)

첫번째 이야기

확률

Probability

= Possibility 의 수리 적 표현

• 확률은 어떤 사건이 발생할 가능성 또 는 어떤 경우의 값을 가질 가능도를 뜻 한다 .

• 확률이론은 통계학 , 수학 등에 주로 이용되지만 자연과학이나 사회과학 분 야에서도 광범위하게 사용되고있다 . 잠재적인 사건의 발생 가능성 , 복잡한 체계의 내재된 구조를 파악하여 어떤 과학적 결론을 내리는데 사용되고 있 다 .

- Wikipedia

(26)

배우지 않아도

아는 확률

동전을 던져 앞면이 나올 확률 가위바위보에 이길 확률

주사위를 던져 1 이 나올 확률 내가 200 년 안에 죽을 확률 내가 이번 수업 A 받을 확률

(27)

확률의 최대값

최소값 ?

절대로 안 일어난다

반드시 일어난다 반반이다

확률은 0 에서 1 사이의 값이다

확률 =0

확률 =1 확률 =0.5

0 ≤ Pr(A) ≤ 1

(28)

통계학에서 왜

확률이

중요할까 ?

의사결정의 기준

◦ 판단기준

확률이 낮은 사건은 잘 일어나지 않는다 확률이 크면 가능성도 크다

확률에 의한 기대값의 계산

◦ 확률이 낮은 복권을 왜 사는가 ?

(29)

확률은 다음과 같은 조건을 만족 해야

확률이라 할 수 있다

=> ^{확률의 공리적 정의}

0 ≤ Pr(A) ≤ 1

Pr(S) = 1

(S 는 전체 집합 , 표본공간 )

배반인 집합 A1, A₂, …, A_n Pr(A₁∪A2∪ ∪… An)

= Pr(A₁)+Pr(A₂)+…+Pr(A_n) Note: 배반 (exclusive) 사건

동시에 발생하지 않는 사건

eg. 동전을 던지면 앞면과 뒷면이 서로 배반

(30)

다시 보는 조건

0 에서 1 사이의 값

전체사건의 확률은 1

동시에 일어나지 않는 사건들의

합집합 확률은 각각 확률의 합

이걸 안다면 다 아는 사실

• A 또는 B 가 이기는 경기

• A 가 이길 확률 0.7

• B 가 이길 확률은 ?

(31)

확률계산에서 알아야할 부분

조건부확률 (Conditional Prob- ability)

◦ Pr(B|A) = Pr(A∩B)/Pr(A)

사건의 독립

◦ 사건 A 와 B 가 서로 독립이면

◦ Pr(A|B)=Pr(A)

◦ Pr(B|A)=Pr(B)

◦ Pr(A∩B)=Pr(A)Pr(B)

A B

예 > 축구우승확률 0.4

야구우승확률 0.5 동반우승확률은 ? 0.4×0.5=0.2 Pr(A∩B) =Pr(A)Pr(B|A)=Pr(A)Pr(B)

=Pr(B)Pr(A|B)=Pr(A)Pr(B)

(32)

두번째 이야기

확률분포

Pr. Distribution

변수 variable

• 취하는 범위와

각 값을 취할 확률이 주어진다

• 이를 변수의 분포라 표현

x f(x)

= 변수의 분포

(33)

동전을 세번 던져 앞면의 수 X

X=0,1,2,3

실제로 정확한 표현은 x=0,1,2,3

Pr(X=x)

◦ Pr(X=0)=1/8

◦ Pr(X=1)=3/8

◦ Pr(X=2)=3/8

◦ Pr(X=3)=1/8 변수

x 0 1 2 3

Pr(X=x) 1/8 3/8 3/8 1/8

확률분포표 확률분포그림

0 1 2 3 x

f(x )

H H H H H T H T H T H H H T T T H T T T H T T T

(34)

한번 더

다음 게임 상금의 기대값은 ?

500 원

어떻게 ?

1000x1/4 + 500x1/2 +0x1/4

등수 1 등 2 등 3 등 상금 (x) 1000 500 0

확률 (f(x))

1/4 1/2 1/4

(35)

기댓값의 정의 _{기대값 구하는 방법}

( 변수 x 확률 ) 의 합

X 의 기댓값

=X 의 평균 ^E ⁽ ^X ⁾ ^  ^x ^ ^f ⁽ ^x ⁾

(36)

X 의 기대값 과

평균은 같 다 ?

X 60 70 80 90 계 도 수

1 3 4 2 10

• 평균은

• 기대값은

X 의 기댓 값 =X 의 평 균

10

) 2 90

4 80

3 70

1 60

(       

10 90 2

10 80 4

10 70 3

10

60 1      

(37)

확률분 포 ? ^이항분포

정규분포 t 분포

분포 F 분포

�

²

(38)

분포도 결국엔 확률을

구하기 위한 것

통신비는 평균이 6 만원 , 편 차가 1 만원인 정규분포를 따 른다

통신비 지출이 8 만원 이상인 소비자의 비율은 ?

8

(39)

정규분포와

Normal distribution

표준정규분포

Standard Normal distribution

평균이 μ 이고 분산이 σ² 인 정규분포 N(μ, σ²)

정규분포를 표준화하면

표준정규분포 N(0,1)

(40)

정규분포의 표시 X~N(μ, σ

²

)

평균을 중심으로 좌우대칭 평균주변의 확률이 가장 높다

±3σ 안에 대부분

정규분포의 특

징

(41)

표준화 ?

Standard- ize?

일반형 정규분포를

표준형 정규분포로 치환

X

0 Z

X ~N( 100, 10^2)

Z ~N(0, 1)

1 2 3

100 110 120 130

예 > 골다공증 검사후

의사 : 환자의 골밀도는 116 입니다 .

환자 : 좋다는 뜻인가요 ?

의사 : 표준화점수가 1.6 입니다 . 환자 : 아 , 좋은 편이군요 .

의사 : ( 음 .. 좀 똑똑한데 )

(42)

표준정규분포와 t 분포

정규분포를 표준화 할 때 분모에 σ 가 들어간다

이때 σ 를 몰라 대신 표본에서 얻 은 값 S 를 사용하면 t 분포

자유도의 개념

◦

Degree of freedom, df

� −� ´

� / √ ^� ^→ ^{� (0,1)}

� −� ´

�/ √ ^� ^→ ^{� (� −1)}

� _�− �´ ¿²

¿¿

�² =∑

�= 1

�

¿

(43)

t- 분포는 어떻게 생겼을까 ?

k 는 자유도 (degree of freedom)

정규분포와 비 표본수가 크면 슷…

점점 같아지네

(44)

표준정규분포 와

χ ² _분포

표준정규분포를 따르는 변수들의 제곱합은 χ² 분포를 따른다

χ² 분포도 자유도를 갖는다





^k

Z

_i

k

1

2 2

( )



(45)

직관을 믿는다면

χ²(k) 의 기대값은 ? 단 , 기대값은 평균과 같은 의미 답은 k

(46)

F 분포와

χ

²

분포

^χ² 분포를 따르는 변수들의 비율은 F 분포를 따른다

◦

엄격히는 자유도로 나눈 것들 의 비

F 분포도 자유도를 갖는다

2 2

2

1 2

1

/

) / ,

(

d

d d d

F

d d







(47)

F 분포의 모양

(48)

요약 및

단순화

평균을 구했어요

◦ 정규분포

비교를 위해 평균을 표준화했어요

◦ 표준정규분포

표준화할때 분산을 추정값으로 넣었어요

◦ T 분포

관측값과 기대값 ( 모평균 ) 의 차이를 보 기 위해 제곱을 해서 더했어요

◦ 카이제곱 분포

집단간의 차이와 집단내 차이를 비교하 기 위해 제곱합들의 비를 구했어요

◦ F 분포

(49)

두 집단의 평균비교

두 음식의 맛을 평가했어요 .

A 는 평점이 평균 4.3, B 는 평균 4.6 이었어요

두 평가의 평균차이가 0.3 인데 이값이 큰값인가요 ? 큰값인가 확인하기 위해서는 표준화해줘야죠 .

그럼 평균차이는 표준정규분포를 따르나요 ? 아니요 , 모집단의 표준편차 모르니 t 분포죠

그래서 이 두 집단의 평균을 비교하는 검정을 t 검정이라 해요 표준화해보니 그 값이 2.5 가 나왔네요 ? 큰값인가요 ?

(50)

어려운 것도 계속하다 보면…

기초통계량와확률

기초통계량와 확률

에술심리치료양적연구방법론을 위한 기초 개념

기초통계량

교재 32 쪽 부

터

자료를 요약하는 방법

1. 그림

2. 표

3. 숫자 => 대표값 ,

산포도

대표값은

예 > 우리반 통계학시험 결과 평균 =60,

최소값 30, 최대값 80

산포도는

중심위치에 관한 측도 퍼진 정도에 관한 측도

우선 용어에 익숙해지기 위하여

모수와 통계량

모집단

표본 (sample)

모수 (parameter)

이제 대표값에 대하여 알아보겠습니다

평균 Mean

Average

대표적인

자료중심의 측도

= 합계 / 개수 대 표 값

n

X   X

중앙값 Median

= 순서 중 가운데 값 대 표 값

평균과 중앙값의 비교

대 표 값

평균과 중앙값의 비교

대 표 값

평균과 중앙값의 절충

타협이 필요

대 표 값

새로운 평균의 계산법

대 표 값

절사평균

Trimmed Mean

= 양쪽 좀 자르고 나머지들 의 평균

이상값 (outlier) 에 영향을 별로 받지 않는다

정보의 손실이 적다

체조경기 , 다이빙 등

대 표 값

절사평균의 예

10% 절사평균

20% 절사평균

다이빙 점수

대 표 값

이제 산포도에 대하여 알아보겠습니다

분산

Variance

대표적인

산포도의 측도

= 편차제곱합 / 개수 산 포 도

Why not n ?



분산 계산법

분산 =

4 3

산 포 도

= 1.667

표준편차 Standard Devia- tion

분산의 제곱근

= √( 편차제곱합 / 개 수 )

산 포 도

범위 Range

산 포 도

data = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13

범위 = 13 – 1 =12

중앙값 = 7

1 사분위수

최소값 = 1 3 사분위수 최대값 = 13

참고 >

분산은 뭔가를 알고 있 다 ?

즉 분산은 정보이다 분산분석의 아이디어

확률과 확률분포

X _  X

즉 분산은 정보이다 ^{분산분석의 아이디어}

기댓값의 정의 _{기대값 구하는 방법}

=X 의 평균 ^E ⁽ ^X ⁾ ^  ^x ^ ^f ⁽ ^x ⁾

확률분 포 ? ^이항분포