• 검색 결과가 없습니다.

확률변수와 확률분포 (Random Variable & Probability Distribution)

N/A
N/A
Protected

Academic year: 2022

Share "확률변수와 확률분포 (Random Variable & Probability Distribution)"

Copied!
49
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

확률변수와 확률분포 (Random Variable

& Probability Distribution)

(2)

■ 확률변수(random variable)

표본공간에서 정의된 실수 함수

◦ 불확실성을 가지는 사회적‧자연적 현상을 일종의 확률실험으로 이해

◦ 여기서 얻어진 표본공간을 숫자로 표시하여 불확실한 현상을 수학적으로 모형화 함

◦ 이를 통해 구체적으로 계량화된 분석을 할 수 있음

(3)

◉ 동전 3개 던지기

◦  : 앞면의 수,  : 앞면과 뒷면의 수의 차이

  {  , , , , , ,   }

↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓

3 2 2 2 1 1 1 0

3 1 1 1 1 1 1 3

(4)

◦ 확률변수는 정의역이 표본공간  이고 공역이 실수인 함수

◦ 표본공간의 임의의 원소  에 대해 원칙적으로  와 같이 표시해야 하지만 편의상  표시를 생략

◦ 통계학에서는 일반적으로 확률변수를 대문자  ,  , 

등으로 표시하며 확률변수가 취하는 값을 소문자  ,  , 

(5)

◉ 동전을 앞면이 나올 때까지 던지는 확률실험

◦  : 동전을 던지 횟수,  : 앞면이 나올 때까지의 뒷면의 수

  { ,  , , ,  , ⋯ }

↓ ↓ ↓ ↓ ↓

1 2 3 4 5 ⋯

0 1 2 3 4 ⋯

(6)

◦ 확률변수는 변수가 취하는 값에 따라 이산확률변수와 연속확률변수로 나눔

이산확률변수(discrete random variable): 확률변수가 가질 수 있는 값들이 가산(countable) 또는 셀 수 있는 경우

- ‘가산’ 또는 ‘셀 수 있다’는 말은 확률변수의 값들이 자연수 1, 2, 3, ...과 대응관계를 가진다는 뜻

- 예) 불량품의 개수, 사고건수,...

연속확률변수(continuous random variable): 가질 수 있는 값이 셀 수 없을 정도로 많은 경우

- 예) 수명, 신장, 체중

◦ 이산형과 연속형의 구분이 명확하지 않는 경우, 가정의

(7)

■ 확률분포(Probability Distribution)

◦ 확률변수는 표본공간의 값을 숫자로 바꾼 함수이기 때문에 확률변수가 어떤 값을 가진다는 것은 표본공간 내에

대응하는 원소들이 존재

-    이면 표본공간에      ∈ 를 만족하는 사건이 존재

- 임의의 상수  ,  에 대해  ≤  ≤  이면 이에 해당하는 사건    ≤  ≤   ∈ 이 존재

⇨ 이는 확률변수에 대해    또는  ≤  ≤  에 대응하는 확률을 계산할 수 있음

(8)

◉ 동전을 세 번 던지기

       

         

         

       

(9)

◦ 표본공간에서 사건의 확률은 단순히 확률

◦ 확률변수는 숫자로 표시되어 특정 지점이나 영역에서의 확률을 표시할 수 있어 확률이 어떤 형태로 분포되었다는 말을 할 수 있음 ⇨ 그림으로 표시가능

◦ 확률변수가 가질 수 있는 값에 대해 확률을 표시한 것을 확률분포(probability distribution)라고 함

◦ 확률분포표(probability distribution table): 확률변수의 확률을 표로 표시한 것

- 예) 동전 세 번 던지기: 앞면의 수 

 0 1 2 3

    

 

 

 

(10)

◦ 확률은 모집단이 어떤 형태로 이루어져 있는지를 보여줌

⇨ 확률분포 또한 모집단을 숫자로 표시했을 때의 형태를 표시한 것 = 모집단의 확률구조

◦ 모집단의 확률구조를 표시하는 방법

- 이산확률변수: 확률질량함수, 누적분포함수, ...

- 연속확률변수: 확률밀도함수, 누적분포함수, ...

(11)

□ 확률질량함수(probability mass function, pmf)

◦ 이산확률변수  가 임의의 값  일 확률    를  에 대한 함수로 생각

    

◦ 경우에 따라 확률변수 를 강조하기 위해  로 표시

(12)

◉ 동전 세 번 던지기

◦  : 앞면의 수 ⇨ 가 가질 수 있는 값은   0, 1, 2, 3

  

 ,   

 ,   

 ,   

◦  : 앞면과 뒷면의 수의 차이 ⇨   1, 3

  

  

 ,   

  

(13)

◉ 앞면이 나올 때까지 동전을 던지기

◦  : 던진 횟수

        

        

 

        

 

⇨  

     … - 기하분포(geometric distribution)

(14)

◦  : 뒷면의 수

-    의 관계를 가지며 해당 확률은 동일

  

 ,   

 

,   

 

, ⋯

⇨  

        …

(15)

○ 확률질량함수의 성질

◦ 는   일 때의 확률이기 때문에, 가 가질 수 있는 값이    …이면

① 모든     …에 대해  ≤  ≤ 

  

  

③  ≤  ≤  

∈ 



(16)

○ 확률변수의 변환(transformation)

◦ 확률변수의 함수

- 예)  ,    

◦ 함수의 함수도 함수 ⇨ 확률변수의 함수도 확률변수 - 예) 동전 세 번 던지기

 0 1 2 3

 0 1 4 9

 2.25 0.25 0.25 2.25

    

 

 

 

    ,     

(17)

□ 확률밀도함수(probability density function)

◦ 세 번째 그림은 연속확률변수 의 분포형태 모집단의

형태를 나타낸 것으로 임의의 지점 에서의 밀도를  라고 표시하면  를 확률밀도함수라고 함

(18)

◉ 0~12까지의 숫자가 표시된 돌림판

◦ 표본공간:        ≤ 

◦  : 바늘이 지적하는 위치

◦ 0에서 12사이에서 발생가능성이 동일

⇨ 밀도는 이 구간에서 동일 :   

◦ 전체 면적은 1이 되어야 하므로   

  

 ,    ≤ 

(19)

○ 확률밀도함수에서의 확률

◦ 히스토그램에서 면적이 해당 구간에서의 비율(상대도수)

◦ 확률밀도함수에서의 면적이 해당 구간에서의 확률

◦  가 구간   에 속할 확률

 ≤  ≤  

 

- 예) 가 3에서 6사이에 있을 확률

 ≤  ≤   



  

◦   일 확률은?

(20)

◦ 어떤 점에서는 면적은 의 크기와 관계없이 항상 0

◦  가 연속확률변수일 때에는 모든  에 대해     

◦ 확률밀도함수  는  에서의 확률이 아니라 상대적인 밀도를 나타내는 것

◦  가 연속확률변수이면

           ≤     ≤       ≤  ≤ 

(21)

○ 확률밀도함수의 성질

◦ 임의의 연속확률변수 의 확률밀도함수  는

① 모든  에 대해  ≥ 

 ∞    

③    ≤  

 

누적분포함수(cumulative distribution function): ③의 특별한 형태

 ≤  

 ∞

   

(22)

■ 기댓값(expectation, expected value)

◉ 표본평균

◦ 임의로 5개의 표본을 선택: 1, 1, 2, 5, 6

◦ 표본평균

  

        

  × 

   × 

   × 

   × 

  

⇨ 관측된 값에 자료 중 그 값이 차지하는 비율을 곱하여 더한 것으로 표시

(23)

◦ 전체 표본이  개 있고 자료 중 서로 다른 값이  개가 있어 이들 값을  … 라고 하고  의 값을 가지는 자료의

개수를  라고 하면

 

 ⋯  

  



  

 는  의 자료가 차지하는 비율

◦ 통계적 확률의 관점에서 볼 때,  을 계속 크게 하면

표본들은 모집단으로, 표본비율  는 확률질량함수 로, 표본평균은 모평균(population mean)으로

 

  

(24)

◦ 표본평균이 자료들의 무게중심이듯이 평균은 확률분포(또는 모집단)의 무게중심

◦ 확률변수의 기댓값: 확률변수에 대하여 평균적으로 기대하는 값이라는 의미 = 모평균

- 확률변수 의 기대값

 

   

(25)

○ 연속확률변수의 기댓값

◦ 이산형의 기댓값에서 -

으로

- 확률질량함수       를 확률밀도함수에 단위길이를 곱한   로 바꾸어 계산

   

  

(26)

◉ 동전 세 번 던지기

◦  : 앞면의 수

   

◉ 돌림판

◦    ,    ≤ 

   

(27)

○ 변환된 변수의 기댓값

◉ 동전 세 번 던지기

◦    의 기댓값은?  



◦  의 확률질량함수  를 유도

  ,   

⇨     × 

   × 

  

(28)

◦  의 확률질량함수

  

      

  

  

      

  

◦   의 첫 번째 항과 두 번째 항

 × 

        

 × 

        

⇨    

  

  

(29)

◦ 확률변수 의 함수인    의 기댓값

   

  이산확률변수

   연속확률변수

- 이산확률변수:  



- 연속확률변수:  

 

(30)

○ 기댓값의 성질

① 임의의 상수  의 기댓값은    

  

  

②     

      

         

③       

  



  

 

      

(31)

◉ 의 기댓값

  

  

  

  

 

  

 

  



      

◦    

◦  

  

  

◦    

(32)

□ 모분산(population variance)

◦ 표본분산

   

  

      

  

  

◦  을 계속 크게 하면

- 표본분산은 모분산으로 -  는  로

-  는  로

-    은 1로

(33)

◦ 모분산을  로 표시

   

  

   → 

  

  

◦ 확률변수 의 분산을   로 표시

  

      - 분산은      의 기댓값

◦   

         

◦ 연속확률변수

 

    

  

 

 

(34)

◦ 표준편차:  

 

◉ 동전 세 개를 던지기: 앞면의 수 의

◦ 평균:   

◦ 분산:        

◦ 표준편차:     

(35)

◉ 이산균일분포

 1 2 3 4

 

 

 

 

◦ 2.5를 중심으로 대칭이므로      

◦   



◦      

 

 

  

◦  

   

(36)

◉ 돌림판

  ,    ≤ 

◦   

◦   

◦   

◦    

(37)

○ 기대값의 성질

⑤             

               

     

- 위치의 변화를 주는 상수  는 분산에 영향을 주지 않음 - 분산은 측정단위 척도의 제곱으로 표시되기 때문에  의

제곱을 곱함

⑥      

    

(38)

■ 결합분포와 주변분포

◉ 동전 세 번 던지기

◦  : 앞면의 수,  : 앞면과 뒷면의 수의 차이

  {  , , , , , ,   }

↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓

3 2 2 2 1 1 1 0

3 1 1 1 1 1 1 3

◦ 두 변수를 동시에 고려한 확률분포?

  0 1 2 3

1

(39)

□ 결합확률질량함수(joint p.m.f.)

◦ 두 개 이상의 확률변수들을 동시에 고려한 확률분포

◦ 두 이산확률변수 와 에 대해

         

- 수식에서 ,는 ∩ 를 의미 - 예) 동전 세 번 던지기

  

 ,   

 ,   

 ,   

◦  개의 이산확률변수  …에 대해

…    …  

(40)

□ 주변확률질량함수(marginal p.m.f.)

◦ 표본공간이 사건  …로 분할될 때 사건 의 확률은

 

  

∩

◦ 사건  가    , 가    라고 하면

∩      

     

  

∩ 

  

    

⇨  

 ,  



(41)

◦  를 의 주변확률질량함수,  를 의 주변확률질량함수라고 함

◉ 동전 세 번 던지기 

 합

0 1 2 3

 1 0 3/8 3/8 0 3/4

3 1/8 0 0 1/8 1/4 합 1/8 3/8 3/8 1/8 1

(42)

○ 독립 확률변수

◦ 사건  와  는 독립 ⇆ ∩  

◦ 두 확률변수 와 는 독립 ⇆ 모든  에 대하여

    

◦  개의 이산확률변수  …이 서로독립(상호독립) ⇆ 모든 … 에 대해

 …   

 ⋯ 

 

  



(43)

◉ 동전 세 번 던지기

   ≠     

⇨  와  는 독립이 아님

◉   

 ,    ,   

  1 2 3

1 1/36 2/36 3/36 1/6 2 2/36 4/36 6/36 2/6 3 3/36 6/36 9/36 3/6

1/6 2/6 3/6 1

◦ 모든  에 대해    성립

(44)

□ 기댓값

◦  

 ,  



◦ 확률변수  와  에 대해, 의 기댓값? 의 기댓값?

◦ 결합확률질량함수나 결합확률밀도함수를 이용

 

  

(45)

○ 기댓값 정리

◦    

◦  와  가 독립이면   

(46)

○ 공분산(Covariance)

◦ 표본공분산     

  

    

◦ 두 확률변수  와  의 공분산

 

        

       

◦ 두 확률변수의 직선관계의 정도를 나타내는 측도

◦  와  가 독립이면     이므로

     하지만 그 역은 일반적으로 성립하지 않음

(47)

◉ 결합확률분포표

 -1 0 1 

0 1



 0 

 0 

 0



 

 

 

 

 1

◦    ,    

◦  

◦    

 ≠ 

 × 

    ⇨ 독립 아님

(48)

◦ ±     ±  

◦  와  가 독립이면 ±   

(49)

○ 상관계수(coefficient of correlation)

◦ 공분산은 척도에 영향을 받음 ⇨ 표준화 필요

◦ 두 확률변수 와 의 상관계수

    

  



◦     라고 표시하면

  



 



 

 

 



 

◦   ≤  ≤ 

참조

관련 문서

• For the continuous random variable Y the probability density function f ( y ) can be represented by an equation , which can be described graphically by a curve. •

Family support was selected as an independent variable, probability game item addiction was placed as a dependent variable, and friendship support,

10.2 Two-variable diagrams: pE/pH diagrams (Pourbaix diagram).. Distribution of species in aquatic systems. 10.2 Two-variable diagrams: Methods of

Torque & power delivered by hydraulic motors Torque & power delivered by hydraulic motors Performance of hydraulic motors.. Comparison of variable performance

Operation of gear, vane, piston pumps Flow rate delivered by pumps.. Flow rate

Random Forests는 과학계는 물론 산업계에서도 많이 사용되는 Machine Learning 알고리즘으로, 매우 우수한 성능을 보여주는 알고리즘 중에 하나입니다.. Random

- The probability density function of the Normal distribution is symmetric about its mean value, and this distribution cannot be used to model right-skewed or left- skewed

- The best value of a parameter of a probability distribution should be that value which maximizes the likelihood or joint probability of occurrence of