• 검색 결과가 없습니다.

=원소

N/A
N/A
Protected

Academic year: 2022

Share "=원소"

Copied!
14
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

1.1 확률변수와 확률밀도함수

확률실험(probability experiment)이란 실험의 결과가 여러 가지의 경우로 나 타나는 실험을 의미한다. 확률실험의 결과로 나타날 수 있는 모든 실현치 (outcomes)들의 집합을 표본공간(sample space,

)이라 하자.

정의 1 확률변수

표본공간의 각 원소 ∈

에 대해

   를 통해 하나의 실수값을 할당 하는 함수

를 확률변수(random variable 또는 )라 한다. 즉, 확률변수

는 표본공간에서 정의되는 실수값을 취하는 함수(real-valued function)로 다음 과 같이 표현된다.



참고 확률변수는 흔히 함수의 표현으로 사용하는   ⋯ 대신 대문자 기호를 이용 하여

 ⋯ 등으로 나타낸다.

Remark

확률변수

가 취하는 구체적인 값은 흔히 소문자 로 나타내며, 이들의 모임을

의 영역(range)이라 하고 흔히

 ⋯ 등으로 나타낸다.

예제 1 공정한 동전을 2회 던지는 확률실험에서 표본공간은

 









 ≡     이며, 표본공간에서 정의되는 함수

 =원소 의 앞면의 수, ∈

(2)

3

1.1 확률변수와 확률밀도함수

으로 정의하면, 함수

는 실수값을 가지는 함수이므로 확률변수가 된다. 이때,

의 영역은

   가 된다.

통계학은 확률변수에 대한 올바른 이해로부터 시작된다고 말할 수 있다. 특히

“확률변수는 분포를 가진다.”

는 개념을 갖는 것은 매우 중요하다. 아래의 (예제 2)를 통해 이 개념을 설명하기로 한다.

예제 2 (예제 1)에서 확률변수가 취하는 값들에 대한 확률을 구하면

  



  

  



또는



  

  



  

이다. 위의 결과는 다음 식

  

  

 

     

    

  

으로 정리된다. 위 식은 다시 다음의 표

   합

     1

또는 다음의 그림

(3)

으로 나타낼 수도 있으며, 이를 확률변수

의 확률분포(probability distribution)또 는 분포(distribution)라고 한다. 즉, 확률변수는 확률분포를 가지며, 확률분포는 확 률변수가 취하는 값에 대한 가능성을 확률적 구조로 나타낸 것이라 할 수 있다.

확률변수는 위의 예에서와 같이 이산적인 값만을 취하는 경우와, 연속적인 구간 내의 임의의 실수값을 가지는 경우로 나누어진다. 전자의 경우를 이산형 확률변수 (discrete )라 하고, 후자의 경우를 연속형 확률변수(continuous )라 한다.

이산형 확률변수는 이산형 확률분포  를 가지며,  는 다음을 만족한다.

(a)   ≥    

(b)

 

   

(c)

 ≤

≤  

∈   

 

 … 











연속형 확률변수는 연속형 확률분포  를 가지며, 는 다음을 만족한다.

(a)   ≥    

(b)

 ∞     

(c)

 ≤

≤  

   



  1/2

1/4

0 1 2 

(4)

5

1.2 누적분포함수

이산형 분포에서는 한 점에서의 확률이 이거나 이 아닐 수도 있다. 반면 연속형 분포에서는 한 점에서의 확률은 면적이 이므로 반드시 이 된다. 따라서

가 연속 형인 경우에는

 ≤

≤  

 ≤

  

 

≤  

 

 

이 성립한다. 또한 이산형 분포에서는 막대의 높이가 곧 그 점에서의 확률을 의미하 지만, 연속형 분포의 함수값은 그 자체로 확률을 의미하는 것은 아니며, 다만 그 값 주변의 값을 취할 가능성을 상대적인 높이로 나타낸 것이다. 따라서 연속형의 경우 에는  아래 부분의 면적이 을 만족할 뿐이며, 한 점에서의 함수값 자체는 얼마 든지 보다 클 수도 있다는 점에서 유의할 필요가 있다.

Remark

이상에서 정의된 이산형과 연속형의 확률분포 를 확률밀도함수 (probability density function 또는 )라 부르기로 한다. 확률변수

의 분포를 묘사하는 방법에는 확률밀도함수 외에도 누적분포함수, 적률생성함수 등이 있다.

1.2 누적분포함수

정의 2 누적분포함수

확률변수

의 누적분포함수(cumulative distribution function 또는 )는

  

≤ 

으로 정의된다. 누적분포함수는 간단히 분포함수(distribution function 또는

)라 부르기도 한다.

다음의 [그림 1]은 이산형과 연속형 확률변수에 대한 누적분포함수의 형태를 나타 낸다. (a)는 이산형의 경우로 계단함수(step function)의 형태를 취하며, (b)는 연속 형의 경우로 전 구간에서 연속함수의 형태를 취한다. 두 경우 모두, 모든 점에서, 우측으로부터 연속(continuous to the right)인 성질을 만족한다.

(5)





(a)

: 이산형 (b)

: 연속형

그림 1 이산형과 연속형의 누적분포함수의 형태

누적분포함수

 는 다음과 같은 특성을 가진다.

(ⅰ)  ≤ 이면

 ≤

이다. 즉,

는 비감소(non-decreasing) 함수 이다.

(ⅱ)

 ∞  

lim

 →  ∞

  이고

 ∞  

lim

 →  ∞

  이다.

(ⅲ)

lim

 →  

   

 를 만족한다. 즉,

 는 우측으로부터 연속인 성질을 만족하는 함수 즉, 우연속함수(right continuous function)이다.

(

lim

 →  

의 의미는 보다 큰 쪽에서(양의 방향에서) 으로 수렴하는 것을 의미한 다.)

참고 1. 위의 조건 (ⅰ) ~ (ⅲ)을 만족하는 함수는 확률변수의 누적분포함수로 간 주될 수 있다.

2. 모든 확률변수는 누적분포함수를 가지지만, 반드시 확률밀도함수를 갖는 것은 아니다.

누적분포함수에 대한 추가적인 성질은 다음과 같다.

(ⅳ)  ≤

 ≤ 이다. 이는 (ⅰ)과 (ⅱ)로부터 자명하다.

(6)

7

1.2 누적분포함수

(ⅴ)

  

lim

 →  

   

  이다. 이는

는 좌연속함수는 아닐 수 있음을 의미한다.

(ⅵ)

  

 

 이다.

(ⅶ)

 

≤  

 

이다.

누적분포함수와 확률밀도함수와의 관계는 다음과 같다.

의 확률밀도함수가 존재 할 때

 

 

 ≤ 

 

 

 ∞   

 

이 성립한다. 또한 위의 성질 (ⅵ)로부터

  

 

 

이며, 특히

가 연속형인 경우에는

    

 

가 성립되어 누적분포함수의 미분을 통해 확률밀도함수를 구할 수 있다.

Remark 

의 분포함수가 항상 연속형 또는 이산형인 것만은 아니다. 예를 들어, 함 수

 

 

   



  ≤   

  ≥ 

(7)

수 있으며, 아래의 [그림 2]로부터 이산형(계단함수)과 연속형(연속함수)이 혼합된 형태임을 알 수 있다.





 

그림 2 혼합형 누적분포함수

또한, 위 분포함수로부터



   

  ≤   

이고

 

   

이므로, 확률밀도함수는

   

 



  ≤   



   

      

이 된다.

(8)

9

1.3 확률변수의 기댓값

1.3 확률변수의 기댓값

정의 3 기댓값

확률변수

가   를 가질 때,

의 함수인 

의 기댓값(expectation or expected value)은

 

로 표기하고, 다음과 같이 정의된다.

 

 

 

   

 

 ∞      

 

주의 이 책의 전반에서 

의 기댓값에 대한 표현으로



와

 

를 혼 용하여 사용하기로 한다.

이제 통계학에서 중요하게 취급되는 몇 가지 

의 형태에 대해 소개한다.

첫째, 

 

일 때

 ≡

 

 

 

 ∞    

 

이며, 이를

의 기댓값 또는 평균(mean)이라 하며, 분포의 중심위치(또는 무게중 심)를 나타내는 값이라 할 수 있다.

둘째, 

  

 일 때

(9)



 또는   ≡

 

 

    

 

 ∞     

 

이며, 이를

의 분산(variance)이라 하고,  



 를

의 표준편차 (standard deviation)라 한다.

의 표준편차는 분포가 평균()으로부터 퍼져 있는 가를 나타내는 값이라 할 수 있다. 또한



는 다음의 식을 통해 보다 간편하게 계산된다.



 

  

마지막으로, 

  일 때

 ≡



 

   

 

 ∞    

 

이며, 이를

의 적률생성함수(moment generating function 또는 )라 한다.

Remark

적률생성함수는 나 와 마찬가지로 분포를 나타내는 또 다른 방 법으로 이해될 수 있다. 다만 모든 분포에 대해 가 반드시 존재하는 것은 아니 지만, 존재하기만 하면 유일하게 대응되는 성질을 가진다.

의 를

라 할 때,

에 대한 차 미분을 통해

를 구할 수 있다. 즉,

′   





   

  

  

(10)

11

1.3 확률변수의 기댓값

″  





  

  

이며, 일반적으로 다음의 관계

  

      ⋯

가 성립된다. 여기서

를

의 차 적률(moment)이라 한다.

참고

 

의 차 중심적률(central moment)이라 한다. 예를 들어, 2차 중심적률은 분산과 동일하다.

예를 들어,

의 를 알고 있다면

와



도 다음의 관계식

 

′



 

″ 

′

을 통해 쉽게 구할 수 있다.

Remark 

의 에 대한 다음의 Taylor전개식

 

  



′ 

  

″

⋯ 

 

⋯

   

  

⋯ 

⋯

으로부터 

의 계수가

임을 알 수 있다. 역으로, 모든 차수의 적률을 알고 있다면 위 관계를 통해

를 구할 수도 있다.

(11)

정의 4 왜도와 첨도

확률변수

의 평균과 분산을 와 이라 하자. 표준화된(평균=, 분산=인) 확률변수의 차와 차 적률에 해당하는 다음의 두 측도 즉,



 



 

 

을 각각 분포의 왜도(skewness)와 첨도(kurtosis)로 정의한다.

Remark

왜도는 분포의 치우친 정도를 나타내는 측도이며, 첨도는 분포의 꼬리 (tail) 부분의 두터운 정도를 나타내는 측도이다.

다음의 [그림 3]과 [그림 4]는 분포형태에 따른 왜도와 첨도의 변화를 나타낸다.

편의상 모든 분포의 평균은 이고 분산은 인 것으로 가정한다.

[그림 3]에서 (a)는 오른쪽으로 꼬리가 길게 늘어진(또는 왼쪽으로 치우친) 형태의 분포를 나타내며, 이 경우 왜도는 양의 값을 가지게 된다(skewed positively 또는 skewed to the right). (b)는 대칭형의 분포로 왜도는 이 되며, (c)는 왼쪽으로 꼬 리가 길게 늘어진 형태로 왜도는 음의 값을 가진다(skewed negatively 또는 skewed to the left).

(a) (b) (c)

그림 3 분포형태에 따른 왜도값의 변화(평균=, 분산=)

Skewed to the right

Skewed to the left

(12)

13

1.3 확률변수의 기댓값

주의 skewed to the right에서 to the right의 의미는 왜도의 값이 0보다 큰 값 즉, 수직선상에서 0보다 우측에 위치하는(to the right) 값을 갖는 형태라는 의미이다. 이를 “우측으로 치우친”으로 표현하는 것은 잘못된 것이므로 유의 하기 바란다.

[그림 4]는, 편의상 대칭인 분포에 대해, 첨도값의 변화를 살펴 본 것이다. 그림에 서 점선은 표준정규분포를 나타낸다. (a)는 꼬리부분의 확률이 상대적으로(표준정규 분포에 비해) 큰 경우(heavy tailed)에 해당하며, 이 경우 첨도의 값은 양(positive) 의 값을 가진다. 반면 (c)의 경우는 꼬리가 짧은(short tailed) 형태이므로 4차 적률 의 값이 작을 수밖에 없을 것이므로 음의 값을 가지게 된다.

(a) (b) (c)

그림 4 분포형태에 따른 첨도값의 변화(평균=, 분산=)

 

 

 

(13)

1

확률변수

에 대해



 을 최소로 하는 상수 는  

임을 보여라.

참고 확률변수

에 대해



 을 최소로 하는 상수 는

의 중위수 (median) 즉,

 ∞     

    

을 만족하는 으로 주어진다. 이 사실은 7.3절의 연습문제 1(d)와 10.3절 의 절대오차손실함수에 대한 베이즈추정량의 유도에 이용된다.

2 

의 누적분포함수가

  

 

   



  ≤   



  ≤   

  ≥ 

일 때, 물음에 답하여라.

(a)

와



를 구하여라.

(b)

 ≦

 을 구하여라.

3

확률변수

의 를

라 할 때,

 

 의 가

  



(14)

15

연습문제

임을 보여라.

4

다음 분포에 대해 왜도와 첨도를 구하여라.

(a)   

 



      

 

(b)  



        

 

(c)

  exp

인 분포

참고 (a)와 (b)는 그림을 그려 왜도와 첨도값을 비교해 볼 것. (c)는 표준정규분포

 의 경우에 해당하며(3.2절 참고), 왜도=첨도=0의 값을 가진다.

5

   ln

라 할 때, ′   ″  이 성립함을 보여라.

참고 를 흔히 누율생성함수(cumulant generating function 또는 )라 한 다.

참조

관련 문서

The phase difference due to optical path length differences for the front and back reflections is given by.. Analysis of Interference in Dielectric Films Analysis of

이 변환기는 POTENTIOMETER TRANSMITTER( 가변저항 의 저항값을 계장신호 ) (mA,V) 로 변환하여 시스템에 적용할 수 있도록 한 계기이다.. 가변저항에는 여러 가지의 용량이 있으나 대체적으로

( 나) 그러나, the category of (all) torsion abelian groups 에서는 categorical product 가 항상 존재함을 보여라.. 다음 정의는 앞으로 여러

[r]

, 에서 발생하는 행정수요를 처리하기 위해 도시권 내에 있는 여러 지방자치단체가 행정사무를 종합적 통일 적으로 처리하는 지방행정방식을 의미한다 이러한 광역행정은..

어떤 설명에서는 시계방향으로 키를 배열하기도 하고 시계반대방향으로 키를 놓기도 하는데 원리는 같습니다.. 먼저 이 그림에 배열되는

(2) 엇비슷한 정책제언 - 사회적 기업 스스로 경쟁력 제고 요구 대부분의 보고서는 사회적 기업이 인건비나 정부지원금 대비 높은 영 업활동 수입을 거두고

따라 서 우리나라 의과대학도 의과대학 수업의 특징과 구성원의 요구사항이 반영된 수업평가 문항을 개발하고 수업평가 결과가 수업의 지속적인 질 향상에 활용될 수 있는 운영