• 검색 결과가 없습니다.

=원소

N/A
N/A
Protected

Academic year: 2022

Share "=원소"

Copied!
14
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

1.1 확률변수와 확률밀도함수

확률실험(probability experiment)이란 실험의 결과가 여러 가지의 경우로 나 타나는 실험을 의미한다. 확률실험의 결과로 나타날 수 있는 모든 실현치 (outcomes)들의 집합을 표본공간(sample space,

)이라 하자.

정의 1 확률변수

표본공간의 각 원소 ∈

에 대해

   를 통해 하나의 실수값을 할당 하는 함수

를 확률변수(random variable 또는 )라 한다. 즉, 확률변수

는 표본공간에서 정의되는 실수값을 취하는 함수(real-valued function)로 다음 과 같이 표현된다.



참고 확률변수는 흔히 함수의 표현으로 사용하는   ⋯ 대신 대문자 기호를 이용 하여

 ⋯ 등으로 나타낸다.

Remark

확률변수

가 취하는 구체적인 값은 흔히 소문자 로 나타내며, 이들의 모임을

의 영역(range)이라 하고 흔히

 ⋯ 등으로 나타낸다.

예제 1 공정한 동전을 2회 던지는 확률실험에서 표본공간은

 









 ≡     이며, 표본공간에서 정의되는 함수

 =원소 의 앞면의 수, ∈

(2)

3

1.1 확률변수와 확률밀도함수

으로 정의하면, 함수

는 실수값을 가지는 함수이므로 확률변수가 된다. 이때,

의 영역은

   가 된다.

통계학은 확률변수에 대한 올바른 이해로부터 시작된다고 말할 수 있다. 특히

“확률변수는 분포를 가진다.”

는 개념을 갖는 것은 매우 중요하다. 아래의 (예제 2)를 통해 이 개념을 설명하기로 한다.

예제 2 (예제 1)에서 확률변수가 취하는 값들에 대한 확률을 구하면

  



  

  



또는



  

  



  

이다. 위의 결과는 다음 식

  

  

 

     

    

  

으로 정리된다. 위 식은 다시 다음의 표

   합

     1

또는 다음의 그림

(3)

으로 나타낼 수도 있으며, 이를 확률변수

의 확률분포(probability distribution)또 는 분포(distribution)라고 한다. 즉, 확률변수는 확률분포를 가지며, 확률분포는 확 률변수가 취하는 값에 대한 가능성을 확률적 구조로 나타낸 것이라 할 수 있다.

확률변수는 위의 예에서와 같이 이산적인 값만을 취하는 경우와, 연속적인 구간 내의 임의의 실수값을 가지는 경우로 나누어진다. 전자의 경우를 이산형 확률변수 (discrete )라 하고, 후자의 경우를 연속형 확률변수(continuous )라 한다.

이산형 확률변수는 이산형 확률분포  를 가지며,  는 다음을 만족한다.

(a)   ≥    

(b)

 

   

(c)

 ≤

≤  

∈   

 

 … 











연속형 확률변수는 연속형 확률분포  를 가지며, 는 다음을 만족한다.

(a)   ≥    

(b)

 ∞     

(c)

 ≤

≤  

   



  1/2

1/4

0 1 2 

(4)

5

1.2 누적분포함수

이산형 분포에서는 한 점에서의 확률이 이거나 이 아닐 수도 있다. 반면 연속형 분포에서는 한 점에서의 확률은 면적이 이므로 반드시 이 된다. 따라서

가 연속 형인 경우에는

 ≤

≤  

 ≤

  

 

≤  

 

 

이 성립한다. 또한 이산형 분포에서는 막대의 높이가 곧 그 점에서의 확률을 의미하 지만, 연속형 분포의 함수값은 그 자체로 확률을 의미하는 것은 아니며, 다만 그 값 주변의 값을 취할 가능성을 상대적인 높이로 나타낸 것이다. 따라서 연속형의 경우 에는  아래 부분의 면적이 을 만족할 뿐이며, 한 점에서의 함수값 자체는 얼마 든지 보다 클 수도 있다는 점에서 유의할 필요가 있다.

Remark

이상에서 정의된 이산형과 연속형의 확률분포 를 확률밀도함수 (probability density function 또는 )라 부르기로 한다. 확률변수

의 분포를 묘사하는 방법에는 확률밀도함수 외에도 누적분포함수, 적률생성함수 등이 있다.

1.2 누적분포함수

정의 2 누적분포함수

확률변수

의 누적분포함수(cumulative distribution function 또는 )는

  

≤ 

으로 정의된다. 누적분포함수는 간단히 분포함수(distribution function 또는

)라 부르기도 한다.

다음의 [그림 1]은 이산형과 연속형 확률변수에 대한 누적분포함수의 형태를 나타 낸다. (a)는 이산형의 경우로 계단함수(step function)의 형태를 취하며, (b)는 연속 형의 경우로 전 구간에서 연속함수의 형태를 취한다. 두 경우 모두, 모든 점에서, 우측으로부터 연속(continuous to the right)인 성질을 만족한다.

(5)





(a)

: 이산형 (b)

: 연속형

그림 1 이산형과 연속형의 누적분포함수의 형태

누적분포함수

 는 다음과 같은 특성을 가진다.

(ⅰ)  ≤ 이면

 ≤

이다. 즉,

는 비감소(non-decreasing) 함수 이다.

(ⅱ)

 ∞  

lim

 →  ∞

  이고

 ∞  

lim

 →  ∞

  이다.

(ⅲ)

lim

 →  

   

 를 만족한다. 즉,

 는 우측으로부터 연속인 성질을 만족하는 함수 즉, 우연속함수(right continuous function)이다.

(

lim

 →  

의 의미는 보다 큰 쪽에서(양의 방향에서) 으로 수렴하는 것을 의미한 다.)

참고 1. 위의 조건 (ⅰ) ~ (ⅲ)을 만족하는 함수는 확률변수의 누적분포함수로 간 주될 수 있다.

2. 모든 확률변수는 누적분포함수를 가지지만, 반드시 확률밀도함수를 갖는 것은 아니다.

누적분포함수에 대한 추가적인 성질은 다음과 같다.

(ⅳ)  ≤

 ≤ 이다. 이는 (ⅰ)과 (ⅱ)로부터 자명하다.

(6)

7

1.2 누적분포함수

(ⅴ)

  

lim

 →  

   

  이다. 이는

는 좌연속함수는 아닐 수 있음을 의미한다.

(ⅵ)

  

 

 이다.

(ⅶ)

 

≤  

 

이다.

누적분포함수와 확률밀도함수와의 관계는 다음과 같다.

의 확률밀도함수가 존재 할 때

 

 

 ≤ 

 

 

 ∞   

 

이 성립한다. 또한 위의 성질 (ⅵ)로부터

  

 

 

이며, 특히

가 연속형인 경우에는

    

 

가 성립되어 누적분포함수의 미분을 통해 확률밀도함수를 구할 수 있다.

Remark 

의 분포함수가 항상 연속형 또는 이산형인 것만은 아니다. 예를 들어, 함 수

 

 

   



  ≤   

  ≥ 

(7)

수 있으며, 아래의 [그림 2]로부터 이산형(계단함수)과 연속형(연속함수)이 혼합된 형태임을 알 수 있다.





 

그림 2 혼합형 누적분포함수

또한, 위 분포함수로부터



   

  ≤   

이고

 

   

이므로, 확률밀도함수는

   

 



  ≤   



   

      

이 된다.

(8)

9

1.3 확률변수의 기댓값

1.3 확률변수의 기댓값

정의 3 기댓값

확률변수

가   를 가질 때,

의 함수인 

의 기댓값(expectation or expected value)은

 

로 표기하고, 다음과 같이 정의된다.

 

 

 

   

 

 ∞      

 

주의 이 책의 전반에서 

의 기댓값에 대한 표현으로



와

 

를 혼 용하여 사용하기로 한다.

이제 통계학에서 중요하게 취급되는 몇 가지 

의 형태에 대해 소개한다.

첫째, 

 

일 때

 ≡

 

 

 

 ∞    

 

이며, 이를

의 기댓값 또는 평균(mean)이라 하며, 분포의 중심위치(또는 무게중 심)를 나타내는 값이라 할 수 있다.

둘째, 

  

 일 때

(9)



 또는   ≡

 

 

    

 

 ∞     

 

이며, 이를

의 분산(variance)이라 하고,  



 를

의 표준편차 (standard deviation)라 한다.

의 표준편차는 분포가 평균()으로부터 퍼져 있는 가를 나타내는 값이라 할 수 있다. 또한



는 다음의 식을 통해 보다 간편하게 계산된다.



 

  

마지막으로, 

  일 때

 ≡



 

   

 

 ∞    

 

이며, 이를

의 적률생성함수(moment generating function 또는 )라 한다.

Remark

적률생성함수는 나 와 마찬가지로 분포를 나타내는 또 다른 방 법으로 이해될 수 있다. 다만 모든 분포에 대해 가 반드시 존재하는 것은 아니 지만, 존재하기만 하면 유일하게 대응되는 성질을 가진다.

의 를

라 할 때,

에 대한 차 미분을 통해

를 구할 수 있다. 즉,

′   





   

  

  

(10)

11

1.3 확률변수의 기댓값

″  





  

  

이며, 일반적으로 다음의 관계

  

      ⋯

가 성립된다. 여기서

를

의 차 적률(moment)이라 한다.

참고

 

의 차 중심적률(central moment)이라 한다. 예를 들어, 2차 중심적률은 분산과 동일하다.

예를 들어,

의 를 알고 있다면

와



도 다음의 관계식

 

′



 

″ 

′

을 통해 쉽게 구할 수 있다.

Remark 

의 에 대한 다음의 Taylor전개식

 

  



′ 

  

″

⋯ 

 

⋯

   

  

⋯ 

⋯

으로부터 

의 계수가

임을 알 수 있다. 역으로, 모든 차수의 적률을 알고 있다면 위 관계를 통해

를 구할 수도 있다.

(11)

정의 4 왜도와 첨도

확률변수

의 평균과 분산을 와 이라 하자. 표준화된(평균=, 분산=인) 확률변수의 차와 차 적률에 해당하는 다음의 두 측도 즉,



 



 

 

을 각각 분포의 왜도(skewness)와 첨도(kurtosis)로 정의한다.

Remark

왜도는 분포의 치우친 정도를 나타내는 측도이며, 첨도는 분포의 꼬리 (tail) 부분의 두터운 정도를 나타내는 측도이다.

다음의 [그림 3]과 [그림 4]는 분포형태에 따른 왜도와 첨도의 변화를 나타낸다.

편의상 모든 분포의 평균은 이고 분산은 인 것으로 가정한다.

[그림 3]에서 (a)는 오른쪽으로 꼬리가 길게 늘어진(또는 왼쪽으로 치우친) 형태의 분포를 나타내며, 이 경우 왜도는 양의 값을 가지게 된다(skewed positively 또는 skewed to the right). (b)는 대칭형의 분포로 왜도는 이 되며, (c)는 왼쪽으로 꼬 리가 길게 늘어진 형태로 왜도는 음의 값을 가진다(skewed negatively 또는 skewed to the left).

(a) (b) (c)

그림 3 분포형태에 따른 왜도값의 변화(평균=, 분산=)

Skewed to the right

Skewed to the left

(12)

13

1.3 확률변수의 기댓값

주의 skewed to the right에서 to the right의 의미는 왜도의 값이 0보다 큰 값 즉, 수직선상에서 0보다 우측에 위치하는(to the right) 값을 갖는 형태라는 의미이다. 이를 “우측으로 치우친”으로 표현하는 것은 잘못된 것이므로 유의 하기 바란다.

[그림 4]는, 편의상 대칭인 분포에 대해, 첨도값의 변화를 살펴 본 것이다. 그림에 서 점선은 표준정규분포를 나타낸다. (a)는 꼬리부분의 확률이 상대적으로(표준정규 분포에 비해) 큰 경우(heavy tailed)에 해당하며, 이 경우 첨도의 값은 양(positive) 의 값을 가진다. 반면 (c)의 경우는 꼬리가 짧은(short tailed) 형태이므로 4차 적률 의 값이 작을 수밖에 없을 것이므로 음의 값을 가지게 된다.

(a) (b) (c)

그림 4 분포형태에 따른 첨도값의 변화(평균=, 분산=)

 

 

 

(13)

1

확률변수

에 대해



 을 최소로 하는 상수 는  

임을 보여라.

참고 확률변수

에 대해



 을 최소로 하는 상수 는

의 중위수 (median) 즉,

 ∞     

    

을 만족하는 으로 주어진다. 이 사실은 7.3절의 연습문제 1(d)와 10.3절 의 절대오차손실함수에 대한 베이즈추정량의 유도에 이용된다.

2 

의 누적분포함수가

  

 

   



  ≤   



  ≤   

  ≥ 

일 때, 물음에 답하여라.

(a)

와



를 구하여라.

(b)

 ≦

 을 구하여라.

3

확률변수

의 를

라 할 때,

 

 의 가

  



(14)

15

연습문제

임을 보여라.

4

다음 분포에 대해 왜도와 첨도를 구하여라.

(a)   

 



      

 

(b)  



        

 

(c)

  exp

인 분포

참고 (a)와 (b)는 그림을 그려 왜도와 첨도값을 비교해 볼 것. (c)는 표준정규분포

 의 경우에 해당하며(3.2절 참고), 왜도=첨도=0의 값을 가진다.

5

   ln

라 할 때, ′   ″  이 성립함을 보여라.

참고 를 흔히 누율생성함수(cumulant generating function 또는 )라 한 다.

참조

관련 문서

또한 접촉각 (contact angle) 을 증가시켜서 h 값을 줄여 여러 가닥의 마이 크로 헤어를 동시에 제작할 수도 있지만 본 연구에서는 스탬 프의 마이크로 기둥 단면크기에 따라 접촉-인장