확률변수와 확률분포 (Random Variable
& Probability Distribution)
■ 확률변수(random variable)
◦ 표본공간에서 정의된 실수 함수
◦ 불확실성을 가지는 사회적‧자연적 현상을 일종의 확률실험으로 이해
◦ 여기서 얻어진 표본공간을 숫자로 표시하여 불확실한 현상을 수학적으로 모형화 함
◦ 이를 통해 구체적으로 계량화된 분석을 할 수 있음
◉ 동전 3개 던지기
◦ : 앞면의 수, : 앞면과 뒷면의 수의 차이
{ , , , , , , }
↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓
3 2 2 2 1 1 1 0
3 1 1 1 1 1 1 3
◦ 확률변수는 정의역이 표본공간 이고 공역이 실수인 함수
◦ 표본공간의 임의의 원소 에 대해 원칙적으로 와 같이 표시해야 하지만 편의상 표시를 생략
◦ 통계학에서는 일반적으로 확률변수를 대문자 , ,
등으로 표시하며 확률변수가 취하는 값을 소문자 , ,
◉ 동전을 앞면이 나올 때까지 던지는 확률실험
◦ : 동전을 던지 횟수, : 앞면이 나올 때까지의 뒷면의 수
{ , , , , , ⋯ }
↓ ↓ ↓ ↓ ↓
1 2 3 4 5 ⋯
0 1 2 3 4 ⋯
◦ 확률변수는 변수가 취하는 값에 따라 이산확률변수와 연속확률변수로 나눔
◦ 이산확률변수(discrete random variable): 확률변수가 가질 수 있는 값들이 가산(countable) 또는 셀 수 있는 경우
- ‘가산’ 또는 ‘셀 수 있다’는 말은 확률변수의 값들이 자연수 1, 2, 3, ...과 대응관계를 가진다는 뜻
- 예) 불량품의 개수, 사고건수,...
◦ 연속확률변수(continuous random variable): 가질 수 있는 값이 셀 수 없을 정도로 많은 경우
- 예) 수명, 신장, 체중
◦ 이산형과 연속형의 구분이 명확하지 않는 경우, 가정의
■ 확률분포(Probability Distribution)
◦ 확률변수는 표본공간의 값을 숫자로 바꾼 함수이기 때문에 확률변수가 어떤 값을 가진다는 것은 표본공간 내에
대응하는 원소들이 존재
- 이면 표본공간에 ∈ 를 만족하는 사건이 존재
- 임의의 상수 , 에 대해 ≤ ≤ 이면 이에 해당하는 사건 ≤ ≤ ∈ 이 존재
⇨ 이는 확률변수에 대해 또는 ≤ ≤ 에 대응하는 확률을 계산할 수 있음
◉ 동전을 세 번 던지기
◦ 표본공간에서 사건의 확률은 단순히 확률
◦ 확률변수는 숫자로 표시되어 특정 지점이나 영역에서의 확률을 표시할 수 있어 확률이 어떤 형태로 분포되었다는 말을 할 수 있음 ⇨ 그림으로 표시가능
◦ 확률변수가 가질 수 있는 값에 대해 확률을 표시한 것을 확률분포(probability distribution)라고 함
◦ 확률분포표(probability distribution table): 확률변수의 확률을 표로 표시한 것
- 예) 동전 세 번 던지기: 앞면의 수
0 1 2 3
◦ 확률은 모집단이 어떤 형태로 이루어져 있는지를 보여줌
⇨ 확률분포 또한 모집단을 숫자로 표시했을 때의 형태를 표시한 것 = 모집단의 확률구조
◦ 모집단의 확률구조를 표시하는 방법
- 이산확률변수: 확률질량함수, 누적분포함수, ...
- 연속확률변수: 확률밀도함수, 누적분포함수, ...
□ 확률질량함수(probability mass function, pmf)
◦ 이산확률변수 가 임의의 값 일 확률 를 에 대한 함수로 생각
◦ 경우에 따라 확률변수 를 강조하기 위해 로 표시
◉ 동전 세 번 던지기
◦ : 앞면의 수 ⇨ 가 가질 수 있는 값은 0, 1, 2, 3
,
,
,
◦ : 앞면과 뒷면의 수의 차이 ⇨ 1, 3
,
◉ 앞면이 나올 때까지 동전을 던지기
◦ : 던진 횟수
⋮
⇨
… - 기하분포(geometric distribution)◦ : 뒷면의 수
- 의 관계를 가지며 해당 확률은 동일
,
,
, ⋯⇨
…○ 확률질량함수의 성질
◦ 는 일 때의 확률이기 때문에, 가 가질 수 있는 값이 …이면
① 모든 …에 대해 ≤ ≤
②
∞
③ ≤ ≤
∈
○ 확률변수의 변환(transformation)
◦ 확률변수의 함수
- 예) ,
◦ 함수의 함수도 함수 ⇨ 확률변수의 함수도 확률변수 - 예) 동전 세 번 던지기
0 1 2 3
0 1 4 9
2.25 0.25 0.25 2.25
,
□ 확률밀도함수(probability density function)
◦ 세 번째 그림은 연속확률변수 의 분포형태 모집단의
형태를 나타낸 것으로 임의의 지점 에서의 밀도를 라고 표시하면 를 확률밀도함수라고 함
◉ 0~12까지의 숫자가 표시된 돌림판
◦ 표본공간: ≤
◦ : 바늘이 지적하는 위치
◦ 0에서 12사이에서 발생가능성이 동일
⇨ 밀도는 이 구간에서 동일 :
◦ 전체 면적은 1이 되어야 하므로
, ≤
○ 확률밀도함수에서의 확률
◦ 히스토그램에서 면적이 해당 구간에서의 비율(상대도수)
◦ 확률밀도함수에서의 면적이 해당 구간에서의 확률
◦ 가 구간 에 속할 확률
≤ ≤
- 예) 가 3에서 6사이에 있을 확률
≤ ≤
◦ 일 확률은?
◦ 어떤 점에서는 면적은 의 크기와 관계없이 항상 0
◦ 가 연속확률변수일 때에는 모든 에 대해
◦ 확률밀도함수 는 에서의 확률이 아니라 상대적인 밀도를 나타내는 것
◦ 가 연속확률변수이면
≤ ≤ ≤ ≤
○ 확률밀도함수의 성질
◦ 임의의 연속확률변수 의 확률밀도함수 는
① 모든 에 대해 ≥
②
∞∞ ③ ≤
◦ 누적분포함수(cumulative distribution function): ③의 특별한 형태
≤
∞
■ 기댓값(expectation, expected value)
◉ 표본평균
◦ 임의로 5개의 표본을 선택: 1, 1, 2, 5, 6
◦ 표본평균
×
×
×
×
⇨ 관측된 값에 자료 중 그 값이 차지하는 비율을 곱하여 더한 것으로 표시
◦ 전체 표본이 개 있고 자료 중 서로 다른 값이 개가 있어 이들 값을 … 라고 하고 의 값을 가지는 자료의
개수를 라고 하면
⋯
◦ 는 의 자료가 차지하는 비율
◦ 통계적 확률의 관점에서 볼 때, 을 계속 크게 하면
표본들은 모집단으로, 표본비율 는 확률질량함수 로, 표본평균은 모평균(population mean)으로
→
◦ 표본평균이 자료들의 무게중심이듯이 평균은 확률분포(또는 모집단)의 무게중심
◦ 확률변수의 기댓값: 확률변수에 대하여 평균적으로 기대하는 값이라는 의미 = 모평균
- 확률변수 의 기대값
○ 연속확률변수의 기댓값
◦ 이산형의 기댓값에서 -
을
으로- 확률질량함수 를 확률밀도함수에 단위길이를 곱한 로 바꾸어 계산
◉ 동전 세 번 던지기
◦ : 앞면의 수
◉ 돌림판
◦ , ≤
○ 변환된 변수의 기댓값
◉ 동전 세 번 던지기
◦ 의 기댓값은?
◦ 의 확률질량함수 를 유도
,
⇨ ×
×
◦ 의 확률질량함수
◦ 의 첫 번째 항과 두 번째 항
×
×
⇨
◦ 확률변수 의 함수인 의 기댓값
이산확률변수
연속확률변수- 이산확률변수:
- 연속확률변수:
○ 기댓값의 성질
① 임의의 상수 의 기댓값은
②
③
◉ 의 기댓값
◦
◦
◦
□ 모분산(population variance)
◦ 표본분산
◦ 을 계속 크게 하면
- 표본분산은 모분산으로 - 는 로
- 는 로
- 은 1로
◦ 모분산을 로 표시
→
◦ 확률변수 의 분산을 로 표시
- 분산은 의 기댓값
◦
◦ 연속확률변수
◦ 표준편차:
◉ 동전 세 개를 던지기: 앞면의 수 의
◦ 평균:
◦ 분산:
◦ 표준편차:
◉ 이산균일분포
1 2 3 4
◦ 2.5를 중심으로 대칭이므로
◦
◦
◦
◉ 돌림판
, ≤
◦
◦
◦
◦
○ 기대값의 성질
⑤
- 위치의 변화를 주는 상수 는 분산에 영향을 주지 않음 - 분산은 측정단위 척도의 제곱으로 표시되기 때문에 의
제곱을 곱함
⑥
■ 결합분포와 주변분포
◉ 동전 세 번 던지기
◦ : 앞면의 수, : 앞면과 뒷면의 수의 차이
{ , , , , , , }
↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓
3 2 2 2 1 1 1 0
3 1 1 1 1 1 1 3
◦ 두 변수를 동시에 고려한 확률분포?
0 1 2 3
1
□ 결합확률질량함수(joint p.m.f.)
◦ 두 개 이상의 확률변수들을 동시에 고려한 확률분포
◦ 두 이산확률변수 와 에 대해
- 수식에서 ,는 ∩ 를 의미 - 예) 동전 세 번 던지기
,
,
,
◦ 개의 이산확률변수 … 에 대해
… …
□ 주변확률질량함수(marginal p.m.f.)
◦ 표본공간이 사건 …로 분할될 때 사건 의 확률은
∩
◦ 사건 가 , 가 라고 하면
∩
∩
⇨
,
◦ 를 의 주변확률질량함수, 를 의 주변확률질량함수라고 함
◉ 동전 세 번 던지기
합
0 1 2 3
1 0 3/8 3/8 0 3/4
3 1/8 0 0 1/8 1/4 합 1/8 3/8 3/8 1/8 1
○ 독립 확률변수
◦ 사건 와 는 독립 ⇆ ∩
◦ 두 확률변수 와 는 독립 ⇆ 모든 에 대하여
◦ 개의 이산확률변수 … 이 서로독립(상호독립) ⇆ 모든 … 에 대해
…
⋯
◉ 동전 세 번 던지기
≠
⇨ 와 는 독립이 아님
◉
, ,
1 2 3
1 1/36 2/36 3/36 1/6 2 2/36 4/36 6/36 2/6 3 3/36 6/36 9/36 3/6
1/6 2/6 3/6 1
◦ 모든 에 대해 성립
□ 기댓값
◦
,
◦ 확률변수 와 에 대해, 의 기댓값? 의 기댓값?
◦ 결합확률질량함수나 결합확률밀도함수를 이용
○ 기댓값 정리
◦
◦ 와 가 독립이면
○ 공분산(Covariance)
◦ 표본공분산
◦ 두 확률변수 와 의 공분산
◦ 두 확률변수의 직선관계의 정도를 나타내는 측도
◦ 와 가 독립이면 이므로
하지만 그 역은 일반적으로 성립하지 않음
◉ 결합확률분포표
-1 0 1
0 1
0
0
0
1
◦ ,
◦
◦
≠
×
⇨ 독립 아님
◦ ± ±
◦ 와 가 독립이면 ±
○ 상관계수(coefficient of correlation)
◦ 공분산은 척도에 영향을 받음 ⇨ 표준화 필요
◦ 두 확률변수 와 의 상관계수
◦ 라고 표시하면
◦ ≤ ≤