절사평균 (Trimmed Mean; T M )절사평균 (Trimmed Mean; TM)

• 표본평균

• 15%- 절사평균 표본평균과 15%- 절사평균

자료집단 : [62, 69, 72, 34, 69, 67, 70, 65, 99]

62 + 69 + 72 + 34 + 69 + 67 + 70

+ 65 + 99 9 =

[n] = [(0.15)^•9] = [1.35] = 1 절사 측정값의 개수 :

T_M = 62 + 69 + 72 + 69 + 67 + 70 + 65

9 =

58.14

표본 중앙값 (Sample Median;

M

)

표본 중앙값 ( Sample Median;

M

)

• 표본평균이 갖는 이상점에 대한 영향을 제거할 수 있는 중심위치의 척도

• 자료의 측정값을 크기순서로 나열하여 가장 가운데 순위에 놓이는 값

• 확률변수의 중앙값과 동일한 의미 x

n+12

2n x

2n+1

+ 2 M_e =

, n 이 홀수인 경우

, n 이 짝수인 경우

⊙ 장점 :

• 어느 한 쪽으로 치우친 분포를 갖는 자료에 대하여 평균보다 좋은 중심의 위치를 나타낸다 .

⊙ 단점 :

• 전체 자료를 크기 순으로 나열하여 중앙에 놓이는 자료를 찾아야 한다는 점에서 자료의 수가 많은 경우에 부적절

• 수리적으로 다루기 매우 힘들다는 이유로 추측통계학에서 별로 사용하지 않는다 .

각 자료집단의 표본 중앙값

자료집단 A : [7, 15, 11, 5, 9], 자료집단 B : [7, 15, 110, 5, 9], 자료집단 C : [2, 7, 15, 11, 5, 9]

자료집단 A : 5 개의 측정값으로 구성되어 있으므로 중앙값은 크기순으로 나 열하여 3 번째 위치

재배열 : [5, 7, 9, 11, 15]

자료집단 B : 5 개의 측정값으로 구성되어 있으므로 중앙값은 크기순으로 나 열하여 3 번째 위치

재배열 : [5, 7, 9, 15, 110]

자료집단 C : 6 개의 측정값으로 구성되어 있으므로 중앙값은 3 번째와 4 번째 위치에 놓이는 측정값의 평균

재배열 : [2, 5, 7, 9, 11, 15]

M_e = 9

M_e =

= 8

7 + 9 2

표본 최빈값 (Sample Mode; M

) 표본 최빈값 (Sample Mode; M

)

• 질적자료와 양적자료에 모두 사용 가능

• 2 번 이상 발생하는 측정값 중에서 가장 많은 도수를 가지는 자료값

• 확률변수의 중앙값과 동일한 의미

⊙ 장점 :

• 극단값에 대한 영향을 전혀 받지 않는다 .

• 자료의 수가 적은 자료집단에 대한 중심위치를 잘 나타낸다 .

⊙ 단점 :

• 존재하지 않거나 1 개 이상 존재할 수 있다 .

• 수리적으로 다루기 매우 힘들다는 이유로 추측통계학에서 별로 사용하지 않는 다 .

대칭형 단봉분포

오른쪽으로 치우친 단봉분포

왼쪽으로 치우친 단봉분포

쌍봉분포대칭형

자료집단 A : [1, 5, 7, 9, 11, 15, 19] 최빈값이 없음 . 자료집단 B : [4, 9, 2, 5, 10, 2, 3, 1] M_o = 2

자료집단 C : [1, 2, 5, 1, 2, 5, 3, 1, 5] M_o = 1, 5

• 히스토그램이나 도수분포가 종 모양으로 대칭

▶ x = T_M = M_e = M_o

오른쪽으로 치우친 분포 또는 왼쪽으로 긴 꼬리를 가지는 분포

▶ x < T_M < M_e < M_o

• 왼쪽으로 치우친 분포 ▶ M_o< M_e < T_M < x

확률변수의 사분위수와 동일하게 표본으로 수집된 자료들을 크기순서로 나열하여 4 등분하는 척도

• 제 1 사분위수 (Q₁), 제 2 사분위수 (Q₂), 제 3 사분위수 (Q₃)

• 제 2 사분위수 = 표본중앙값 (Q₂ = M_e)

• 제 1 사분위수 : 최소값과 중앙값 사이의 중앙값

• 제 3 사분위수 : 최대값과 중앙값 사이의 중앙값

측정값 1 2 3 4 5 6 7 8 9 10 합계

도수 12 11 11 8 8 14 8 6 8 14 100

표본사분위수 (sample quartiles)

표본사분위수 ( sample quartiles)

☞

예

100 개로 구성된 다음 자료집단에 대하여 제 2 사분위수 : 전체 100 개이므로 50 번째와 51 번째 측정값의 평균 Q₂= 5.5 제 1 사분위수 : 아래쪽 50 개 측정값의 중앙값 , 25 번째와 26 번째 측정값의 평 균 Q₁= 3

제 3 사분위수 : 위쪽 50 개 측정값의 중 앙값 , 75 번째와 76 번째 측정값의 평균 Q₃= 8

표본백분위수 (sample percentiles)

표본백분위수 ( sample percentiles)

☞

자료집단을 100 등분하는 척도들

• k- 백분위수 P_k 는 k% 의 자료값들이 P_k 보다 작고 , 나머지 (100-k)% 의 자료 값들이 P_k 보다 크게 주어지는 값

• 25-, 50-, 75- 백분위수 : 제 1 사분위수 , 제 2 사분위수 , 제 3 사분위수

• pk/100 = m( 자연수 ) 이면 m 번째와 m+1 번째 위치하는 자료값의 평균 : x_(m) + x_(m+1)

• pk/100 ≠( 자연수 ) 이면 pk 보다 큰 가장 작은 정수 m 번째 위치하는 자료값 x_(m)

자료집단에 대한 30- 백분위수 P₃₀, 60- 백분위수 P₆₀, 사분위수 (Q₁, Q₂, Q₃) 자료집단 [83 90 60 25 50 94 60 62 97 43 67 84 79 62 78]

30- 백분위수 : pk/100 = (0.3)^•15 = 4.5, P₃₀ = x₍₅₎ = 60 60- 백분위수 : pk/100 = (0.6)^•15 = 9, P₆₀ = (x₍₉₎ + x₍₁₀₎ )/2 = 78.5

사분위수의 위치 :

자료집단을 크기 순으로 재배열

재배열 : [25 43 50 60 60 62 62 67 78 79 83 84 90 94 97 ]

(0.25)•15 = 3.75, (0.5)•15 = 7.5, (0.75)•15 = 11.25

Q₁= x₍₄₎ = 60 , Q₂= x₍₈₎ = 67, Q₃ = x₍₁₂₎ = 84

사분위수 :

범위 , 표본사분위수 , 평균편차 , 분산과 표준편차 , 변

문서에서 기 술 통 계 학기 술 통 계 학66 (페이지 47-57)