• 검색 결과가 없습니다.

2. 통계학 개론

N/A
N/A
Protected

Academic year: 2022

Share "2. 통계학 개론"

Copied!
16
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

2. 통계학 개론

5. 2 이상값 식별하기

이상 값은 해당 변수에 대해 분포의 밖 에 떨어지는 자료로

설명할 있다. 이 값은 심층적인 조사를 할 가치가 있는 특별한 경우를 가리킨다.

이상값(outlier) 이란?

<학생들의 성적 데이터>

이상 값은 해당 변수에 대해 분포의 밖 에 떨어지는 자료로

설명할 있다. 이 값은 심층적인 조사를 할 가치가 있는 특별한 경우를 가리킨다.

측정값 16은 도수 히스토그램 패턴 밖에 떨 어져 있으며, 따라서 히스토그램의 전체 모양 으로부터 벗어나 있다. 이것은 16이라는 관측 치가 전체 점수에 대해서 이상값임을 나타낸 다.

(2)

2. 통계학 개론

5. 2 이상값 식별하기

Ø 이상값에 대한 평가

• 이상 값은 정상적이지 않은 중요한 값일 수 있다.

• 다른 한편으로는 그 값은 잘못 측정된 값 일 수 있 다.

상황을 이해하고 자료를 검토 하여 이상값과 관련된 의문점 을 해결할 수 있으나, 종종 이 상 값을 어떻게 처리해야 할지 에 대해 난감할 때가 있다.

• 이상 값은 정상적이지 않은 중요한 값일 수 있다.

• 다른 한편으로는 그 값은 잘못 측정된 값 일 수 있 다.

상황을 이해하고 자료를 검토 하여 이상값과 관련된 의문점 을 해결할 수 있으나, 종종 이 상 값을 어떻게 처리해야 할지 에 대해 난감할 때가 있다.

예를 들어 신문의 부동산 지면에서 도회지의 중위 주택가격을 평균 가 격보다 종종 이용한다. 또한 최고 가격과 최저가격을 보고함으로서 잠재 구매자 또는 판매자가 해당

• 이상값은 일단의 자료의 평균을 왜곡할 수 있다.

• 소득이나 가격을 포함하고 있는 자료는 종종 중 위수를 이용하여 요약한다.

(3)

2. 통계학 개론

5. 3 분포의 퍼짐 정도

Ø 자료의 산포(dispersion)은 변동성(variability)을 나타냄.

1)범위(range)

2) 표준편차(standard deviation)

3) 10분위수, 백분위수, 사분위수(percentile) 4) 상자 그림(box plot)활용하기

1)범위(range)

2) 표준편차(standard deviation)

3) 10분위수, 백분위수, 사분위수(percentile) 4) 상자 그림(box plot)활용하기

(4)

2. 통계학 개론

5. 3 분포의 퍼짐 정도

Ø 만일 하나의 변수를 살펴본다면 하나의 변수로부터 자료의 분포를 적절하게 요약하기 위해 중심척도와 산포척도를 필요로 한다.

Ø 만일 평균과 중위수 둘 다를 중심척도로 이용했다면, 이 값들은 분 포의 모양을 설명하기 위해 이용될 수 있다.

Ø 만일 중위수와 평균이 가상적으로 동일하다면, 이는 분포가 근사 적으로 중심에 대해 대칭임을 나타낸다.

Ø 만일 그렇지 않다면, 평균과 중위수의 차이는 비대칭 형태를 나타 내는 지표가 된다.

Ø 만일 하나의 변수를 살펴본다면 하나의 변수로부터 자료의 분포를 적절하게 요약하기 위해 중심척도와 산포척도를 필요로 한다.

Ø 만일 평균과 중위수 둘 다를 중심척도로 이용했다면, 이 값들은 분 포의 모양을 설명하기 위해 이용될 수 있다.

Ø 만일 중위수와 평균이 가상적으로 동일하다면, 이는 분포가 근사 적으로 중심에 대해 대칭임을 나타낸다.

Ø 만일 그렇지 않다면, 평균과 중위수의 차이는 비대칭 형태를 나타 내는 지표가 된다.

(5)

2. 통계학 개론

5. 3 분포의 퍼짐 정도

1) 범위(range)

­ 최대값과 최소값의 차이를 나타냄.

­ 이 값은 산포를 측정하는 가장 간단한 값이지만,

­ 서로 다른 규모의 자료들 간에 변동성을 비교하기에는 유용하지 않다.

­ 산포를 측정하는 다른 척도로 사분위 범위(inter-quartile range)와 표 준편차(standard deviation)들은 보다 신뢰할 만한 정보를 제공한다.

­ 최대값과 최소값의 차이를 나타냄.

­ 이 값은 산포를 측정하는 가장 간단한 값이지만,

­ 서로 다른 규모의 자료들 간에 변동성을 비교하기에는 유용하지 않다.

­ 산포를 측정하는 다른 척도로 사분위 범위(inter-quartile range)와 표 준편차(standard deviation)들은 보다 신뢰할 만한 정보를 제공한다.

ü 범위의 계산 = 최대값-최소값

= Max( ) – Min( )

(6)

2. 통계학 개론

5. 3 분포의 퍼짐 정도

1) 범위(range)

특정 과목의 점수가 65점이고, 평균은 60점이라고 가정하자. 만일 점 수들이 16점부터 92점까지 (범위가 76인 경우)보다 56점부터 65점까 지(범위가 9인 경우) 변동한다면 이 값들은 매우 다르게 해석될 수 있다.

특정 과목의 점수가 65점이고, 평균은 60점이라고 가정하자. 만일 점 수들이 16점부터 92점까지 (범위가 76인 경우)보다 56점부터 65점까 지(범위가 9인 경우) 변동한다면 이 값들은 매우 다르게 해석될 수 있다.

☞ 범위를 이용하여 산포의 정도를 평가할 수 있지만, 자료의 규모 가 다를 경우 해석에 문제가 있을 수 있음.

(7)

2. 통계학 개론

5. 3 분포의 퍼짐 정도

2) 표준편차(standard deviation : SD)

§ 평균은 가장 통상적으로 사용되는 중심 척도이다. 평균을 사용할 때, 표준편차라고 하는 척도는 일반적으로 자료의 퍼짐 정도를 측정하는데 이용한다.

§ 이 값은 평균과의 편차의 제곱의 산술평균을 계산하고, 이 값의 제 곱근을 구함으로써 관찰 자료들과 이들의 평균 간의 전체적인

편차를 측정한다. 표준편차는 다음과 같이 표현할 수 있다.

§ 평균은 가장 통상적으로 사용되는 중심 척도이다. 평균을 사용할 때, 표준편차라고 하는 척도는 일반적으로 자료의 퍼짐 정도를 측정하는데 이용한다.

§ 이 값은 평균과의 편차의 제곱의 산술평균을 계산하고, 이 값의 제 곱근을 구함으로써 관찰 자료들과 이들의 평균 간의 전체적인

편차를 측정한다. 표준편차는 다음과 같이 표현할 수 있다.

( )2

2 2

1

1

1

N

i N

i

i i

X

X μ

N N

=

=

- m

s = = -

å å

ü모 표준편차 :

( )2

1

1

n i i

X X

s n

=

-

= -

ü표본 표준편차 :

å

(8)

2. 통계학 개론

5. 3 분포의 퍼짐 정도

3) 10분위수, 백분위수, 사분위수

Ø 2003년에 미국의 인구센서스 국에서 각 50개주에 대해 신규 개인 주택 입주자 수를 조사하였 다. 분포에 대한 히스토그램이 다 음과 같고, 여기서 수평축은 시작 가구 수이며, 수직축은 주의

개수를 나타낸다.

Ø 2003년에 미국의 인구센서스 국에서 각 50개주에 대해 신규 개인 주택 입주자 수를 조사하였 다. 분포에 대한 히스토그램이 다 음과 같고, 여기서 수평축은 시작 가구 수이며, 수직축은 주의

개수를 나타낸다.

(9)

2. 통계학 개론

5. 3 분포의 퍼짐 정도

3) 10분위수, 백분위수, 사분위수

ü x 축의 “이상” 항목은 3개의 이상 값인 143.1, 202.6, 271.4을 포함한 것 이며, 이들은 텍사스, 플로리다, 캘리포니아 주 이다. 이 주들은 (내국인) 이민 율이 높으며, 주택 붐이 있었던 유명한 주이다.

ü x 축의 “이상” 항목은 3개의 이상 값인 143.1, 202.6, 271.4을 포함한 것 이며, 이들은 텍사스, 플로리다, 캘리포니아 주 이다. 이 주들은 (내국인) 이민 율이 높으며, 주택 붐이 있었던 유명한 주이다.

ü 입주 시작한 가구의 중위수는 18.3(18,300가구) 이었으며, 평균은 34.6(34,600 가구)이었다.

ü 자료중 하위 10%는 2.6 - 이 값을 10분위 수 - 에서 절사한다. 이를 다 른 방법으로 말하자면, “분포의 면적 10%가 0부터 2.6 사이에 있다” 이다.

§ 하위 20%는 5.0에서 절사한다 ― 20분위 수.

§ 하위 30%는 8.8에서 절사한다 ― 30분위 수

(10)

2. 통계학 개론

5. 3 분포의 퍼짐 정도

3) 10분위수, 백분위수, 사분위수

• 히스토그램의 모양을 요약하기 위해 연속적인 곡선을 이용하면 분포의 모양은 다음과 같이 표현된다.

(11)

2. 통계학 개론

5. 3 분포의 퍼짐 정도

3) 10분위수, 백분위수, 사분위수

Ø 하위 10분위수는 분포의 10% 이하의 점들이 놓인다. 면적은 중위수의 위와 아래가 동일하며, 면적의 10% 은 2.6 이하 이다.

Ø 10분위수 들은 일반적인 척도인 100분위수의 특별한 경우이다.

Ø 자료 분포는 통상적으로 100개의 조각으로 ‘분해’된다. 30백분위 수는 자료의 30%가 그 값 아래에 있게 된다.

Ø가장 통상적으로 사용되는 100분위수는 사분위수 이다.

(12)

2. 통계학 개론

5. 3 분포의 퍼짐 정도

3) 10분위수, 백분위수, 사분위수

Ø 만일 중위수가 중심척도로서 이용되었다면, 특정한 100분위수를 변동 성 척도로서 그리고 분포의 일반적인 모양을 보여주기 위해 이용될 수 있다.

Ø 만일 중위수가 중심척도로서 이용되었다면, 특정한 100분위수를 변동 성 척도로서 그리고 분포의 일반적인 모양을 보여주기 위해 이용될 수 있다.

Ø 1사분위수(25 백분위수)는 자료의 25%가 이 값 아래에 놓인다.

Ø 2사분위수는 50 백분위수이며, 자료의 50%가 이 값 아래에 놓인다 (즉, 이 값은 중위수이다).

Ø 중위수는 50 백분위수이다. 25백분위수는 1사분위수라 하며, 이는 전체자료에 대한 중위수 이하에 있는 모든 값의 중위수이며, 75백분

(13)

2. 통계학 개론

5. 3 분포의 퍼짐 정도

3) 10분위수, 백분위수, 사분위수

[5점요약(Five number summary)]

Ø 1사분위수, 중위수, 3사분위수와 최소값과 최대값이 보고되었다면,이 를 5점 요약이라고 한다.

즉, 최소값, 1사분위수, 중위수, 3사분위수, 최대값을 나타냄.

[5점요약(Five number summary)]

Ø 1사분위수, 중위수, 3사분위수와 최소값과 최대값이 보고되었다면,이 를 5점 요약이라고 한다.

즉, 최소값, 1사분위수, 중위수, 3사분위수, 최대값을 나타냄.

(14)

2. 통계학 개론

5. 3 분포의 퍼짐 정도

4) 상자그림(Box plot)

Ø 한 분포의 5점 요약은 상자그림으로서 그래프 상에 표현할 수 있다

<신규 주택 시작에 대한 상자그림>

Q1

Median

Min Q3 Max

(15)

2. 통계학 개론

5. 3 분포의 퍼짐정도

4) 상자그림(Box plot) [상자그림의 예]

두 종류의 TV 네트워크의 주요 시간대 시청률을 비교하는데 사용될 수 있다.

시청률은 인구 표본이 선호하는 TV 시청 양을 측 정한다. 보다 많은 사람들이 TV 프로그램을 볼수 록, 그 프로그램은 더욱 더 인기가 있으며, 보다 높은 시청률을 기록하게 된다.

대게는 광고주가 시청률이 저조한 프로그램 보다 는 시청률이 높은 프로그램에 그들 상품을 광고 하기 위해 더 많은 광고비를 지불한다.

Q1 Median Q3

[상자그림의 예]

두 종류의 TV 네트워크의 주요 시간대 시청률을 비교하는데 사용될 수 있다.

시청률은 인구 표본이 선호하는 TV 시청 양을 측 정한다. 보다 많은 사람들이 TV 프로그램을 볼수 록, 그 프로그램은 더욱 더 인기가 있으며, 보다 높은 시청률을 기록하게 된다.

대게는 광고주가 시청률이 저조한 프로그램 보다 는 시청률이 높은 프로그램에 그들 상품을 광고

하기 위해 더 많은 광고비를 지불한다. TV 시청률

채널 9 채널 6

Q1 Median Q3

(16)

2. 통계학 개론

5. 3 분포의 퍼짐 정도

4) 상자그림(Box plot)

[질문]

a) 어떤 방송국이 가장 인기 있는 프로그램들을 방송했는가?

b) 어떤 방송국이 가장 인기 있는 프로그램을 방송했는가?

c) 만일 당신이 광고주이고, 주요 방송 시간대에 가장 많은 사람들이 시 청하길 원한다면, 어떤 방송국을 선택하겠는가?

[질문]

a) 어떤 방송국이 가장 인기 있는 프로그램들을 방송했는가?

b) 어떤 방송국이 가장 인기 있는 프로그램을 방송했는가?

c) 만일 당신이 광고주이고, 주요 방송 시간대에 가장 많은 사람들이 시 청하길 원한다면, 어떤 방송국을 선택하겠는가?

참조

관련 문서

「Global Single SAMSUNG」의 가치공동체 구현을 위해 신입사원에서 경영진까지 하나의 프로그램으로 브랜드화 SVP (Samsung Shared Value Program).

Ø UA와 서버 또는 서버와 서버 간의 메시지 전송을 위한 프로토콜 v POP (Post Office Protocol), IMAP (Internet Mail Access Protocol). Ø 사용자가 UA를

이후 백련사의 동인들은 비슷한 문학적 경향을 지닌 하나의 시단으로 발전하였다. 백련시단의 문학적 지향은 세 가지 특징을 지니고 있다.. 즉 동일한 문학적

하나의 가구가 표본에 뽑힐 확률이 그 가구가 속한 도시 구획 선거구와 관계없이 일 하나의 가구가 표본에 뽑힐 확률이 그 가구가 속한 도시, 구획, 선거구와

만일 Model Update 를 At Every Output Step에서 Never로 변경했다면 모델은 스크린상에서는 갱신되 지 않지만 계산속도는 빠르다.. Single 시뮬레이션이

불편부당(impartial)함으로써 공정성(fairness)이 확보되면 능력의 차이 는 부차적이다.. 이 같은 관점에서 친기업(business friendly)

제출 서류는 반드시 하나의 PDF파일로

통계학 개론 6