2005, Vol. 16, No. 4, pp. 959∼968
Piecewise Continuous Linear Density Estimator
1)Dae-Heung Jang2)
Abstract
The piecewise linear histogram can be used as a simple and efficient tool for the density estimator. But, this piecewise linear histogram is discontinuous function. We suppose the piecewise continuous linear histogram as a simple and efficient tool for the density estimator and the alternative of the piecewise linear histogram.
Keywords : Histogram, Piecewise continuous linear density estimator
1. 서론
비모수밀도함수추정에 대한 연구는 커널(kernel)밀도추정량을 이용하는 방법, 스플 라인(spline)을 이용하는 방법, 벌점가능도(penalized likelihood)를 이용하는 방법, LOWESS(locally weighted regression scatterplot smoothing)을 이용하는 방법, 히스 토그램에 기초한 추정량을 이용하는 방법 등으로 대별할 수 있다. 비모수밀도함수추 정에 대한 연구는 커널밀도추정량을 이용하는 방법을 중심으로 전개되어 오고 있다.
최근에도 밀도추정량에 대한 이론연구 및 활용에 대한 연구가 매우 활발하다.
Bernstein다항식을 이용한 밀도추정량도 새롭게 제안되고 있다(Bruin외 2인(1999), Babu외 2인(2002), Albers와 Schaafsma(2003)). 그러나 이러한 커널밀도추정량이나 Bernstein다항식을 이용한 밀도추정량을 구하기 위하여 많은 계산이 요구된다. 히스 토그램에 기초한 추정량을 이용하는 방법으로서 도수다각형(frequency polygon), 평 균이동히스토그램(average shifted histogram), 모서리도수다각형(edge frequency polygon), 조각별 선형히스토그램(piecewise linear histogram) 등이 제안되어 있다. 쉽 게 계산이 가능하고, 평활밀도를 위한 수렴속도에 있어 좋은 성질을 갖는 밀도함수를 추정하기 위하여 Scott(1985 a)는 도수다각형의 성질을 연구하였고, 또한, Scott(1985 b)는 평균이동히스토그램(average shifted piecewise linear histogram)을 제안하였다.
1) This work was supported by Pukyong National University Research Fund in 2002.
2) (608-737) Professor, Division of Mathematical Sciences, Pukyong National University, 599-1, Daeyeon-dong, Nam-gu, Busan, KOREA
E-mail: [email protected]
Jones외 3인(1998)은 모서리도수다각형을 제안하였고, Beirlant외 2인(1999)은 조각별 선형히스토그램을 제안하였다.
조각별 선형히스토그램은 밀도함수를 쉽게 추정할 수 있고 확률밀도함수에 대한 기 대오차에 대하여 좋은 성질을 갖고 있다는 장점들에도 불구하고 불연속함수라는 단점 을 갖고 있다. 본 연구에서는 조각별 선형히스토그램이 갖는 좋은 성질을 유지하며 연속함수가 되는 새로운 조각별 연속선형히스토그램(piecewise continuous linear histogram)을 제안하고자 한다.
2. 조각별 연속선형히스토그램
일변량 밀도함수 f( x)를 추정하기 위하여 f( x) 하에서 iid 확률표본 X 1,X 2,...,X n을 추출하였다 하자. 수직선을 유한한 구간으로 나누고 j번째 구간 을 Aj라 하고 A j를 다시 두 구간 A-j 와 A+j 으로 나누어 A j,A-j ,A+j 는 각각 길이가 h j,h j/2,h j/2이고,Aj= A−j ∪A+j 라 하자. 그러면 R 1= { A j}( j = 1, 2, .. ., k)과 R 2={A-j,A+j }( j = 1, 2, .. ., k)는 수직선을 유한 한 구간으로 나누는 분할들이 된다. 수직선상의 보렐집합 A에 대하여 다음과 같이
μ( A) = no. of { i:X i∈A}
n (1) 를 정의하면 Aj와 Bj를 각각 변수 x가 속하는 분할 R 1,R 2의 집합이라 할 때 대응되는 상대도수밀도(relative frequency density)는 각각
g j(x) = μ( A j)
hj ,g' j(x) = μ( B j)
hj/2 (2) 이 된다. m j,m-j ,m+j 를 각각 Aj,A-j ,A+j 의 중심이라고 할 때
( m-j ,g 'j(m-j )),(m j,gj(mj)), ( m+j ,g' j(m+j ))를 지나는 직선 fˆ(x)j 는 g j(m j)+ 2
h j(x-m j)(g'j(m+j )-g'j(m-j ))
이 된다. 마찬가지로, A j - 1, A j + 1에서 만들어지는 직선 fˆj - 1(x), ˆf
j + 1(x) 은 각각
g j - 1(m j - 1)+ 2
h j - 1 (x- m j - 1)(g'j - 1(m+j - 1)- g'j - 1(m-j - 1)),
g j + 1(mj + 1)+ 2
h j + 1 (x- mj + 1)(g' j + 1(m+j + 1)- g' j + 1(m-j + 1)),j= 2,3,..., k - 1 이 된다. 이러한 방법으로 구해진 밀도추정량을 조각별 선형히스토그램이라 한다. 그 런데 이렇게 구한 직선들 ˆf
j - 1(x), ˆfj( x ), ˆfj + 1(x)들은 특별한 경우가 아니면
A j - 1, A j, A j + 1의 경계에서 서로 만나지 않는 불연속적인 직선들이 된다.
ˆf
j - 1(x)와 ˆfj( x )가 A j - 1와 A j의 경계에서 서로 만나려면 두 직선의 기울기와
절편이 같아야 하므로 다음과 같은 등식들이 성립하여야 한다.
2
h j - 1 (g'j - 1(m+j - 1)- g'j - 1(m-j - 1)) = 2
h j (g 'j(m+j )- g'j(m-j )) g j - 1(m j - 1)+ g'j - 1(m+j - 1)- g'j - 1(m-j - 1) = gj(m j)- g' j(m+j )+ g'j(m-j ) 또한 ˆfj( x )와 ˆf j + 1(x)가 A j와 A j + 1의 경계에서 서로 만나려면 두 직선의 기울기와 절편이 같아야 하므로 다음과 같은 등식들이 성립하여야 한다.
2
h j (g'j(m+j )- g'j(m-j )) = 2
h j + 1 (g 'j + 1(m+j + 1)-g'j + 1(m-j + 1)) g j(mj)+ g'j(m+j )-g'j(m-j ) = gj + 1(m j + 1)- g'j + 1(m+j + 1)+ g' j + 1(m-j + 1) 조각별 선형히스토그램의 불연속성을 제거하여 연속함수가 되도록 하기 위하여 ( mj- h j
2 , fˆ
j - 1(m j- h j
2 ))와 ( m j- h j
2 , fˆj( mj- h j
2 ))의 중점 M j - 1과 ( mj+ h j
2 , fˆj( mj+ h j
2 ))와 ( m j+ h j 2 , fˆ
j + 1(m j+ h j
2 ))의 중점 M j를 연결 하는 새로운 직선
ˆf
PCLj(x)= 1
2 {gj(m j)+gj - 1(m j - 1)- g'j(m+j )+ g'j(m-j )+ g'j - 1(m+j - 1) + 2g 'j(m+j )-g'j - 1(m-j - 1)}+ 2h1
j
(x- mj+ h j
2 ){ g j + 1(m j + 1)- gj - 1(mj - 1) - 2g'j(m-j )- g'j + 1(m+j + 1) + g ' j + 1(m-j + 1)- g'j - 1(m+j - 1)+ g' j - 1(m-j - 1)},
j = 2, 3, ..., k− 1 (3) 을 만들 수 있다. 이렇게 구한 직선들 ˆf
PCLj - 1(x), ˆf
PCLj(x), ˆf
PCLj + 1(x)들은
A j, A j - 1, A j + 1의 경계에서 서로 만나게 만든 직선들이므로 당연히 연속적인
직선들이 된다. 이 직선들이 모여 조각별 연속선형밀도추정량인 조각별 연속선형히스 토그램을 형성하게 된다. j가 1이거나 k인 경우는 위의 방법을 이용하지 못하므로 j 가 1일 때와 k일 때는 다음과 같은 방법을 이용한다. 이 방법 외에도 여러 가지 방법 들이 있을 수 있다.
1. j가 1일 때는 ( m-1, f
ˆ
1( m-1))와 M 1을 연결하는 다음과 같은 직선 ˆfPCL1(x)= g1(m1)+ 2
h 1 (m-1- m 1)(g'1(m+1)- g'1(m-1)) + ( x - m-1) Q 1
2(m2- h 2
2 - m-1) ,
여기서
Q 1= g2(m2)- g 1(m 1)- g' 2(m+2)+ g' 2(m-2)+ g' 1(m+1)- g' 1(m-1)
- 4
h 1 (m-1- m 1)× ( g '1(m+1)- g'1(m-1)) (4) 을 이용한다.
2. j가 k일 때는 ( m+k, f
ˆ
k( m+k))와 M k - 1을 연결하는 다음과 같은 직선 ˆfPCLk(x)= gk(mk)+ 2
h k (m+k- mk)(g' k(m+k)- g'k(m-k)) + ( x - m+k) Q 2
2(mk - 1+ h k - 1
2 - m+k) ,
여기서
Q2= g k - 1(m k - 1)- g k(m k)- g'k(m+k)+ g' k(m-k)+ g'k - 1(m+k - 1) - g 'k - 1(m-k - 1) - 4
h k(m+k- mk)(g' k(m+k)- g'k(m-k)) (5) 을 이용한다.
모서리도수다각형은 히스토그램을 이용하여 구하는 데 히스토그램들의 경계에서 두 히스토그램의 높이의 평균을 계산한 후 연결한다. 이 모서리도수다각형은 또 다른 종 류의 조각별 연속선형히스토그램이라 하겠다. 위에서 제시한 조각별 연속선형히스토 그램은 히스토그램을 이용하여 구한 조각별 선형히스토그램에 모서리도수다각형의 개 념을 이용하여 연속성이라는 성질을 부여한 방법이다. 즉 조각별 선형히스토그램들이 교차하는 경계에서 두 직선의 높이의 평균을 계산한 후 연결하여 조각별 연속선형히 스토그램을 만드는 것이다.
조각별 연속선형히스토그램의 장점은 함수의 연속성에 있으나 첫 번째 단점으로서 조각별 선형히스토그램처럼 추정된 밀도함수가 음수가 나올 수 있다는 것이다. 두 번 째 단점으로서 조각별 선형히스토그램은 본래의 히스토그램과 면적이 같도록 만들어 진 선형히스토그램이나 조각별 연속선형히스토그램은 원래의 히스토그램에 대한 정보 는 이용하나 원래의 히스토그램을 직접적으로 반영하지는 못한다는 것이다. 그래서 밀도함수에 대하여 정적분을 구하면 1이 되지 않을 수 있다. 이때는 이 값이 1이 되 도록 밀도함수를 조정하여 줄 필요가 있다. 세 번째 단점으로서 이 밀도함수는 연속 성을 만족하기는 하나 계급의 경계에서 미분이 불가능할 수 있다는 것이다.
이러한 조각별 연속선형히스토그램을 조각별 선형히스토그램과 비교하기 위하여 두 가지 예를 보이고자 한다.
예 1: λ = 1인 지수분포 하에서 랜덤데이터 200개를 추출하여 계급의 개수를 5개로 하는 히스토그램을 그리니 다음 그림 2.1과 같았다. 5개의 계급([0, 1], [1, 2], [2, 3], [3, 4], [4, 5])으로 나누어 조각별 선형히스토그램과 조각별 연속선형히스토그램을 그 리면 그림 2.2와 같다. 여기서, 진한 점선으로 표시한 곡선이 지수분포이고, 연한 점선 으로 표시된 조각별 직선이 Beirlant외 2인(1999)이 제안한 조각별 선형히스토그램이 고, 직선으로 표시된 조각별 직선이 이 논문에서 제안한 조각별 연속선형히스토그램 이다. 조각별 선형히스토그램은 불연속적인 조각별 직선임에 비하여 조각별 연속선형
히스토그램은 연속적인 조각별 직선임을 알 수 있다.
<그림 2.1> λ = 1인 지수분포 하에서의 랜덤데이터 200개에 대한 히스토그램 다음 표 2.1은 조각별 선형히스토그램와 조각별 연속선형히스토그램 각각에 대하 여 각 계급별로 계산한 적분절대오차(integrated absolute error)
: a
b
| fˆ(x )− f (x )| d x 와 그들의 합을 나타낸 표이다. 조각별 연속선형히스토그램이 조각별 선형히스토그램 보다 합의 값이 더 작음을 알 수 있다. 즉, 조각별 연속선형히스토그램이 밀도함수에 더 잘 적합함을 알 수 있다.
<그림 2.2> 지수분포에 대한 조각별 선형히스토그램과 조각별 연속선형히스토그램
<표 2.1> 지수분포에 대한 적분절대오차값 비교
계급 조각별 선형히스토그램 연속조각별 선형히스토그램
1: [0, 1] 0.0421 0.0443
2: [1, 2] 0.0625 0.0189
3: [2, 3] 0.3451 0.0176
4: [3, 4] 0.0145 0.0155
5: [4, 5] 0.0125 0.0074
전체: [0, 5] 0.4767 0.1037
조각별 연속선형히스토그램이 조각별 선형히스토그램보다 밀도함수에 더 잘 적합한 지를 알아보기 위하여 λ = 1인 지수분포 하에서 랜덤데이터 200개를 추출하여 계급 의 폭을 1로 한 후 조각별 선형히스토그램와 조각별 연속선형히스토그램 각각에 대하 여 적분절대오차를 구하는 절차를 250번 시행하니 다음 그림 2.3과 같았다. 여기서 x 축은 조각별 선형히스토그램에 대한 적분절대오차이고 y축은 조각별 연속선형히스 토그램에 대한 적분절대오차를 가리킨다. 조각별 연속선형히스토그램이 조각별 선형 히스토그램보다 밀도함수에 항상 더 잘 적합하지는 않지만 250번 중 170번 더 잘 적 합함을 알 수 있었다. 약 2배 정도 조각별 연속선형히스토그램이 조각별 선형히스토 그램보다 밀도함수에 더 잘 적합함을 알 수 있었다. 표 2.2는 조각별 선형히스토그램 와 조각별 연속선형히스토그램에 대한 적분절대오차값 250개에 대한 중심측도들과 산 포도측도값들을 나타내고 있다. 조각별 연속선형히스토그램이 조각별 선형히스토그램 보다 중심측도들과 산포도측도값들이 모두 작음을 알 수 있다.
<그림 2.3> 지수분포에 대한 적분절대오차 산점도
<표 2.2> 지수분포에 대한 적분절대오차값 250개의 중심측도들과 산포도측도값들
평균 중앙값 범위 분산 표준편차
조각별 선형히스토그램 0.243 0.149 1.834 0.077 0.277 조각별 연속선형히스토그램 0.164 0.124 0.757 0.016 0.128
예 2: 표준정규분포 하에서 랜덤데이터 200개를 추출하여 계급의 개수를 6개로 하 는 히스토그램을 그리니 그림 2.4와 같았다.
<그림 2.4> 표준정규분포 하에서의 랜덤데이터 200개에 대한 히스토그램 6개의 계급([-3, -2], [-2, -1], [-1, 0], [0, 1], [1, 2], [2, 3])으로 나누어 조각별 선형 히스토그램과 연속조각별 선형히스토그램을 그리면 그림 2.5와 같다. 여기서, 진한 점 선으로 표시한 곡선이 표준정규분포이고, 연한 점선으로 표시된 조각별 직선이 Beirlant외 2인(1999)이 제안한 조각별 선형히스토그램이고, 직선으로 표시된 조각별 직선이 이 논문에서 제안한 조각별 연속선형히스토그램이다. 조각별 선형히스토그램 은 불연속적인 조각별 직선임에 비하여 조각별 연속선형히스토그램은 연속적인 조각 별 직선임을 알 수 있다.
<그림 2.5> 표준정규분포에 대한 조각별 선형히스토그램과 조각별 연속선형히스토그램
다음 표 2.3은 조각별 선형히스토그램와 조각별 연속선형히스토그램 각각에 대하여 각 계급별로 계산한 적분절대오차(integrated absolute error)
: a
b
| fˆ(x )− f (x )| d x와 그들의 합을 나타낸 표이다. 조각별 연속선형히스토그램이 조각별 선형히스토그램보 다 합의 값이 더 작음을 알 수 있다. 즉, 조각별 연속선형히스토그램이 밀도함수에 더 잘 적합함을 알 수 있다.
<표 2.3> 표준정규분포에 대한 적분절대오차값 비교
계급 조각별 선형히스토그램 연속조각별 선형히스토그램
1: [-3, -2] 0.0164 0.0105
2: [-2, -1] 0.0143 0.0184
3: [-1, 0] 0.0475 0.0273
4: [0, 1] 0.0230 0.0162
5: [1, 2] 0.0391 0.0118
6: [2, 3] 0.0118 0.0080
전체: [-3, 3] 0.1521 0.0921
조각별 연속선형히스토그램이 조각별 선형히스토그램보다 밀도함수에 더 잘 적합한지 를 알아보기 위하여 표준정규분포 하에서 랜덤데이터 200개를 추출하여 계급의 폭을 1로 한 후 조각별 선형히스토그램와 조각별 연속선형히스토그램 각각에 대하여 적분 절대오차를 구하는 절차를 740번 시행하니 다음 그림 2.6과 같았다. 여기서 x축은 조 각별 선형히스토그램에 대한 적분절대오차이고 y축은 조각별 연속선형히스토그램에 대한 적분절대오차를 가리킨다. 조각별 연속선형히스토그램이 조각별 선형히스토그램
보다 밀도함수에 항상 더 잘 적합하지는 않지만 740번 중 605번 더 잘 적합함을 알 수 있었다. 약 4.5배 정도 조각별 연속선형히스토그램이 조각별 선형히스토그램보다 밀도함수에 더 잘 적합함을 알 수 있었다. 표 2.4는 조각별 선형히스토그램와 조각별 연속선형히스토그램에 대한 적분절대오차값 740개에 대한 중심측도들과 산포도측도값 들을 나타내고 있다. 조각별 연속선형히스토그램이 조각별 선형히스토그램보다 중심 측도들은 모두 약간씩 작으나 산포도측도값들은 모두 약간씩 큼을 알 수 있었다.
<그림 2.6> 표준정규분포에 대한 적분절대오차 산점도
<표 2.4> 표준정규분포에 대한 적분절대오차값 740개의 중심측도들과 산포도측도값들
평균 중앙값 범위 분산 표준편차
조각별 선형히스토그램 0.175 0.171 0.260 0.0018 0.042 조각별 연속선형히스토그램 0.140 0.135 0.354 0.0024 0.049
3. 결론
조각별 선형히스토그램은 밀도함수를 쉽게 추정할 수 있고 확률밀도함수에 대한 기 대오차에 대하여 좋은 성질을 갖고 있다는 장점들에도 불구하고 불연속함수라는 단점 을 갖고 있으므로 이 단점을 없애고 조각별 선형히스토그램이 갖는 좋은 성질을 유지 할 수 있는 새로운 조각별 연속선형히스토그램을 제안하였다. 이 조각별 연속선형히 스토그램은 밀도함수추정이라는 통계학 분야 뿐 만이 아니라 고속도 처리용 신호처리
및 화상처리 등에도 쓰일 수 있다. 추후 과제로서 조각별 연속선형히스토그램을 구할 때 최적의 계급의 수는 몇 개인가하는 문제를 들 수 있다. 히스토그램을 구할 때 최 적의 계급의 수는 몇 개인가하는 문제와 같은 맥락이다.
참고문헌
1. Albers, C. J. and Schaafsma, W.(2003). Estimating a density by adapting an initial guess, Computational Statistics and Data Analysis, 42, 27-36..
2. Babu, G. J., Canty, A. J., and Chaubey, Y. P.(2002). Application of Bernstein polynomial for smooth estimation of a distribution and density function, Journal of Statistical Planning and Inference, 105, 377-392.
3. Beirlant, J., Berlinet, A., and Gyorfi, L.(1999). On piecewise linear density estimators, Statistica Neerlandica, 53, 287-308.
4. Bruin, R., Salome, D., and Schaafsma, W.(1999). A semi-Bayesian method for nonparametric density estimation, Computational Statistics and Data Analysis, 30, 19-30.
5. Jones, M. C., Samiuddin, M., Al-Harbey, A. H., and Maatouk, T. A.
H.(1998). The edge frequency polygon, Biometrika, 85, 235-239.
6. Scott, D. W.(1985 a). Frequency polygons: theory and application, Journal of the American Statistical Association, 80, 348-354.
7. Scott, D. W.(1985 b). Average shifted histograms: effective nonparametric density estimators in several dimensions, Annals of Statistics, 13, 1024-1040.
[ 2005년 10월 접수, 2005년 11월 채택 ]