Usefulness of Canonical Correlation Classification Technique in Hyper-spectral Image Classification

(1)

大韓土木學會論文集第26卷第5D 號·2006年 9月 pp. 885~894

測量 및 地形空間情報工學

하이퍼스펙트럴영상 분류에서 정준상관분류기법의 유용성

Usefulness of Canonical Correlation Classification Technique in Hyper-spectral Image Classification

박민호*

Park, Min-Ho

···

Abstract

The purpose of this study is focused on the development of the effective classification technique using ultra multiband of hyperspectral image. This study suggests the classification technique using canonical correlation analysis, one of multivariate statistical analysis in hyperspectral image classification. High accuracy of classification result is expected for this classification technique as the number of bands increase. This technique is compared with Maximum Likelihood Classification(MLC). The hyperspectral image is the EO1-hyperion image acquired on September 2, 2001, and the number of bands for the experiment were chosen at 30, considering the band scope except the thermal band of Landsat TM. We chose the comparing base map as Ground Truth Data. We evaluate the accuracy by comparing this base map with the classification result image and performing overlay analysis visually. The result showed us that in MLC's case, it can't classify except water, and in case of water, it only classifies big lakes. But Canonical Correlation Classification (CCC) classifies the golf lawn exactly, and it classifies the high- way line in the urban area well. In case of water, the ponds that are in golf ground area, the ponds in university, and pools are also classified well. As a result, although the training areas are selected without any trial and error, it was possible to get the exact classification result. Also, the ability to distinguish golf lawn from other vegetations in classification classes, and the abil- ity to classify water was better than MLC technique. Conclusively, this CCC technique for hyperspectral image will be very useful for estimating harvest and detecting surface water. In advance, it will do an important role in the construction of GIS database using the spectral high resolution image, hyperspectral data.

Keywords : hyperspectral image, canonical correlation analysis, hyperion, maximum likelihood classification, canonical cor- relation classification technique

···

요 지

본 논문의 의도는 하이퍼스펙트럴 영상의 다량의 밴드를 사용하면서도 효율적인 분류기법의 개발에 초점을 두고 있다. 본 연구에서는 하이퍼스펙트럴 영상의 분류에 있어 이론적으로 밴드수가 많아질수록 분류정확도가 높을 것이라 예상되는, 다변 량 통계분석기법중의 하나인 정준상관분석을 적용한 분류기법을 제안한다. 그리고 기존의 대표적인 전통적 분류기법인 최대 우도분류 방법과 비교한다. 사용되는 하이퍼스펙트럴 영상은 2001년 9월 2일 취득된 EO1-Hyperion 영상이다. 실험을 위한 밴드수는 LANDSAT TM 영상에서 열밴드를 제외한 나머지 데이터의 파장대와 일치하는 부분을 감안하여 30개 밴드로 선 정하였다. 지상실제데이터로서 비교기본도를 채택하였다. 이 비교기본도와 시각적으로 윤곽을 비교하고, 중첩분석하여 정확도 를 평가하였다. 최대우도분류의 경우 수역 분류를 제외하고는 전혀 분류기법으로서의 역할을 하지 못하는 것으로 판단되며, 수역의 경우도 큰 호수 외에 작은 호수나 골프장내 연못, 부분적으로 물이 존재하는 작은 영역 등은 전혀 분류하지 못하고 있는 것으로 나타났다. 그러나 정준상관분류결과는 비교기본도와 형태적으로 시각적 비교를 해볼 때 골프장잔디를 거의 명확 히 분류해 내고 있으며, 도시역에 대해서도 고속도로의 선형 등을 상당히 잘 분류해내고 있음을 알 수 있다. 또한 수역의 경우도 골프장 연못이나 대학교내 연못, 기타지역의 연못, 웅덩이 등 까지도 잘 분류해내고 있음을 확인할 수 있다. 결과적 으로 정준상관분석 알고리즘의 개념상 트레이닝 영역 선정시 시행착오를 겪지 않고도 정확한 분류를 할 수 있었다. 또한 분 류항목 중에서 잔디와 그 외 식물을 구분해 내는 능력과 수역을 추출해 내는 능력이 최대우도분류기법에 비해 우수하였다.

이상의 결과로 판단해 볼 때 하이퍼스펙트럴영상에 적용되는 정준상관분류기법은 농작물 작황 예측과 지표수 탐사에 매우 유용하리라 판단되며, 나아가서는 분광적 고해상도 영상인 하이퍼스펙트럴 데이터를 이용한 GIS 데이터베이스 구축에 중요 한 역할을 할 수 있을 것으로 기대된다.

핵심용어 : 하이퍼스펙트럴 영상, 정준상관분석, 하이퍼리온, 최대우도분류, 정준상관분류기법

···

*정회원·목포대학교지적학과부교수

(E-mail : [email protected])

(2)

1. 서 론

최근 다양한 활용이 기대되는 하이퍼스펙트럴영상으로 토 지피복분류를 수행함에 있어 , 이론적으로 밴드수가 많을수록 유리한 정준상관분류기법을 적용하여 그 효용성을 알아보고 자 한다 . 정준상관분류기법이 아직은 일반화되어 널리 사용 되는 기법은 아니기 때문에 , 분류결과에 대한 신뢰도가 부족 한 상황이다 . 이러한 문제점을 해결하기 위해 정준상관분류 기법의 효용성에 대한 별도의 연구가 이루어져야 할 필요가 있다 . 아직까지는 별로 사용되지 않고 있는 분류기법인 정준 상관분류기법이 실효성이 있는 것으로 판단되면 , 그 응용분 야가 확대되는 것은 물론 , 특히 다분광밴드 위성영상으로부 터의 토지정보 취득에 매우 유용할 것이며 , 영상분류기법 분 야에 신선한 연구의욕을 불러올 것이다 . 전통적인 다분광 영 상들과 비교할 때 하이퍼스펙트럴 영상은 과거에 얻었던 영 상들보다 풍부하고 세밀한 분광정보를 포함한다 . 이론적으로 ,

하이퍼스펙트럴 영상을 사용하는 것은 토지이용 / 피복형태를 분류하는 능력을 향상시켜야 한다 . 그러나 하이퍼스펙트럴 영상의 분류에 전통적 분류기법이 적용될 때 , ^사람들은 ^보통

저효율성 , 대량의 트레이닝 데이터가 필요한 점 , 분류정확도 가 별로 향상되지 않는 점 등에서 실망한다 . 특히 하이퍼스

펙트럴 영상은 밴드수가 대략 50 개 이상이며 , 200 개 이상

되는 경우가 많으므로 , 토지피복분류작업을 수행하기 위해 개별항목당 10N~100N(N 은 밴드수 ) 의 트레이닝 데이터 개수 가 필요하다는 기준에 따르면 (Swain and Davis, 1978),

200 개 밴드수를 예로 들 경우 , 최소 2,000 개 이상인 매우

많은 개수의 트레이닝 데이터가 필요하게 된다 . ^그러나 ^실제

로 2,000 개 화소 이하의 특정항목을 분류해야 하는 경우 ,

2,000 개 이상의 트레이닝 데이터를 확보할 수 없을뿐더러 ,

골고루 분포되어 있는 토지피복 항목인 경우는 2,000 개 이

상의 트레이닝데이터를 취득해 내기가 매우 어렵다 . ^이러한

문제점에 대해 , 본 논문의 의도는 하이퍼스펙트럴 영상분류 에 주로 적용되는 유효밴드선정 (Band Selection) 이나 유효밴 드추출 (Band Extraction) 방법 (Hsu and Tseng, 1999) 을 사 용하지 않고 다수의 밴드를 있는 그대로 사용하면서도 정확 하고 효율적인 토지피복분류를 수행할 수 있는 분류기법의 제안에 초점을 두고 있다 . 즉 , 다수의 밴드수에 대하여 , 최 소한의 필요개수 보다 훨씬 소량인 임의의 트레이닝 데이터 를 시행착오를 거치지 않고 한번만 선택하여 , 곧바로 분류를 수행하여도 분류정확도가 높은 분류기법의 개발 및 제안이 본 연구의 소기의 목적이라 할 수 있다 .

본 연구와 관련하여 하이퍼스펙트럴 영상을 이용한 최근까 지의 연구동향을 살펴보면 , 외국의 경우 , 하이퍼스펙트럴 데

이터가 소개되고 연구되기 시작한 것은 1990 년대 중반이며 ,

연구가 본격화 된 것은 2000 년 이후로 볼 수 있다 . 몇 가

지 예를 들면 , 초기연구로서 Convex Geometry 개념을 활

용한 AVIRIS 데이터의 자동화 Spectral Unmixing 에 관한

연구 (Boardman, 1993) 가 있었고 , 하이퍼스펙트럴 영상에 대

한 유효밴드선정 및 추출에 관한 연구 (Hsu and Tseng,

1999), ^{하이퍼스펙트럴} ^영상처리 ^및 ^유효밴드 ^추출 ^자동화

기술에 관한 연구 (Farrand and Blundell, 2004) 등이 수행

되었으며 , 주로 유효밴드선정 및 추출과 영상분류에 관한 연

구가 주류를 이루었다 .

국내의 경우에 있어서는 Hyperion 센서 데이터를 이용한

지형지물 추출에 대한 연구 ( 서병준 등 , 2003) 가 있었고 ,

Hyperion 영상의 분류를 위한 밴드추출에 관한 연구 ( 한동엽

등 , 2003), 무감독 SAM 기법을 이용한 하이퍼스펙트럴 영

상분류에 관한 연구 ( 김용일 등 , 2004), 하이퍼스펙트럴 영상

의 분류기법 비교에 관한 연구 ( 김용일 등 , 2004) 등에서 주

로 하이퍼스펙트럴 영상을 보다 효율적으로 분류하는 방법 에 대한 연구가 수행되었다 . 이외에도 LSM Model 을 사용 한 하이퍼스펙트럴영상의 Sub-Pixel 해석에 관한 연구 ( 김용 일 등 , 2004), Spectral Angle 과 Unit Vector 를 이용한

Hyperion 데이터의 무감독분류에 관한 연구 ( 유기윤 등 ,

2005) 등이 수행된 바 있으며 , 가장 최근에 정준상관분석

이론을 이용한 최적밴드선정에 관한 연구가 수행되었다 ( 장 훈 등 , 2004).

2. 연구내용 및 방법

본 연구에서는 이상의 국내외 연구와 관련된 연구로서 , ^하

이퍼스펙트럴 영상의 분류에 있어 이론적으로 밴드수가 많 을수록 분류정확도가 높을 것이라 예상되는 , 다변량 통계분 석기법중의 하나인 정준상관분석을 적용한 분류기법을 제안 한다 . 구체적으로는 인공위성 하이퍼스펙트럴 영상인

Hyperion 데이터가 본 연구에서의 새로운 제안을 설명하기 위

해 분석되며 , 정준상관분류기법의 효율성을 보여주기 위해 시험된다 . 즉 , 정준상관분석의 원리를 이용한 이 분류알고리 즘을 프로그램화하여 , ^그 ^원리에 ^근거한 ^가능한 ^한 ^많은 ^수

의 다중영상밴드를 사용하여 토지정보취득을 위한 영상분류 를 실시한다 . 분류결과에 대한 비교평가를 위해 동일한 트레 이닝 데이터를 사용하여 최대우도분류기법에 의한 분류를 수 행한다 . ^이 ^평가 ^{결과로부터} ^{정준상관분류기법이} ^{하이퍼스펙}

트럴 영상분류에서 어떠한 장점과 효용성이 있는지를 파악 해 내고자 한다 .

실험을 위한 연구대상영역은 , 그 크기는 작게 하되 , 시각 적으로도 분류결과의 정확도를 평가할 수 있는 지역이어야 한다 . 이를 위해 보유하고 있는 하이퍼스펙트럴영상 중

Wisconsin Madison 지역을 포함하고 있는 EO1-Hyperion

영상을 선택하였다 . 원 데이터는 밴드 범위가 No. 12~57,

79~219 인 실질적으로는 187 개의 밴드수를 갖는 하이퍼스펙

트럴 영상이다 . 이 데이터는 No. 1~11, 58~78 의 32 개 밴

드가 노이즈 및 중복 문제로 인해 제거된 상태의 영상이다 .

사용되는 하이퍼스펙트럴 영상은 2001 년 9 월 2 일 취득되었 으며 , 이 영상의 수치는 100 으로 나누어지면 , Spectral

Radiance 로 변환될 수 있다 . 즉 원 영상의 화소값은

2byte 를 사용한다 . 효율적인 실험과 분류기법간 비교평가를

위해 , 실험을 위한 밴드수는 LANDSAT TM 영상에서 열

밴드를 제외한 나머지 데이터의 파장대 범위와 일치하는 부분에서 임의의 30 개 밴드로 선정하였다 . 분류기준용 표본

데이터 즉 트레이닝 데이터의 토지피복 항목수는 golf

lawn, urban, vegetation, water 총 4 개 항목으로 결정하 였다 . 전체적인 연구수행과정을 흐름도로 정리하면 그림 1

과 같다 .

(3)

3. 하이퍼스펙트럴 영상의 정준상관분류 3.1 하이퍼스펙트럴 영상의 전처리

2007 년부터 우리나라도 베셀타원체 대신 준거타원체로 사

용하게 될 GRS 1980 타원체를 기준으로 위스콘신 매디슨

지역 Transverse Mercator 투영 직교좌표로 지리참조된

(Georeferenced), 동일한 날자 (2001 년 9 월 2 일 ) 의 Landsat7

ETM+(Enhanced Thematic Mapper Plus) 데이터를 사용하

여 , 기하보정을 실시한다 . 시행착오를 거쳐 총 35 개의 지상

기준점을 사용하여 1 차 다항식변환 (Affine Transformation) 을 적용하였으며 , 0.5pixel 이하의 정확도를 유지하였다 . 재배열

(Resampling) 방법으로는 보편적으로 가장 많이 사용되는 공

일차내삽법 (Bilinear Interpolation) 을 적용하였다 .

이상과 같이 하여 본 연구에서는 일단 187 개 밴드를 갖는

865pixels × 256pixels 영역 전체를 기하보정 하였으며 , 정확

도 평가 등의 후속 작업을 위해 전체영역 중에 ETM+ 데

이터와 영역이 중복되는 영역으로서 269pixels × 199pixels

영역을 절출하였다 . 기하보정된 영상과 절출된 영역은 사진

1, 2, 3 과 같다 . 기하보정된 영상은 RGB 칼라필터에 의해

밴드번호 53, 51, 49 밴드가 합성되었으나 파장대 수치가

거의 비슷하므로 Gray Level 로 나타나 보인다 .

3.2 정준상관분류에서 분광밴드 개수의 영향

영상데이터에 대한 정준상관분류가 정상적으로 수행되기 위해서는 , 정준상관분석에서의 두 변수군 즉 , 예측변수군과 기준변수군이 서로 상관되어 있어야 한다 . 이를 확인하기 위 해 일반적으로 검정을 위한 귀무가설을 세워 유의성 검정을 하며 , ^검정을 ^위한 ^계산식 ^내의 ^샘플수 (n) ^크기에 ^따라 ^상관

도의 여부에 직접적인 영향을 미침을 알 수 있다 . 여기서 각 변수의 샘플수는 영상데이터의 밴드개수와 동일한 의미 를 갖는다 . 예를 들면 행렬 로부터 추출 된 각 고유치 ( λ

1

, λ

2

, λ

3

, ..., λ

p

) 가 통계적으로 유의한가를 검정하는 방법에는 여러 가지가 있으나 지금까지 제안된 방

법 중 대표적인 것은 Fisher 에 의해 유도된 임의의 p, q 에

대한 정준상관계수의 분포함수를 이용하는 방법이다 . 검정을 위한 귀무가설 ( ^H

0

) ^은 ^두 ^변수군이 ^서로 ^상관되어 ^있지 ^않다

는 것이며 , 이에 대한 대립가설은 두 변수군이 서로 상관되 어 있다는 것이다 . 즉 , 상관도 추정의 원리 및 유의성 검정

을 위한 우도비 (likelihood ratio) 테스트의 결과를 살펴봄으

로써 이상의 내용을 확인할 수 있다 .

본 연구에서 사용되는 자료에 대한 유의성 검정을 수행해 보면 다음과 같다 (Johnson and Wichern, 2002; Bartlett, 1941).

Σ₁₁^{– 2}¹^⁄ Σ₁₂Σ₂₂^–¹Σ₂₁Σ₁₁^–^{1 2}^⁄

그림 1. 연구수행과정 흐름도

사진 1. 기하보정된 Hyperion영상(53, 51, 49 밴드 RGB합성)

사진 2. Natural Color

사진 3. False Color (48, 31, 21 밴드 RGB합성)

(4)

Σ

12

=0 일 때 a

1

X

⁽¹⁾

과 b '

1

X

⁽²⁾

는 모든 벡터 a, b에 대하여 공분산 a ' Σ

12

b =0 을 갖는다 . 결과적으로 모든 정준상관계수는

0 이 되며 , 이 경우 정준상관분석을 수행하는 아무런 의미가 없다 . 다음의 내용은 표본 데이터에 대해 Σ

12

=0 을 검정하는 방법을 제공한다 .

, j = 1, 2, ..., n는

인 N

p+q

( µ , Σ ) 모집단으로부터의

임의 샘플이다 .

이 때 대 의 우도비

(likelihood ratio) 테스트는 다음과 같은 분포를 기준으로 수

행된다 .

즉 , (1)

의 큰 값에 대해 귀무가설 ( H

0

) 을 기각한다 .

여기서 는 Σ의 불편추정량이다 .

n값이 큰 경우 식 (1) 은 근사적으로 자유도 pq를 갖는 카 이제곱분포를 따른다 . 또한 우도비율 통계량 식 (1) 은 가설 H

0

하에서 샘플분산 를 제한되지 않은 분산

| S | 와 비교하고 있다 .

Bartlett 은 -2ln Λ의 샘플링분포에 대해 χ

²

근사치를 향상시

키기 위해 우도비율통계량에서의 요소 n을

(2)

로 대치시키는 것을 제안하였다 .

따라서 n과 n− ( p + q ) 값이 클 때

(3)

이면 유의수준 α에서

H

0

: Σ

12

= 0( ρ

1*

= ρ

2*

= ... = ρ

p*

= 0) 을 기각한다 .

여기서 , ^c

²pq

( ^α ) ^는 ^자유도 ^pq의 ^{카이제곱분포의} ^상위확률 ^α %

이다 .

귀무가설 H

0

: Σ

12

=0 이 기각되면 개별적인 정준상관계수의 유의성을 검정해 보아야 한다 . 정준상관계수는 가장 큰 값부 터 가장 작은 값까지 순차적으로 있기 때문에 첫 번째 정준 상관계수는 0 이 아니고 나머지 p-1 개의 정준상관계수는 0 이 라 가정할 수 있다 . 이 가설이 기각되면 처음 두 개의 정준 상관계수가 0 이 아니고 나머지 p-2 개의 상관계수는 0 이라 가정한다 .

가설의 내용은 다음과 같다 .

, , ..., ,

for some (4)

Batlett 은 식 (4) 에서의 k번째 가설이 우도비율기준에 의해

검정될 수 있음을 증명하였다 .

특히

(5)

이면 유의수준 α에서 H

0(k)

를 기각한다 .

여기서 χ

²(p-k)(q-k)

( α ) 는 자유도 ( p−k )( q−k ) 인 카이제곱분포의 상위확률 α % 의 값이다 . 특히 식 (5) 의 검정통계량은 처음 k개의 샘플정준상관계수가 으로부터 제거된 후의 나머지인 을 포함하고 있음을 주목해야 한다 .

순서대로 H

0

, H

0(1)

, H

0(2)

…이 H

0(k)

가 기각되지 않을 때까 지 검정되면 전체유의수준은 α가 아니며 사실상 결정하기가 어렵다 . 이 검정과정의 또 다른 결점은 귀무가설이 단지 그 자체가 기각되지 않기 때문에 옳다는 결론을 지을 우려가 있다는 점이다 . 그럼에도 불구하고 이상과 같은 유의성 검정 은 다변량 정규데이터에 대해 유용하다 . 식 (5) 에 의한 연속 적인 검정은 조심스럽게 해석되어야 하지만 , 아마도 의미 있 는 중요한 정준변량의 개수를 선택하는데 있어서 간편한 지 침으로서는 최선의 방법일 것이다 .

이상의 유의성 검정방법을 본 연구에서 사용되는 하이퍼스 펙트럴 영상의 밴드수 ( 샘플수 ) 와 토지피복항목수 (q: 예측변 수 ) ^및 ^화소수 (p: ^기준변수 ) ^에 ^대해 ^적용하여 ^{구체적으로} ^해

석하면 다음과 같다 .

Hyperion 영상의 220 개 밴드 중 30 개를 선택하였으므로

n=30 이 된다 . 정준상관분류 알고리즘에 의하면 화소별로 독 립적으로 정준상관분석을 하여 , ^가장 ^상관도가 ^높은 ^토지피

복항목을 해당되는 분류항목으로 결정하므로 p=1 이며 , 분류 될 토지피복항목수를 4 개만 선택하였으므로 q=4 가 된다 . p=1 이므로 정준상관계수는 1 개만 존재하고 가설이 기각되든 채택되든 한번으로 끝난다 . ^그리고 ^{정준상관계수의} ^제곱값인

고유치 ( λ ) 의 값은 본 연구대상 하이퍼스펙트럴 영상의

거의 모든 화소에 대해 0.99 이상의 값을 갖는 것으로 계산

되므로 , 가능한 한 가설이 기각되지 않도록 하기 위해 , 고유 치의 임계값으로 =0.99 를 채용한다 .

따라서 ,

= − 30 − 1 − 1/2(1 + 4 + 1) × ln(1 − 0.99)

= − 26 × − 4.605 = 119.73 이고 ,

자유도는 p × q = 1 × 4 = 4 이므로 χ

²

분포의 상위 1% 의 값은

χ

²(pq)

( α ) = χ

²4

(0.01) = 13.28 이다 .

두 값을 비교하면 큰 차이가 나며 , 119.73 > 13.28 이

명백하므로 가설 H

0

: Σ

12

=0 를 기각한다 .

만약 이상과 같은 테스트를 토지피복분류를 위해 사용될

수 있는 밴드수가 6 개 , 즉 n=6 인 LANDSAT 데이터에 대

x

_j

x

_j^{( )}¹

x

_j^{( )}²

=

Σ

⁽^{p p}

∑

^×¹¹⁾ ¹²

p q× (

∑

) q p×21

(

∑

) ²²

q q× (

∑

)

=

H

₀

( Σ

₁₂

= 0

₍_{p q}_× ₎

) H

₀

( Σ

₁₂

≠ 0

₍_{p q}_× ₎

)

2lnΛ= nln S

₁₁

||S

₁₂

--- S

⎝ ⎠

⎛ ⎞ = n – ln ( 1 ρˆ –

i*2

)

i 1=

∏

p

–

S S

₁₁

S

₁₂

S

₂₁

S

₂₂

=

S₁₁ 0

0' S₂₂= S₁₁S₂₂

n 1 – 1

2 --- p q 1 ( + + ) –

n 1 – 1

2 --- p q 1 ( + + )

⎝ – ⎠

⎛ ⎞

– ln ( 1 ρˆ –

i*2

)

i 1=

∏

p

^> ^χ

^pq²

^{( )} ^α

H

₀^{( )}^k

:ρ

₁^*

≠ 0 ρ

₂^*

≠ 0 ρ

_k^*

≠ 0 ρ

_{k 1}^*₊

= … ρ =

_p^*

= 0 H

₁^{( )}^k

:ρ

_i^*

≠ 0 i k ≥ + 1

n 1 – 1

2 --- p q 1 ( + + )

⎝ – ⎠

⎛ ⎞

– ln ( 1 ρˆ –

i*2

)

i 1=

∏

p

^> ^χ

⁽²^{p k}^– ^{) q k}⁽ ^– ⁾

^{( )} ^α

Λ^{2 n}^⁄ (1 ρˆ– _i^*2)

i 1=

∏

p

= 1 ρˆ– _i^*2

( )

i k 1= +

∏

p

ρˆ_i^*2

n 1 – 1

2 --- p q 1 ( + + )

⎝ – ⎠

⎛ ⎞

– ln ( 1 ρˆ –

i*2

)

i 1=

∏

p

(5)

해 적용해보면 위의 값은 다음과 같이 된다 . 트레이닝 데이

터와 밴드수에 따라 의 값이 약간 다를 수 있으나 , p=1

인 경우 , 의 값은 거의 0.990~0.9999 사이의 값으로

계산되므로 여기서는 의 값을 동일하게 0.99 로 하여 계 산한다 .

= − 6 − 1 − 1/2(1 + 4 + 1) × ln(1 − 0.99)

= − 2 × − 4.605 = 9.21 이고 ,

χ

²

분포의 상위 1% 의 값은 마찬가지로 χ

42

(0.01) = 13.28

이고 , 9.21 < 13.28 이 되어 부등호가 바뀌므로 가설 H

0

를 기 각하지 못하게 된다 . 따라서 두개의 변수군 사이에 상관관계 가 없을 수도 있음을 나타낸다 . 이러한 결과는 정준상관분석 에 의해 분류항목이 결정되지 못한다는 의미와 같다 .

이상의 결과를 종합해보면 , 정준상관분류기법은 위성영상 데이터의 밴드수가 많을수록 분류수행에 유리할 것이라는 점 을 이론적으로 판단할 수 있다 . 즉 분광밴드 개수가 많은 하이퍼스펙트럴 데이터를 토지피복분류할 때 정준상관분류기 법이 유용하리라는 것을 수학적 결과에서도 예측할 수 있다 .

3.3 Hyperion 영상의 사용밴드 선택

LANDSAT TM 데이터는 모두 7 개의 밴드로 구성되어 있

다 . 최대우도분류기법으로 영상분류를 수행하기 위해서는 7

개의 밴드를 전부 사용하여도 무방하나 , 일반적으로 7 개의 밴드를 다 사용하는 것은 효율적이지 못할 때가 많다 . 예를 들면 7 ^개의 ^밴드를 ^{사용하였을} ^때의 ^{분류결과가} 3~4 ^개의 ^밴

드를 사용하여 분류를 수행하였을 때의 분류결과와 큰 차이 없이 거의 비슷한 경우가 많다 . 이와 같은 경우 7 개의 밴드 를 사용하여 수행하는 분류는 수행시간만 많이 걸릴 뿐 , 아 무런 이득이 없게 된다 . ^따라서 ^{분류작업의} ^효율을 ^높이기

위해 유효밴드 선정작업을 수행하게 된다 . 유효밴드 선정은 대표적으로 Transformed Divergence 나 Jeffreys-Matusita

Distance 를 계산한 값을 기준으로 한다 . 이 값은 같은 TM

데이터라도 대상영역에 따라 다르게 나타나므로 연구대상영 역이 달라질 때마다 계산해야 한다 .

이상과 같은 상황은 하이퍼스펙트럴 데이터에 정준상관분 류기법을 적용한다고 해도 마찬가지일 것이다 . 정준상관분류 기법이 밴드수가 많을수록 유리하다고 해도 220 개 밴드를 전부 사용한다는 것은 엄청난 시간낭비만 초래할 것으로 예 상된다 . 그러나 본 연구는 임의의 위성영상 영역을 가장 효 율적으로 분류하는데 의미가 있는 것이 아니라 , 하이퍼스펙 트럴 데이터 분류에 있어 정준상관분류기법이 분류기법으로 서 효용성이 있는지 , 타분류기법과 비교하여 어떤 특성을 가 지고 있는 지를 파악하는 것이 연구의 핵심이므로 유효밴드 선정작업은 수행하지 아니 하였다 . 하지만 앞으로 정준상관 분류기법이 하이퍼스펙트럴 데이터의 분류에 대해 그 효용 성이 인정되면 , 위성영상을 보다 효율적으로 분류하기 위해 서는 선행되어야 할 작업과정이다 . 그러므로 정준상관분류에 서의 유효밴드 선정작업은 추후 연구되어야 할 것이다 .

따라서 본 연구에서는 Landsat 데이터에서의 정준상관분류 특성과 비교평가 , 그리고 정준상관분류와 최대우도분류와의

비교평가를 위해 , 본 연구목적으로 취득한 Hyperion 영상 ( 총

187 개 분광밴드 ) 중 , Landsat 데이터의 파장대 범위에서 열적

외 밴드범위를 제외한 6 개 파장대 범위에서 5 개 밴드씩 선택 하여 총 30 개 밴드를 사용밴드로 선정하였다 . 앞에서 언급한

것처럼 Hyperion 영상의 분류에 있어 유효밴드의 선정은 “ 하

이퍼스펙트럴 영상에 대한 정준상관분류기법의 정확도 향상 ”

등 별도의 연구목적으로 독립적인 연구로서 추후 작업으로 남 겨두기로 하며 , 결과적으로 본 연구를 수행하기 위해 단순히

선택한 Hyperion 영상데이터의 30 개 분광밴드의 파장대 범위

는 다음 표 1 과 같다 . 체계적인 유효밴드선정 작업을 동시에

수행하지 않고 , Landsat 데이터 범위에서 30 개 밴드를 임의

로 선택한 것은 본 연구를 수행하고 소기의 연구목적을 달성 하는 데는 아무런 문제가 없다고 판단되었기 때문이다 .

3.4 정준상관분류 알고리즘

정준상관분석 (CCA:Canonical Correlation Analysis) 은 서

ρˆ_i^*2

ρˆ

i*2

ρˆ

i*2

n 1 – 1

2 --- p q 1 ( + + )

⎝ – ⎠

⎛ ⎞

– ln ( 1 ρˆ –

i*2

)

i 1=

∏

p

표 1. 하이퍼스펙트럴 데이터 중 사용 파장대

Subset

band number Band

number Wavelength

(nm) Bandwidth

(nm) Sensor

1 12 468.230011 11.35 VNIR

2 13 478.399994 11.35 VNIR

3 14 488.570007 11.34 VNIR

4 15 498.739990 11.32 VNIR

5 16 508.910004 11.28 VNIR

6 19 539.419983 11.08 VNIR

7 20 549.590027 10.99 VNIR

8 21 559.750000 10.90 VNIR

9 22 569.919983 10.81 VNIR

10 23 580.090027 10.71 VNIR

11 29 641.109985 10.29 VNIR

12 30 651.280029 10.27 VNIR

13 31 661.450012 10.26 VNIR

14 32 671.619995 10.27 VNIR

15 33 681.789978 10.31 VNIR

16 46 813.989990 11.18 VNIR

17 47 824.159973 11.24 VNIR

18 48 834.330017 11.26 VNIR

19 49 844.500000 11.26 VNIR

20 50 854.659973 11.27 VNIR

21 148 1628.869995 11.72 SWIR

22 149 1638.859985 11.75 SWIR

23 150 1648.959961 11.77 SWIR

24 151 1659.060059 11.78 SWIR

25 152 1669.160034 11.80 SWIR

26 204 2193.770020 10.60 SWIR

27 205 2203.870117 10.57 SWIR

28 206 2213.959961 10.55 SWIR

29 207 2224.060059 10.52 SWIR

30 208 2234.159912 10.50 SWIR

VNIR: Visible & Near-Infrared, SWIR: Short Wave Infrared

(6)

로 상관관계 또는 인과관계를 갖는 두 변수군 중에서 변수 의 개수가 적은 변수군을 예측변수군으로 하고 이에 대응하 는 변수군을 기준변수군으로 하여 서로 매우 높게 상관되어 있는 변수들을 밝혀내는 통계적 기법이다 . 이러한 정준상관 분석은 각 변수군 내의 변수들의 설명되는 변량을 극대화하 면서 , 하나의 변수군으로부터 다른 변수군의 예측치를 극대 화하는 구조를 밝힘으로써 두 변수군 내의 각 변수들의 상 관관계를 제공한다 . 따라서 정준상관분석에 의해 나타나는 각 변수들의 상관관계를 분류를 위한 판별함수로 사용할 수 있으며 , 본 연구는 이 기법을 하이퍼스펙트럴 영상의 토지피 복분류에 적용할 수 있도록 알고리즘화 한 것이다 . 원래 정 준상관분석에서는 기준변수가 예측변수보다 개수가 많다는 것을 기본논리로 하고 있으나 , 본 연구에서는 영상분류기법 의 특성상 화소단위로 분류하는 방법을 사용하게 되므로 기 준변수군의 변수는 단일 화소로서 1 개가 된다 . 이 형태를 도식으로 표현하면 다음 그림 2 와 같다 .

이상과 같은 정준상관분석을 이용한 하이퍼스펙트럴 영상 분류 알고리즘의 개념을 정리하면 다음과 같다 . 예측변수군 의 q 개의 변수는 분류대상 하이퍼스펙트럴 영상에서 식별이 분명하고 , 동일지역의 1/36,000 지형도에서 분류항목이 명확

한 대상들에 대한 트레이닝 영역이며 , 자료행렬 (data matrix)

의 각 요소값 (xnq) 은 각 밴드별로 트레이닝 영역별 원래 화

소값들에 대한 평균값을 Z-score 를 사용하여 변환한 값이다 .

기준변수로는 분류하고자 하는 수치영상의 화소 1 개만을

사용한다 . ^크기가 (row, column) = (m, n) ^인 ^직사각형 ^영역

위성영상의 경우 좌측상단에서 부터 우측하단 방향으로 순 서대로 화소별 분류를 실시한다 . 따라서 정준상관분류의 전 체 수행과정이 총 화소 개수만큼 반복 실시된다 .

이상과 같은 방법은 기준변수와 예측변수간에 정준상관관 계에 의해 산출되는 정준벡터를 이용하여 직접 분류를 수행 하는 기법이다 . 정준상관분류의 알고리즘을 도식으로 표현한 것이 그림 1 연구수행과정 흐름도의 좌측부의 내용이다 . 단 계별로 구체적인 설명을 덧붙이면 다음과 같다 .

3.4.1 자료 취득

분류할 원 영상을 밴드별로 독립되고 128bytes 의 헤더를

가진 Erdas 7.5 버전 프로그램 파일포맷으로 널리 알려진

*.lan 파일로 구성한다 . 본 연구의 하이퍼스펙트럴 데이터의

경우 밴드수를 30 개로 하였으므로 30 개의 파일로 구성된다 .

또한 분류할 항목을 대표하는 각 항목별 분류기준용 데이터 를 취득하기 위해 트레이닝 데이터로 사용할 영역의 밴드별 평균값을 계산하여 m 밴드에 n 항목의 텍스트파일을 작성한 다 . 본 연구의 경우 분류항목의 수를 4 개로 선정하였다 . 하 이퍼스펙트럴 데이터에 대한 정준상관분류의 유용성이 본 연 구의 주 목적이므로 , 시각적으로 구분이 쉽게 되는 토지피복 항목만을 위주로 소수의 개수만 선택하여 실험함으로써 작 업의 단순화를 꾀하였다 . 본 연구에서 토지피복분류항목의 개수는 그리 중요하지 않으며 , 선택된 분류항목이 얼마나 정 확히 분류되느냐에 주안점을 두고 있다 . Landsat 데이터의

경우 각 화소의 수치는 8bit 이나 , 본 연구에서 취득한 하이

퍼스펙트럴 데이터는 16bit 데이터이므로 255 이상의 천단위 또는 만단위의 수치를 가지고 있다 .

3.4.2 기본 자료행렬의 구성

3.4.1 에서 취득된 직사각형 위성영상데이터로부터 , 좌측상

단에서 시작하여 순차적으로 , 분류할 1 화소를 추출하여 n × 1

행렬로 만들고 이를 기준변수군으로 둔다 . ^또한 ^트레이닝 ^영

역 통계파일로 부터 n × q 행렬을 구성하여 예측변수군으로 한다 . 그 다음 기준변수군 행렬과 예측변수군 행렬을 병합하 여 n × (1+q) 기본자료행렬을 구성한다 .

3.4.3 기본 자료행렬의 표준화

이후 수행되는 모든 계산과정을 신속하고 간편하게 처리하 며 , 산출된 결과를 쉽게 분석하기 위하여 자료행렬의 변수들 을 표준화 시킨다 .

3.4.4 상관계수행렬 계산

3.4.3 의 과정에서 생성된 표준화된 자료행렬로 부터

(1+q) ^× (1+q) ^의 ^{상관계수행렬을} ^산출한다 . ^이 ^{상관계수행렬이}

정준상관분석에 있어 고유치와 고유벡터를 생성하기 위한 기 본행렬이 된다 .

3.4.5 ^{상관계수행렬의} ^분할

3.4.4 에서 산출된 상관계수행렬은 (1+q) × (1+q) 행렬이므로 이

를 1 × 1, 1 × q, q × 1, q × q 의 독립행렬로 분할한다 . 이렇게 분할된 각 행렬로부터 정준상관분석이론에서 요구되는 역행렬 , 제곱근 행렬 , 그리고 제곱근 행렬의 역행렬을 개별적으로 계산한다 .

3.4.6 정준방정식의 해 산출

계산된 분할행렬을 이론식에서 제시된 형태로 재구성하여

3.4.4 ^에서 ^언급한 ^기본행렬 (M) ^을 ^만든다 . ^이 ^행렬에 ^대해 ^정

준방정식을 구성하여 고유벡터와 고유값을 산출한다 . 산출된 고유벡터로부터 두 변수군의 정준벡터 ( 정준가중치 ) 인 열벡터

, 를 계산한다 . 고유치의 개수는 기준변수군의 개수 만큼 생성되므로 본 연구에서는 1 개만 존재한다 . 열벡터 b의 원소의 개수는 분류항목의 수를 나타내는 것으로서 원소의 값은 정준상관관계에 대한 각 분류항목의 비중을 나타낸다 .

원소의 절대값 중 가장 큰 값이 해당되는 분류항목을 분류 대상 화소의 토지피복으로 결정하는 것이 정준상관분석에 의 한 영상분류과정의 핵심이다 .

1 1a×

( ) b

1 1×

( )

그림 2. 정준상관분류 모형

(7)

4. 적용결과 및 분석 4.1 연구대상지역

본 연구의 연구대상지역은 위스콘신 매디슨 대학교 , Mendota 호수 , Wingra 호수 , Odana Hills 골프장을 포함한

4~5 개의 골프코스 , 위스콘신 대학교 수목원외에 다수의 공원 을 포함하고 있는 , 대표적으로 4 가지 토지피복의 구분이 명 확한 지역으로 선택하였다 . 대상지역의 지형도는 사진 4 와 같으며 , 연구영역의 크기는 약 8km( 세로 ) × 6km( 가로 ) 의 직 사각형 영역으로서 , 아래 사진에서 박스구역으로 표시되고 있다 . 사진 4 는 2001 년 제작된 축척 1/36,000 의 지형도를 스캐닝하여 보여준 것이다 .

4.2 분류항목 선정

감독분류를 수행하기 위해서는 분류하고자 하는 항목이 정 해져야 하며 그 분류체계는 논리적인 기준에 따라 만들어져 야 한다 . 분류체계는 여러 가지가 있으나 , 본 연구에서는 일 반적으로 원격탐사영상을 분류하는데 있어 가장 많이 따르 는 분류코드체계이며 , ^{하이퍼스펙트럴} ^데이터의 ^{공간해상도}

에 가장 적합한 U.S. Geological Survey 토지이용 및 토지

피복 분류체계를 근간으로 하여 , 골프장잔디 (golf lawn), 도 시역 (urban), 수림역 (vegetation), 수역 (water) 으로 결정하였다 .

이는 본 연구대상지역의 토지피복에 대해 4 가지 종류의 대 표성을 가지고 구분된 것이며 , 애매하고 복합적인 성분을 가 진 토지피복은 도시역으로 구분되는 것을 원칙으로 하였다 .

위의 기준에 의해 결정된 분류항목은 표 2 와 같다 .

4.3 트레이닝 데이터 선정

분류항목당 직사각형 영역으로 트레이닝 영역을 선택하는 것이 가장 쉬운 방법일 수 있다 . 그러나 가능한 한 타 분류 항목의 데이터가 혼합되지 않도록 하기 위하여 , ^지형도와 ^비

교하여 분류항목의 토지피복이 확실한 지역에서 디지타이징 방법으로 불규칙 다각형 형태의 트레이닝 영역을 선택해 낸 다 . 최종 선정된 트레이닝 영역의 위치 및 범위는 사진 5 와

같다 . ^사진에서 ^화살표로 ^표시된 ^사각형 ^형태의 ^영역이 ^각

분류항목에 대한 트레이닝 데이터이다 . 대표지역으로서 , 골 프장잔디는 Odana Hills Golf Course, 도시역은 Hilldale Mall, 수림·식물역은 University of Wisconsin Arboretum,

수역은 University Bay 에서 약 30~40 개의 화소를 각각 선

택하였다 . 다만 골프장잔디는 혹시라도 식물수림역과 혼합되 지 않도록 하기 위해 골프코스 형태를 따라 몇 개 화소만을 선택하였다 .

정준상관분석의 예측변수군으로 사용될 Subset 밴드별 트 레이닝 데이터의 평균값만을 정리하면 표 3 과 같다 .

4.4 하이퍼스펙트럴 영상 분류의 결과

위와 같이 선정된 트레이닝 데이터를 사용하여 최대우도분 류 및 정준상관분류를 수행한 결과는 표 4, 5 와 같다 . 표

4, 5 에서의 GIS value 는 각 분류항목에 대한 화면상의 색

지정을 위해 임의로 정한 수치이다 . 이 결과를 화면에 도시

하면 사진 6, 7 과 같다 . 사진에서 골프장잔디 (golf lawn) 는

녹색 (green), 도시역 (urban) 은 보라색 (magenta), 식물·수림역

(vegetation) 은 진녹색 (pine green), 수역 (water) 은 파란색

(blue) ^으로 ^{표현하였다} .

4.5 분류정확도 평가 및 분석

위의 두 가지 분류기법이 실제 토지피복상황을 얼마나 정

사진 4. 연구대상지역의 지형도

표 2. 분류항목과 대표적인 토지피복지역 분류 항목 토지피복항목 대표지역

golf lawn Black Hawk Country, Glenway Golf Course, Odana Hills Golf Course, Nakoma Golf Club,

Nine Springs Golf Course

urban University of Wisconsin-Madison, University Avenue, 12 번 18 번 고속도로 , Monroe Street,

Fish Hatchery, Odana Road

vegetation University of Wisconsin Arboretum, Henry Vilas Park, Hoyt Park, 단독주택 정원 및 조경식수

water Lake Mendota, Lake Wingra

사진 5. 트레이닝 영역의 위치 및 범위

(8)

확하게 분류하는지를 평가하기 위해서는 비교대상인 지상실

제데이터 (Ground Truth Data) 가 필요하다 . 본 연구에서는

지상실제데이터로서 화소별 샘플을 채취하지 않고 , 지상실제 데이터 대신 대상지 전체를 시각적으로 비교해볼 수 있는

비교기본도를 채택하였다 . 이 비교기본도와 시각적으로 윤곽 을 비교하고 , 중첩분석 하여 정확도를 평가하고자 한다 . 본 연구에서 채택한 분류항목이 분류가 잘 되었는지를 파악하 는데 있어 , 지상실제데이터와 화소별 위치비교를 하지 않고 ,

분류결과에 대한 시각적 검토 및 중첩분석만으로도 두 가지 분류기법에 대한 분류정확도의 우열은 충분히 평가할 수 있 다고 판단된다 . 즉 시각적 비교 및 중첩분석은 정량적 결과 는 산출할 수 없으나 정성적인 정확도 평가는 충분히 가능 하다 . 이와 같은 시각적 비교 및 중첩분석을 위해 , 4 가지 분류항목이 잘 나타나 있으며 중첩분석 작업이 용이하도록

잘 가공된 , 2005 년도에 야후에서 제작한 1/40,000 디지털지

형도를 사용하기로 한다 . 비교 기본도로 사용할 디지털지형 도는 사진 8 과 같다

시각적 비교는 사진 6, 7, 8 을 함께 놓고 분류항목별로

경계선 및 영역의 형태를 비교함으로써 가능하며 , 중첩분석 은 사진 8 의 비교기본도위에 최대우도분류 결과영상과 정준 상관분류 결과영상을 각각 중첩하여 나타냄으로써 가능하다 .

비교기본도를 기준으로 각 분류결과영상을 살펴보면 시각 적으로도 정준상관분류결과는 실제 토지피복상황을 어느 정 도 표현하고 있으나 , 최대우도분류결과는 전혀 그렇지 못함 을 한눈에 알 수 있다 .

표 4 에서 보면 골프장잔디로 분류된 화소가 전혀 없고 ,

수역을 제외하고는 대부분의 지역이 도시역으로 분류된 것 을 알 수 있다 . 도시역의 경우 영상수치의 분산이 크고 , 최 대우도분류기법의 알고리즘이 평균과 표준편차를 사용한 분 류기법이므로 , 하이퍼스펙트럴 데이터처럼 다차원 ( 여기서는

30 ^차원 ) ^데이터를 ^{사용할수록} ^분산이 ^타 ^{분류항목에} ^영향을

끼칠 확률이 높다 . 따라서 분산이 작은 타 분류항목도 도시 역으로 분류될 가능성이 높다 . 그러나 수역의 경우 , 어느 정 도 분류가 잘 된 것은 수역의 수치분포가 분광거리 면에서 도시역에 비해 많은 차이가 나므로 도시역 데이터의 분산이 거의 영향을 못 미친 것으로 판단된다 . 표 5 에서는 골프장

잔디가 분류되어 있음을 알 수 있고 vegetation 영역이 도

시역보다 3 배 이상 크다는 것을 알 수 있다 . 수역으로 분류 표 3. 밴드별 트레이닝 데이터의 평균값

subset band golf lawn ^{분류항목별} ^트레이닝 ^데이터 ^평균값 (11 pixels) urban

(39 pixels) vegetation

(36 pixels) water (39 pixels) 1 4263.091 6796.333 3868.194 4056.359 2 4335.091 7097.051 3913.167 4098.000 3 3872.182 6625.436 3483.083 3703.256 4 3735.818 6647.667 3303.556 3565.051 5 3724.727 6685.205 3199.472 3466.974 6 4187.727 6635.846 3072.444 3355.154 7 4253.091 6671.179 3010.278 3328.436 8 4149.455 6632.179 2879.528 3235.359 9 3755.364 6446.026 2609.778 3009.231 10 3374.909 6361.641 2357.056 2747.538 11 2391.545 5993.744 1582.972 1600.487 12 2208.273 5921.077 1497.944 1571.538 13 2004.182 5674.564 1350.056 1409.051 14 1918.364 5872.051 1312.250 1346.872 15 1860.182 5783.692 1244.861 1229.615 16 8943.182 4308.282 6861.167 558.333 17 8645.273 4120.410 6440.139 483.538 18 9411.000 4453.718 6989.444 490.385 19 10078.182 4756.231 7556.611 502.769 20 10079.273 4705.205 7548.694 480.256 21 1157.273 1113.692 706.000 23.359 22 1102.636 1044.256 689.528 26.410 23 1101.636 1020.718 685.083 27.051 24 1105.545 1008.487 646.306 23.385 25 1072.545 977.615 625.083 23.308

26 173.364 306.410 81.333 4.410

27 166.818 292.923 77.889 5.410

28 175.364 304.641 84.472 5.821

29 159.727 299.051 78.861 4.051

30 150.909 284.282 73.944 4.538

표 4. 최대우도분류의 결과

분류항목 내용 golf lawn urban vegetation water

화소수 0 44602 1926 7003

GIS value 1 2 3 4

백분율 (%) 0 83.32 3.60 13.08

표 5. 정준상관분류의 결과

분류항목 내용 golf lawn urban vegetation water

화소수 6031 9303 30494 7703

GIS value 1 2 3 4

백분율 (%) 11.27 17.38 56.96 14.39

사진 6. 최대우도분류 결과 영상

(9)

된 화소수는 최대우도분류결과와 비교하여 약 10% 밖에 차 이가 없으며 , 이는 언뜻 양쪽 분류기법이 수역을 분류하는 능력은 비슷한 것으로 생각되어 질 수 있으나 결과영상에서 세부적으로 비교해보면 그렇지 않음을 알 수 있다 .

즉 , 사진 6, 7, 8 을 서로 비교해보면 최대우도분류의 경우

수역 분류를 제외하고는 전혀 분류기법으로서의 역할을 하 지 못하는 것으로 판단되며 , 수역의 경우도 큰 호수 외에 작은 호수나 골프장내 연못 , 부분적으로 물이 존재하는 작은 영역 등은 전혀 분류하지 못하고 있는 것으로 나타났다 . 그 러나 정준상관분류결과는 비교기본도와 형태적으로 시각적 비교를 해볼 때 골프장잔디를 거의 명확히 분류해 내고 있 으며 , 도시역에 대해서도 위스콘신대학교 및 주변과 고속도 로의 선형 등을 상당히 잘 분류해내고 있음을 알 수 있다 .

또한 수역의 경우도 골프장 연못이나 대학교내 연못 , 기타지 역의 연못 , 웅덩이 등 까지도 잘 분류해내고 있음을 확인할

수 있다 . 다만 , 약점이 있다면 , Wingra 호수의 경우 호수경

계선 지역은 어느 정도 분류가 되었으나 , 호수 가운데 지역

이 vegetation 영역으로 분류되는 에러가 나타난 것이다 . 호

수 가운데 지역의 물을 시료 채취하여 화학적 성분검사를 해보지는 않았지만 , 아마도 호수 수면층에 부유하는 식물성 플랑크톤 , 클로로필 성분 등에 의한 분광반사특성으로 인해

vegetation 영역과 비슷하게 나타난 것으로 추정된다 .

연구대상지역인 Madison 지역은 거주지역이 주로 단독주 택식이고 , 주택주변은 거의 대부분 수림으로 둘러싸여 있기 때문에 확실한 골프장 , 도시역 , 수역을 제외하고는

vegetation 영역으로 분류될 것이 예상된다 . 즉 비교기본도와

비교해 보면 고속도로 등 주요 간선도로를 제외한 , 가는 선 으로 표시된 이면도로 등의 작은 도로가 포함된 지역들은

대부분이 vegetation 으로 분류되었음을 확인할 수 있다 .

최대우도분류결과영상과 비교기본도의 중첩에서는 Mendota

호수를 제외하고는 전혀 분류가 안 되었음을 알 수 있으며 ,

정준상관분류결과영상과 비교기본도의 중첩에서는 도로선 형 , 골프장 윤곽 , 수역경계 등이 잘 들어맞는 것을 알 수 있다 . ^{결과적으로} ^{분광해상도가} ^높은 ^{하이퍼스펙트럴영상을}

분류함에 있어 기존의 분류기법 ( 최대우도분류기법 ) 에 비해 정 준상관분류기법이 매우 유용함을 이번 연구를 통하여 명백 히 확인할 수 있었다 .

5. 결론 및 기대효과

일반적으로 통계해석을 하는 경우에 데이터의 변화는 여러 종류의 원인이 혼합되어 다각적으로 영향을 미친다 . ^하나의

현상을 여러 종류의 원인으로 나누어 모집단의 특성을 규명 하기 위한 분석에는 다변량통계분석 (multivariate statistical

analysis) 방법이 많이 활용된다 . 현재 수치영상의 분류에 이

용되는 대부분의 분류기법들은 이와 같은 다변량통계분석의 범주에 든다 . 본 연구에서는 하이퍼스펙트럴 영상을 분류함 에 있어 정준상관분류기법을 응용하는 방법을 제시하였고 ,

이를 기존의 대표적인 분류기법인 최대우도분류 (MLC) 기법 과 비교·검토 하였다 .

본 연구에서 수행한 정준상관분류기법은 분류항목들에 대 한 변수군과 분류하고자 하는 개개의 관측치들에 대한 변수 군간의 상관관계를 최대로 하는 새로운 직교축을 설정하는 선형변환이며 , 사용 데이터의 정규성이 일반적으로 요구된다

. 또한 분류항목 변수군의 값들은 표본추출로 얻어진다 . 따라 서 이 분류기법도 판별분류나 최대우도분류와 마찬가지의 제 약조건 , 즉 사용 데이터의 정규성과 판별함수 결정에 사용되 는 표본선정에 대한 고려가 필요하다 . 그러나 정준상관분류 에서의 판별함수는 정규확률밀도함수가 아닌 상관관계를 최 대로 하는 선형변환식이며 , 또한 표본과의 관련성을 가지지 만 이들로부터 판별함수가 직접 유도되지는 않는다 . 따라서 트레이닝 영역 선정에 어느 정도 유연성을 가지며 , 그 결과 일반적인 분류기법들이 트레이닝 영역 선정에 의해 겪게 되 는 상당한 시행착오를 정준상관분류에서는 피할 수 있다 . 또 한 분류하려는 그룹의 수가 많을 경우 , 판별분류에서는 직교 성을 얻기 위해 별도의 처리과정을 거쳐야 하지만 이 분류 방법에서는 이러한 번잡함이 전혀 없고 , 정규확률밀도함수를 사진 7. 정준상관분류 결과 영상

사진 8. 비교기본도(1:40,000 디지털지형도)

(10)

판별함수로 직접 사용하지 않기 때문에 최대우도분류에서와 같은 추가의 작업이 요구되지도 않는다 .

본 연구로부터 얻어진 최우선의 성과는 하이퍼스펙트럴영 상 분류에 적용된 정준상관분류기법의 유용성의 확인이다 .

즉 지금까지의 연구결과로 볼 때 어느 정도의 실용성을 보 여줄 수 있다고 판단되며 , 그러한 성과의 활용은 하이퍼스펙 트럴 데이터에 적용하는 정준상관분류기법이 가장 유용한 결 과를 보여줄 수 있는 적절한 응용분야를 찾는데 있다 . 예를 들어 하이퍼스펙트럴 데이터를 이용하여 복잡한 도시의 토 지피복분포를 파악하는데 효과적인 분류기법이 될 수 있는 지 또는 식생분포와 산림의 수종분포 파악에 효과적인 분류 기법이 될 수 있는지와 같은 구체적 응용사례를 통하여 활 용방안이 마련될 수 있을 것이다 .

본 연구의 수행결과에 대한 의미와 함께 기존의 분류기법 과 다른 특징 , 장점 및 기대효과를 정리하면 다음과 같다 . 1. 정준상관분석 알고리즘의 개념상 트레이닝 영역 선정시 시

행착오를 겪지 않고도 정확한 분류를 할 수 있었다 . 즉 지형도를 하이퍼스펙트럴영상과 함께 비교·검토하여 분 류항목이 명확한 지역에서 한 번만 선택하면 되므로 트레 이닝 영역의 선정이 용이해 졌다 .

2. 분류항목 중에서 잔디와 그 외 식물을 구분해 내는 능력

과 수역을 추출해 내는 능력이 최대우도분류기법에 비해 우수하였다 . 특히 도시역내 작은 영역의 잔디나 수역을 세 밀하게 분류해 낼 수 있었다 . 이상의 결과로 추정해 볼 때 정준상관분류기법은 농작물 작황 예측과 지표수 탐사 에 매우 유용하리라 판단된다 .

3. ^이상과 ^같은 ^결과로 ^판단해 ^볼 ^때 ^본 ^연구에서 ^시도된

정준상관분류기법은 하이퍼스펙트럴 영상을 분류하는데 있 어 매우 유용하며 , 나아가서는 분광적 고해상도 영상인 하 이퍼스펙트럴 데이터를 이용한 GIS 데이터베이스 구축에 중요한 역할을 할 수 있을 것이라는 점이 또한 의미가 있다 .

전체적으로 판단해 볼 때 본 연구에서 제안하는 하이퍼스 펙트럴 영상에 대한 정준상관분류기법의 적용이 원격탐사영 상분류 분야에서 기존의 분류기법에 비해 매우 유용한 응용 임을 다시 한 번 강조한다 .

감사의 글

이 논문은 2004 년도 한국학술진흥재단의 지원에 의하여

연구되었음 (KRF-2004-002-D00410) 참고문헌

가칠오 , 김대성 , 변영기 , 김용일 (2004) 하이퍼스펙트럴 영상의 분 류기법 비교 . 한국측량학회 2004 추계학술발표회, pp. 251- 256.

김대성 , ^김진곤 , ^변영기 , ^김용일 (2004) ^무감독 SAM ^기법을 ^이용

한 하이퍼스펙트럴 영상 분류 . 한국측량학회 2004 춘계학술 발표회 , pp. 159-164.

김대성 , 조영욱 , 한동엽 , 김용일 (2003) Linear Spectral Unmix- ing ^기법을 ^이용한 ^{하이퍼스펙트럴} ^영상의 Sub-Pixel Detection 에 관한 연구 . 한국측량학회 2003 춘계학술발표회 , pp. 161-166.

金勇日 (1991) 人工衛星遠隔探査 데이타의 分析正確度向上에 關한 硏究-地形的分光反射特性補正과 統計的分類技法을 中心으로 . ^{공학박사학위} , ^{서울대학교} ^대학원

김용일 , 서병준 , 오재홍 (1999) 위성영상의 해상력에 따른 지리정 보의 판독 및 검출 가능성에 관한 연구 - 고해상도 위성영상의 활용 가능성을 중심으로 . 한국지리정보학회 춘계학술논문 발표 대회 , pp. 28-37.

金宇哲외 7 人 (1985) ^{現代統計學} . 英志文化社 .

김현숙 (1999) 고해상도 위성. G&G Millennium2(2), pp. 8-10.

서병준 , 강명호 , 이용웅 , 김용일 (2003) Hyperion 센서 데이터를 이용한 지형지물 추출 . 대한원격탐사학회 2003 공동 춘계학 술대회 , pp. 182-186.

여화수 , 박경환 , 박병욱 (1997) 원격탐사의 동향과 고해상도 위성 영상의 활용 . 한국GIS학회지 , 한국 GIS 학회 , 제 5 권 제 1 호 , pp. 89-97.

李喜演 (1991) ^{地理統計學} . 法文社 .

장훈 , 윤완석 , 신동준 (2004) 혼합화소와 정준상관분석을 이용한 감독분류의 최적밴드선정에 관한 연구 . 대한토목학회논문집 ,

대한토목학회 , ^제 24 ^권 ^제 6D ^호 , pp. 963-970.

한동엽 , 조영욱 , 김용일 , 이용웅 (2003) Hyperion 영상의 분류를 위한 밴드 추출 . ^{대한원격탐사학회지} , 대한원격탐사학회 , Vol.

19, No. 2, pp. 171-179.

Bartlett, M. S. (1941) The statistical significance of canonical cor- relations. Biometrica , Vol. 32.

Boardman, J. W. (1993) Automated spectral unmixing of AVIRIS data using convex geometry concepts: In Summaries, Fouth JPL Airborne Geoscience Workshop , JPL Publication 93-26, Vol. 1, pp. 11-14.

Clark, D. (1975) Understanding canonical correlation analysis. Nor- wich: Geo Abstracts Ltd..

Farrand, W. and Blundell, S. (2004) Hyperspectral image process- ing and feature extraction: Maximizing geospatial information retrieval, 2004 ASPRS Conference Proceedings .

Hsu, P.-H. and Tseng, Y.-H. (1999) Feature extraction for hyper spectral image, ACRS 1999 Proceedings .

Johnson, R. A. and W. D. W. (2002) Applied multivariate statisti- cal analysis. Fifth Edition, Prentice Hall.

Kim, D.-S., Kim, Y.-I., and Yu, K. Y. (2005) A study on the unsu- pervised classification of hyperion and ETM+ data using spec- tral angle and unit vector. Korean Journal of Geomatics , Vol. 5, No. 1, pp. 27-34.

Kim, D.-S., Kim, Y.-I., and Lim, Y.-J. (2004) Sub-pixel analysis of hyperspectral image using linear spectral mixing model and convex geometry concept. Korean Journal of Geomatics , Vol.

4, No. 1, pp. 1-8.

Swain, P.H. and Shirley, M.D. (1978) Remote Sensing: the Quanti- tative Approach , McGRAWW-HILL.

Wilson, F. D. (1975) Canonical Correlation and the relation between Sets of Variables . Madison: University of Wisconsin .

( ^접수일 : 2006.6.19/ ^심사일 : 2006.8.13/ ^{심사완료일} : 2006.9.1)

Usefulness of Canonical Correlation Classification Technique in Hyper-spectral Image Classification

測量 및 地形空間情報工學

하이퍼스펙트럴영상 분류에서 정준상관분류기법의 유용성

Usefulness of Canonical Correlation Classification Technique in Hyper-spectral Image Classification

박민호*

Park, Min-Ho

···

Abstract

Keywords : hyperspectral image, canonical correlation analysis, hyperion, maximum likelihood classification, canonical cor- relation classification technique

···

요 지

핵심용어 : 하이퍼스펙트럴 영상, 정준상관분석, 하이퍼리온, 최대우도분류, 정준상관분류기법

···

(E-mail : [email protected])

1. 서 론

하이퍼스펙트럴 영상을 사용하는 것은 토지이용 / 피복형태를 분류하는 능력을 향상시켜야 한다 . 그러나 하이퍼스펙트럴 영상의 분류에 전통적 분류기법이 적용될 때 , 사람들은 보통

저효율성 , 대량의 트레이닝 데이터가 필요한 점 , 분류정확도 가 별로 향상되지 않는 점 등에서 실망한다 . 특히 하이퍼스

펙트럴 영상은 밴드수가 대략 50 개 이상이며 , 200 개 이상

되는 경우가 많으므로 , 토지피복분류작업을 수행하기 위해 개별항목당 10N~100N(N 은 밴드수 ) 의 트레이닝 데이터 개수 가 필요하다는 기준에 따르면 (Swain and Davis, 1978),

200 개 밴드수를 예로 들 경우 , 최소 2,000 개 이상인 매우

많은 개수의 트레이닝 데이터가 필요하게 된다 . 그러나 실제

로 2,000 개 화소 이하의 특정항목을 분류해야 하는 경우 ,

2,000 개 이상의 트레이닝 데이터를 확보할 수 없을뿐더러 ,

골고루 분포되어 있는 토지피복 항목인 경우는 2,000 개 이

상의 트레이닝데이터를 취득해 내기가 매우 어렵다 . 이러한

본 연구와 관련하여 하이퍼스펙트럴 영상을 이용한 최근까 지의 연구동향을 살펴보면 , 외국의 경우 , 하이퍼스펙트럴 데

이터가 소개되고 연구되기 시작한 것은 1990 년대 중반이며 ,

연구가 본격화 된 것은 2000 년 이후로 볼 수 있다 . 몇 가

지 예를 들면 , 초기연구로서 Convex Geometry 개념을 활

용한 AVIRIS 데이터의 자동화 Spectral Unmixing 에 관한

연구 (Boardman, 1993) 가 있었고 , 하이퍼스펙트럴 영상에 대

한 유효밴드선정 및 추출에 관한 연구 (Hsu and Tseng,

1999), 하이퍼스펙트럴 영상처리 및 유효밴드 추출 자동화

기술에 관한 연구 (Farrand and Blundell, 2004) 등이 수행

되었으며 , 주로 유효밴드선정 및 추출과 영상분류에 관한 연

구가 주류를 이루었다 .

국내의 경우에 있어서는 Hyperion 센서 데이터를 이용한

지형지물 추출에 대한 연구 ( 서병준 등 , 2003) 가 있었고 ,

Hyperion 영상의 분류를 위한 밴드추출에 관한 연구 ( 한동엽

등 , 2003), 무감독 SAM 기법을 이용한 하이퍼스펙트럴 영

상분류에 관한 연구 ( 김용일 등 , 2004), 하이퍼스펙트럴 영상

의 분류기법 비교에 관한 연구 ( 김용일 등 , 2004) 등에서 주

로 하이퍼스펙트럴 영상을 보다 효율적으로 분류하는 방법 에 대한 연구가 수행되었다 . 이외에도 LSM Model 을 사용 한 하이퍼스펙트럴영상의 Sub-Pixel 해석에 관한 연구 ( 김용 일 등 , 2004), Spectral Angle 과 Unit Vector 를 이용한

Hyperion 데이터의 무감독분류에 관한 연구 ( 유기윤 등 ,

2005) 등이 수행된 바 있으며 , 가장 최근에 정준상관분석

이론을 이용한 최적밴드선정에 관한 연구가 수행되었다 ( 장 훈 등 , 2004).

2. 연구내용 및 방법

본 연구에서는 이상의 국내외 연구와 관련된 연구로서 , 하

Hyperion 데이터가 본 연구에서의 새로운 제안을 설명하기 위

해 분석되며 , 정준상관분류기법의 효율성을 보여주기 위해 시험된다 . 즉 , 정준상관분석의 원리를 이용한 이 분류알고리 즘을 프로그램화하여 , 그 원리에 근거한 가능한 한 많은 수

트럴 영상분류에서 어떠한 장점과 효용성이 있는지를 파악 해 내고자 한다 .

실험을 위한 연구대상영역은 , 그 크기는 작게 하되 , 시각 적으로도 분류결과의 정확도를 평가할 수 있는 지역이어야 한다 . 이를 위해 보유하고 있는 하이퍼스펙트럴영상 중

Wisconsin Madison 지역을 포함하고 있는 EO1-Hyperion

영상을 선택하였다 . 원 데이터는 밴드 범위가 No. 12~57,

79~219 인 실질적으로는 187 개의 밴드수를 갖는 하이퍼스펙

트럴 영상이다 . 이 데이터는 No. 1~11, 58~78 의 32 개 밴

드가 노이즈 및 중복 문제로 인해 제거된 상태의 영상이다 .

사용되는 하이퍼스펙트럴 영상은 2001 년 9 월 2 일 취득되었 으며 , 이 영상의 수치는 100 으로 나누어지면 , Spectral

Radiance 로 변환될 수 있다 . 즉 원 영상의 화소값은

2byte 를 사용한다 . 효율적인 실험과 분류기법간 비교평가를

위해 , 실험을 위한 밴드수는 LANDSAT TM 영상에서 열

밴드를 제외한 나머지 데이터의 파장대 범위와 일치하는 부분에서 임의의 30 개 밴드로 선정하였다 . 분류기준용 표본

데이터 즉 트레이닝 데이터의 토지피복 항목수는 golf

lawn, urban, vegetation, water 총 4 개 항목으로 결정하 였다 . 전체적인 연구수행과정을 흐름도로 정리하면 그림 1

과 같다 .

3. 하이퍼스펙트럴 영상의 정준상관분류 3.1 하이퍼스펙트럴 영상의 전처리

2007 년부터 우리나라도 베셀타원체 대신 준거타원체로 사

용하게 될 GRS 1980 타원체를 기준으로 위스콘신 매디슨

지역 Transverse Mercator 투영 직교좌표로 지리참조된

(Georeferenced), 동일한 날자 (2001 년 9 월 2 일 ) 의 Landsat7

ETM+(Enhanced Thematic Mapper Plus) 데이터를 사용하

여 , 기하보정을 실시한다 . 시행착오를 거쳐 총 35 개의 지상

기준점을 사용하여 1 차 다항식변환 (Affine Transformation) 을 적용하였으며 , 0.5pixel 이하의 정확도를 유지하였다 . 재배열

(Resampling) 방법으로는 보편적으로 가장 많이 사용되는 공

일차내삽법 (Bilinear Interpolation) 을 적용하였다 .

이상과 같이 하여 본 연구에서는 일단 187 개 밴드를 갖는

865pixels × 256pixels 영역 전체를 기하보정 하였으며 , 정확

도 평가 등의 후속 작업을 위해 전체영역 중에 ETM+ 데

이터와 영역이 중복되는 영역으로서 269pixels × 199pixels

영역을 절출하였다 . 기하보정된 영상과 절출된 영역은 사진

하이퍼스펙트럴 영상을 사용하는 것은 토지이용 / 피복형태를 분류하는 능력을 향상시켜야 한다 . 그러나 하이퍼스펙트럴 영상의 분류에 전통적 분류기법이 적용될 때 , ^사람들은 ^보통

많은 개수의 트레이닝 데이터가 필요하게 된다 . ^그러나 ^실제

상의 트레이닝데이터를 취득해 내기가 매우 어렵다 . ^이러한

1999), ^{하이퍼스펙트럴} ^영상처리 ^및 ^유효밴드 ^추출 ^자동화

본 연구에서는 이상의 국내외 연구와 관련된 연구로서 , ^하

해 분석되며 , 정준상관분류기법의 효율성을 보여주기 위해 시험된다 . 즉 , 정준상관분석의 원리를 이용한 이 분류알고리 즘을 프로그램화하여 , ^그 ^원리에 ^근거한 ^가능한 ^한 ^많은 ^수

대한 정준상관계수의 분포함수를 이용하는 방법이다 . 검정을 위한 귀무가설 ( ^H

) ^은 ^두 ^변수군이 ^서로 ^상관되어 ^있지 ^않다

여기서 , ^c

( ^α ) ^는 ^자유도 ^pq의 ^{카이제곱분포의} ^상위확률 ^α %