大 韓 土 木 學 會 論 文 集 第26卷 第5D 號·2006年 9月 pp. 885~894
測量 및 地形空間情報工學
하이퍼스펙트럴영상 분류에서 정준상관분류기법의 유용성
Usefulness of Canonical Correlation Classification Technique in Hyper-spectral Image Classification
박민호*
Park, Min-Ho
···
Abstract
The purpose of this study is focused on the development of the effective classification technique using ultra multiband of hyperspectral image. This study suggests the classification technique using canonical correlation analysis, one of multivariate statistical analysis in hyperspectral image classification. High accuracy of classification result is expected for this classification technique as the number of bands increase. This technique is compared with Maximum Likelihood Classification(MLC). The hyperspectral image is the EO1-hyperion image acquired on September 2, 2001, and the number of bands for the experiment were chosen at 30, considering the band scope except the thermal band of Landsat TM. We chose the comparing base map as Ground Truth Data. We evaluate the accuracy by comparing this base map with the classification result image and performing overlay analysis visually. The result showed us that in MLC's case, it can't classify except water, and in case of water, it only classifies big lakes. But Canonical Correlation Classification (CCC) classifies the golf lawn exactly, and it classifies the high- way line in the urban area well. In case of water, the ponds that are in golf ground area, the ponds in university, and pools are also classified well. As a result, although the training areas are selected without any trial and error, it was possible to get the exact classification result. Also, the ability to distinguish golf lawn from other vegetations in classification classes, and the abil- ity to classify water was better than MLC technique. Conclusively, this CCC technique for hyperspectral image will be very useful for estimating harvest and detecting surface water. In advance, it will do an important role in the construction of GIS database using the spectral high resolution image, hyperspectral data.
Keywords : hyperspectral image, canonical correlation analysis, hyperion, maximum likelihood classification, canonical cor- relation classification technique
···
요 지
본 논문의 의도는 하이퍼스펙트럴 영상의 다량의 밴드를 사용하면서도 효율적인 분류기법의 개발에 초점을 두고 있다. 본 연구에서는 하이퍼스펙트럴 영상의 분류에 있어 이론적으로 밴드수가 많아질수록 분류정확도가 높을 것이라 예상되는, 다변 량 통계분석기법중의 하나인 정준상관분석을 적용한 분류기법을 제안한다. 그리고 기존의 대표적인 전통적 분류기법인 최대 우도분류 방법과 비교한다. 사용되는 하이퍼스펙트럴 영상은 2001년 9월 2일 취득된 EO1-Hyperion 영상이다. 실험을 위한 밴드수는 LANDSAT TM 영상에서 열밴드를 제외한 나머지 데이터의 파장대와 일치하는 부분을 감안하여 30개 밴드로 선 정하였다. 지상실제데이터로서 비교기본도를 채택하였다. 이 비교기본도와 시각적으로 윤곽을 비교하고, 중첩분석하여 정확도 를 평가하였다. 최대우도분류의 경우 수역 분류를 제외하고는 전혀 분류기법으로서의 역할을 하지 못하는 것으로 판단되며, 수역의 경우도 큰 호수 외에 작은 호수나 골프장내 연못, 부분적으로 물이 존재하는 작은 영역 등은 전혀 분류하지 못하고 있는 것으로 나타났다. 그러나 정준상관분류결과는 비교기본도와 형태적으로 시각적 비교를 해볼 때 골프장잔디를 거의 명확 히 분류해 내고 있으며, 도시역에 대해서도 고속도로의 선형 등을 상당히 잘 분류해내고 있음을 알 수 있다. 또한 수역의 경우도 골프장 연못이나 대학교내 연못, 기타지역의 연못, 웅덩이 등 까지도 잘 분류해내고 있음을 확인할 수 있다. 결과적 으로 정준상관분석 알고리즘의 개념상 트레이닝 영역 선정시 시행착오를 겪지 않고도 정확한 분류를 할 수 있었다. 또한 분 류항목 중에서 잔디와 그 외 식물을 구분해 내는 능력과 수역을 추출해 내는 능력이 최대우도분류기법에 비해 우수하였다.
이상의 결과로 판단해 볼 때 하이퍼스펙트럴영상에 적용되는 정준상관분류기법은 농작물 작황 예측과 지표수 탐사에 매우 유용하리라 판단되며, 나아가서는 분광적 고해상도 영상인 하이퍼스펙트럴 데이터를 이용한 GIS 데이터베이스 구축에 중요 한 역할을 할 수 있을 것으로 기대된다.
핵심용어 : 하이퍼스펙트럴 영상, 정준상관분석, 하이퍼리온, 최대우도분류, 정준상관분류기법
···
*정회원·목포대학교지적학과부교수
(E-mail : [email protected])
1. 서 론
최근 다양한 활용이 기대되는 하이퍼스펙트럴영상으로 토 지피복분류를 수행함에 있어 , 이론적으로 밴드수가 많을수록 유리한 정준상관분류기법을 적용하여 그 효용성을 알아보고 자 한다 . 정준상관분류기법이 아직은 일반화되어 널리 사용 되는 기법은 아니기 때문에 , 분류결과에 대한 신뢰도가 부족 한 상황이다 . 이러한 문제점을 해결하기 위해 정준상관분류 기법의 효용성에 대한 별도의 연구가 이루어져야 할 필요가 있다 . 아직까지는 별로 사용되지 않고 있는 분류기법인 정준 상관분류기법이 실효성이 있는 것으로 판단되면 , 그 응용분 야가 확대되는 것은 물론 , 특히 다분광밴드 위성영상으로부 터의 토지정보 취득에 매우 유용할 것이며 , 영상분류기법 분 야에 신선한 연구의욕을 불러올 것이다 . 전통적인 다분광 영 상들과 비교할 때 하이퍼스펙트럴 영상은 과거에 얻었던 영 상들보다 풍부하고 세밀한 분광정보를 포함한다 . 이론적으로 ,
하이퍼스펙트럴 영상을 사용하는 것은 토지이용 / 피복형태를 분류하는 능력을 향상시켜야 한다 . 그러나 하이퍼스펙트럴 영상의 분류에 전통적 분류기법이 적용될 때 , 사람들은 보통
저효율성 , 대량의 트레이닝 데이터가 필요한 점 , 분류정확도 가 별로 향상되지 않는 점 등에서 실망한다 . 특히 하이퍼스
펙트럴 영상은 밴드수가 대략 50 개 이상이며 , 200 개 이상
되는 경우가 많으므로 , 토지피복분류작업을 수행하기 위해 개별항목당 10N~100N(N 은 밴드수 ) 의 트레이닝 데이터 개수 가 필요하다는 기준에 따르면 (Swain and Davis, 1978),
200 개 밴드수를 예로 들 경우 , 최소 2,000 개 이상인 매우
많은 개수의 트레이닝 데이터가 필요하게 된다 . 그러나 실제
로 2,000 개 화소 이하의 특정항목을 분류해야 하는 경우 ,
2,000 개 이상의 트레이닝 데이터를 확보할 수 없을뿐더러 ,
골고루 분포되어 있는 토지피복 항목인 경우는 2,000 개 이
상의 트레이닝데이터를 취득해 내기가 매우 어렵다 . 이러한
문제점에 대해 , 본 논문의 의도는 하이퍼스펙트럴 영상분류 에 주로 적용되는 유효밴드선정 (Band Selection) 이나 유효밴 드추출 (Band Extraction) 방법 (Hsu and Tseng, 1999) 을 사 용하지 않고 다수의 밴드를 있는 그대로 사용하면서도 정확 하고 효율적인 토지피복분류를 수행할 수 있는 분류기법의 제안에 초점을 두고 있다 . 즉 , 다수의 밴드수에 대하여 , 최 소한의 필요개수 보다 훨씬 소량인 임의의 트레이닝 데이터 를 시행착오를 거치지 않고 한번만 선택하여 , 곧바로 분류를 수행하여도 분류정확도가 높은 분류기법의 개발 및 제안이 본 연구의 소기의 목적이라 할 수 있다 .
본 연구와 관련하여 하이퍼스펙트럴 영상을 이용한 최근까 지의 연구동향을 살펴보면 , 외국의 경우 , 하이퍼스펙트럴 데
이터가 소개되고 연구되기 시작한 것은 1990 년대 중반이며 ,
연구가 본격화 된 것은 2000 년 이후로 볼 수 있다 . 몇 가
지 예를 들면 , 초기연구로서 Convex Geometry 개념을 활
용한 AVIRIS 데이터의 자동화 Spectral Unmixing 에 관한
연구 (Boardman, 1993) 가 있었고 , 하이퍼스펙트럴 영상에 대
한 유효밴드선정 및 추출에 관한 연구 (Hsu and Tseng,
1999), 하이퍼스펙트럴 영상처리 및 유효밴드 추출 자동화
기술에 관한 연구 (Farrand and Blundell, 2004) 등이 수행
되었으며 , 주로 유효밴드선정 및 추출과 영상분류에 관한 연
구가 주류를 이루었다 .
국내의 경우에 있어서는 Hyperion 센서 데이터를 이용한
지형지물 추출에 대한 연구 ( 서병준 등 , 2003) 가 있었고 ,
Hyperion 영상의 분류를 위한 밴드추출에 관한 연구 ( 한동엽
등 , 2003), 무감독 SAM 기법을 이용한 하이퍼스펙트럴 영
상분류에 관한 연구 ( 김용일 등 , 2004), 하이퍼스펙트럴 영상
의 분류기법 비교에 관한 연구 ( 김용일 등 , 2004) 등에서 주
로 하이퍼스펙트럴 영상을 보다 효율적으로 분류하는 방법 에 대한 연구가 수행되었다 . 이외에도 LSM Model 을 사용 한 하이퍼스펙트럴영상의 Sub-Pixel 해석에 관한 연구 ( 김용 일 등 , 2004), Spectral Angle 과 Unit Vector 를 이용한
Hyperion 데이터의 무감독분류에 관한 연구 ( 유기윤 등 ,
2005) 등이 수행된 바 있으며 , 가장 최근에 정준상관분석
이론을 이용한 최적밴드선정에 관한 연구가 수행되었다 ( 장 훈 등 , 2004).
2. 연구내용 및 방법
본 연구에서는 이상의 국내외 연구와 관련된 연구로서 , 하
이퍼스펙트럴 영상의 분류에 있어 이론적으로 밴드수가 많 을수록 분류정확도가 높을 것이라 예상되는 , 다변량 통계분 석기법중의 하나인 정준상관분석을 적용한 분류기법을 제안 한다 . 구체적으로는 인공위성 하이퍼스펙트럴 영상인
Hyperion 데이터가 본 연구에서의 새로운 제안을 설명하기 위
해 분석되며 , 정준상관분류기법의 효율성을 보여주기 위해 시험된다 . 즉 , 정준상관분석의 원리를 이용한 이 분류알고리 즘을 프로그램화하여 , 그 원리에 근거한 가능한 한 많은 수
의 다중영상밴드를 사용하여 토지정보취득을 위한 영상분류 를 실시한다 . 분류결과에 대한 비교평가를 위해 동일한 트레 이닝 데이터를 사용하여 최대우도분류기법에 의한 분류를 수 행한다 . 이 평가 결과로부터 정준상관분류기법이 하이퍼스펙
트럴 영상분류에서 어떠한 장점과 효용성이 있는지를 파악 해 내고자 한다 .
실험을 위한 연구대상영역은 , 그 크기는 작게 하되 , 시각 적으로도 분류결과의 정확도를 평가할 수 있는 지역이어야 한다 . 이를 위해 보유하고 있는 하이퍼스펙트럴영상 중
Wisconsin Madison 지역을 포함하고 있는 EO1-Hyperion
영상을 선택하였다 . 원 데이터는 밴드 범위가 No. 12~57,
79~219 인 실질적으로는 187 개의 밴드수를 갖는 하이퍼스펙
트럴 영상이다 . 이 데이터는 No. 1~11, 58~78 의 32 개 밴
드가 노이즈 및 중복 문제로 인해 제거된 상태의 영상이다 .
사용되는 하이퍼스펙트럴 영상은 2001 년 9 월 2 일 취득되었 으며 , 이 영상의 수치는 100 으로 나누어지면 , Spectral
Radiance 로 변환될 수 있다 . 즉 원 영상의 화소값은
2byte 를 사용한다 . 효율적인 실험과 분류기법간 비교평가를
위해 , 실험을 위한 밴드수는 LANDSAT TM 영상에서 열
밴드를 제외한 나머지 데이터의 파장대 범위와 일치하는 부분에서 임의의 30 개 밴드로 선정하였다 . 분류기준용 표본
데이터 즉 트레이닝 데이터의 토지피복 항목수는 golf
lawn, urban, vegetation, water 총 4 개 항목으로 결정하 였다 . 전체적인 연구수행과정을 흐름도로 정리하면 그림 1
과 같다 .
3. 하이퍼스펙트럴 영상의 정준상관분류 3.1 하이퍼스펙트럴 영상의 전처리
2007 년부터 우리나라도 베셀타원체 대신 준거타원체로 사
용하게 될 GRS 1980 타원체를 기준으로 위스콘신 매디슨
지역 Transverse Mercator 투영 직교좌표로 지리참조된
(Georeferenced), 동일한 날자 (2001 년 9 월 2 일 ) 의 Landsat7
ETM+(Enhanced Thematic Mapper Plus) 데이터를 사용하
여 , 기하보정을 실시한다 . 시행착오를 거쳐 총 35 개의 지상
기준점을 사용하여 1 차 다항식변환 (Affine Transformation) 을 적용하였으며 , 0.5pixel 이하의 정확도를 유지하였다 . 재배열
(Resampling) 방법으로는 보편적으로 가장 많이 사용되는 공
일차내삽법 (Bilinear Interpolation) 을 적용하였다 .
이상과 같이 하여 본 연구에서는 일단 187 개 밴드를 갖는
865pixels × 256pixels 영역 전체를 기하보정 하였으며 , 정확
도 평가 등의 후속 작업을 위해 전체영역 중에 ETM+ 데
이터와 영역이 중복되는 영역으로서 269pixels × 199pixels
영역을 절출하였다 . 기하보정된 영상과 절출된 영역은 사진
1, 2, 3 과 같다 . 기하보정된 영상은 RGB 칼라필터에 의해
밴드번호 53, 51, 49 밴드가 합성되었으나 파장대 수치가
거의 비슷하므로 Gray Level 로 나타나 보인다 .
3.2 정준상관분류에서 분광밴드 개수의 영향
영상데이터에 대한 정준상관분류가 정상적으로 수행되기 위해서는 , 정준상관분석에서의 두 변수군 즉 , 예측변수군과 기준변수군이 서로 상관되어 있어야 한다 . 이를 확인하기 위 해 일반적으로 검정을 위한 귀무가설을 세워 유의성 검정을 하며 , 검정을 위한 계산식 내의 샘플수 (n) 크기에 따라 상관
도의 여부에 직접적인 영향을 미침을 알 수 있다 . 여기서 각 변수의 샘플수는 영상데이터의 밴드개수와 동일한 의미 를 갖는다 . 예를 들면 행렬 로부터 추출 된 각 고유치 ( λ
1, λ
2, λ
3, ..., λ
p) 가 통계적으로 유의한가를 검정하는 방법에는 여러 가지가 있으나 지금까지 제안된 방
법 중 대표적인 것은 Fisher 에 의해 유도된 임의의 p, q 에
대한 정준상관계수의 분포함수를 이용하는 방법이다 . 검정을 위한 귀무가설 ( H
0) 은 두 변수군이 서로 상관되어 있지 않다
는 것이며 , 이에 대한 대립가설은 두 변수군이 서로 상관되 어 있다는 것이다 . 즉 , 상관도 추정의 원리 및 유의성 검정
을 위한 우도비 (likelihood ratio) 테스트의 결과를 살펴봄으
로써 이상의 내용을 확인할 수 있다 .
본 연구에서 사용되는 자료에 대한 유의성 검정을 수행해 보면 다음과 같다 (Johnson and Wichern, 2002; Bartlett, 1941).
Σ11– 21⁄ Σ12Σ22–1Σ21Σ11–1 2⁄
그림 1. 연구수행과정 흐름도
사진 1. 기하보정된 Hyperion영상(53, 51, 49 밴드 RGB합성)
사진 2. Natural Color
사진 3. False Color (48, 31, 21 밴드 RGB합성)
Σ
12=0 일 때 a
1X
(1)과 b '
1X
(2)는 모든 벡터 a, b에 대하여 공분산 a ' Σ
12b =0 을 갖는다 . 결과적으로 모든 정준상관계수는
0 이 되며 , 이 경우 정준상관분석을 수행하는 아무런 의미가 없다 . 다음의 내용은 표본 데이터에 대해 Σ
12=0 을 검정하는 방법을 제공한다 .
, j = 1, 2, ..., n는
인 N
p+q( µ , Σ ) 모집단으로부터의
임의 샘플이다 .
이 때 대 의 우도비
(likelihood ratio) 테스트는 다음과 같은 분포를 기준으로 수
행된다 .
즉 , (1)
의 큰 값에 대해 귀무가설 ( H
0) 을 기각한다 .
여기서 는 Σ의 불편추정량이다 .
n값이 큰 경우 식 (1) 은 근사적으로 자유도 pq를 갖는 카 이제곱분포를 따른다 . 또한 우도비율 통계량 식 (1) 은 가설 H
0하에서 샘플분산 를 제한되지 않은 분산
| S | 와 비교하고 있다 .
Bartlett 은 -2ln Λ의 샘플링분포에 대해 χ
2근사치를 향상시
키기 위해 우도비율통계량에서의 요소 n을
(2)
로 대치시키는 것을 제안하였다 .
따라서 n과 n− ( p + q ) 값이 클 때
(3)
이면 유의수준 α에서
H
0: Σ
12= 0( ρ
1*= ρ
2*= ... = ρ
p*= 0) 을 기각한다 .
여기서 , c
2pq( α ) 는 자유도 pq의 카이제곱분포의 상위확률 α %
이다 .
귀무가설 H
0: Σ
12=0 이 기각되면 개별적인 정준상관계수의 유의성을 검정해 보아야 한다 . 정준상관계수는 가장 큰 값부 터 가장 작은 값까지 순차적으로 있기 때문에 첫 번째 정준 상관계수는 0 이 아니고 나머지 p-1 개의 정준상관계수는 0 이 라 가정할 수 있다 . 이 가설이 기각되면 처음 두 개의 정준 상관계수가 0 이 아니고 나머지 p-2 개의 상관계수는 0 이라 가정한다 .
가설의 내용은 다음과 같다 .
, , ..., ,
for some (4)
Batlett 은 식 (4) 에서의 k번째 가설이 우도비율기준에 의해
검정될 수 있음을 증명하였다 .
특히
(5)
이면 유의수준 α에서 H
0(k)를 기각한다 .
여기서 χ
2(p-k)(q-k)( α ) 는 자유도 ( p−k )( q−k ) 인 카이제곱분포의 상위확률 α % 의 값이다 . 특히 식 (5) 의 검정통계량은 처음 k개의 샘플정준상관계수가 으로부터 제거된 후의 나머지인 을 포함하고 있음을 주목해야 한다 .
순서대로 H
0, H
0(1), H
0(2)…이 H
0(k)가 기각되지 않을 때까 지 검정되면 전체유의수준은 α가 아니며 사실상 결정하기가 어렵다 . 이 검정과정의 또 다른 결점은 귀무가설이 단지 그 자체가 기각되지 않기 때문에 옳다는 결론을 지을 우려가 있다는 점이다 . 그럼에도 불구하고 이상과 같은 유의성 검정 은 다변량 정규데이터에 대해 유용하다 . 식 (5) 에 의한 연속 적인 검정은 조심스럽게 해석되어야 하지만 , 아마도 의미 있 는 중요한 정준변량의 개수를 선택하는데 있어서 간편한 지 침으로서는 최선의 방법일 것이다 .
이상의 유의성 검정방법을 본 연구에서 사용되는 하이퍼스 펙트럴 영상의 밴드수 ( 샘플수 ) 와 토지피복항목수 (q: 예측변 수 ) 및 화소수 (p: 기준변수 ) 에 대해 적용하여 구체적으로 해
석하면 다음과 같다 .
Hyperion 영상의 220 개 밴드 중 30 개를 선택하였으므로
n=30 이 된다 . 정준상관분류 알고리즘에 의하면 화소별로 독 립적으로 정준상관분석을 하여 , 가장 상관도가 높은 토지피
복항목을 해당되는 분류항목으로 결정하므로 p=1 이며 , 분류 될 토지피복항목수를 4 개만 선택하였으므로 q=4 가 된다 . p=1 이므로 정준상관계수는 1 개만 존재하고 가설이 기각되든 채택되든 한번으로 끝난다 . 그리고 정준상관계수의 제곱값인
고유치 ( λ ) 의 값은 본 연구대상 하이퍼스펙트럴 영상의
거의 모든 화소에 대해 0.99 이상의 값을 갖는 것으로 계산
되므로 , 가능한 한 가설이 기각되지 않도록 하기 위해 , 고유 치의 임계값으로 =0.99 를 채용한다 .
따라서 ,
= − 30 − 1 − 1/2(1 + 4 + 1) × ln(1 − 0.99)
= − 26 × − 4.605 = 119.73 이고 ,
자유도는 p × q = 1 × 4 = 4 이므로 χ
2분포의 상위 1% 의 값은
χ
2(pq)( α ) = χ
24(0.01) = 13.28 이다 .
두 값을 비교하면 큰 차이가 나며 , 119.73 > 13.28 이
명백하므로 가설 H
0: Σ
12=0 를 기각한다 .
만약 이상과 같은 테스트를 토지피복분류를 위해 사용될
수 있는 밴드수가 6 개 , 즉 n=6 인 LANDSAT 데이터에 대
x
jx
j( )1x
j( )2=
Σ
(p p∑
×11) 12p q× (
∑
) q p×21(
∑
) 22q q× (
∑
)=
H
0( Σ
12= 0
(p q× )) H
0( Σ
12≠ 0
(p q× ))
2lnΛ= nln S
11||S
12--- S
⎝ ⎠
⎛ ⎞ = n – ln ( 1 ρˆ –
i*2)
i 1=
∏
p–
S S
11S
12S
21S
22=
S11 0
0' S22= S11S22
n 1 – 1
2 --- p q 1 ( + + ) –
n 1 – 1
2 --- p q 1 ( + + )
⎝ – ⎠
⎛ ⎞
– ln ( 1 ρˆ –
i*2)
i 1=
∏
p> χ
pq2( ) α
H
0( )k:ρ
1*≠ 0 ρ
2*≠ 0 ρ
k*≠ 0 ρ
k 1*+= … ρ =
p*= 0 H
1( )k:ρ
i*≠ 0 i k ≥ + 1
n 1 – 1
2 --- p q 1 ( + + )
⎝ – ⎠
⎛ ⎞
– ln ( 1 ρˆ –
i*2)
i 1=
∏
p> χ
(2p k– ) q k( – )( ) α
Λ2 n⁄ (1 ρˆ– i*2)
i 1=
∏
p= 1 ρˆ– i*2
( )
i k 1= +
∏
pρˆi*2
ρˆi*2
n 1 – 1
2 --- p q 1 ( + + )
⎝ – ⎠
⎛ ⎞
– ln ( 1 ρˆ –
i*2)
i 1=
∏
p해 적용해보면 위의 값은 다음과 같이 된다 . 트레이닝 데이
터와 밴드수에 따라 의 값이 약간 다를 수 있으나 , p=1
인 경우 , 의 값은 거의 0.990~0.9999 사이의 값으로
계산되므로 여기서는 의 값을 동일하게 0.99 로 하여 계 산한다 .
= − 6 − 1 − 1/2(1 + 4 + 1) × ln(1 − 0.99)
= − 2 × − 4.605 = 9.21 이고 ,
χ
2분포의 상위 1% 의 값은 마찬가지로 χ
42(0.01) = 13.28
이고 , 9.21 < 13.28 이 되어 부등호가 바뀌므로 가설 H
0를 기 각하지 못하게 된다 . 따라서 두개의 변수군 사이에 상관관계 가 없을 수도 있음을 나타낸다 . 이러한 결과는 정준상관분석 에 의해 분류항목이 결정되지 못한다는 의미와 같다 .
이상의 결과를 종합해보면 , 정준상관분류기법은 위성영상 데이터의 밴드수가 많을수록 분류수행에 유리할 것이라는 점 을 이론적으로 판단할 수 있다 . 즉 분광밴드 개수가 많은 하이퍼스펙트럴 데이터를 토지피복분류할 때 정준상관분류기 법이 유용하리라는 것을 수학적 결과에서도 예측할 수 있다 .
3.3 Hyperion 영상의 사용밴드 선택
LANDSAT TM 데이터는 모두 7 개의 밴드로 구성되어 있
다 . 최대우도분류기법으로 영상분류를 수행하기 위해서는 7
개의 밴드를 전부 사용하여도 무방하나 , 일반적으로 7 개의 밴드를 다 사용하는 것은 효율적이지 못할 때가 많다 . 예를 들면 7 개의 밴드를 사용하였을 때의 분류결과가 3~4 개의 밴
드를 사용하여 분류를 수행하였을 때의 분류결과와 큰 차이 없이 거의 비슷한 경우가 많다 . 이와 같은 경우 7 개의 밴드 를 사용하여 수행하는 분류는 수행시간만 많이 걸릴 뿐 , 아 무런 이득이 없게 된다 . 따라서 분류작업의 효율을 높이기
위해 유효밴드 선정작업을 수행하게 된다 . 유효밴드 선정은 대표적으로 Transformed Divergence 나 Jeffreys-Matusita
Distance 를 계산한 값을 기준으로 한다 . 이 값은 같은 TM
데이터라도 대상영역에 따라 다르게 나타나므로 연구대상영 역이 달라질 때마다 계산해야 한다 .
이상과 같은 상황은 하이퍼스펙트럴 데이터에 정준상관분 류기법을 적용한다고 해도 마찬가지일 것이다 . 정준상관분류 기법이 밴드수가 많을수록 유리하다고 해도 220 개 밴드를 전부 사용한다는 것은 엄청난 시간낭비만 초래할 것으로 예 상된다 . 그러나 본 연구는 임의의 위성영상 영역을 가장 효 율적으로 분류하는데 의미가 있는 것이 아니라 , 하이퍼스펙 트럴 데이터 분류에 있어 정준상관분류기법이 분류기법으로 서 효용성이 있는지 , 타분류기법과 비교하여 어떤 특성을 가 지고 있는 지를 파악하는 것이 연구의 핵심이므로 유효밴드 선정작업은 수행하지 아니 하였다 . 하지만 앞으로 정준상관 분류기법이 하이퍼스펙트럴 데이터의 분류에 대해 그 효용 성이 인정되면 , 위성영상을 보다 효율적으로 분류하기 위해 서는 선행되어야 할 작업과정이다 . 그러므로 정준상관분류에 서의 유효밴드 선정작업은 추후 연구되어야 할 것이다 .
따라서 본 연구에서는 Landsat 데이터에서의 정준상관분류 특성과 비교평가 , 그리고 정준상관분류와 최대우도분류와의
비교평가를 위해 , 본 연구목적으로 취득한 Hyperion 영상 ( 총
187 개 분광밴드 ) 중 , Landsat 데이터의 파장대 범위에서 열적
외 밴드범위를 제외한 6 개 파장대 범위에서 5 개 밴드씩 선택 하여 총 30 개 밴드를 사용밴드로 선정하였다 . 앞에서 언급한
것처럼 Hyperion 영상의 분류에 있어 유효밴드의 선정은 “ 하
이퍼스펙트럴 영상에 대한 정준상관분류기법의 정확도 향상 ”
등 별도의 연구목적으로 독립적인 연구로서 추후 작업으로 남 겨두기로 하며 , 결과적으로 본 연구를 수행하기 위해 단순히
선택한 Hyperion 영상데이터의 30 개 분광밴드의 파장대 범위
는 다음 표 1 과 같다 . 체계적인 유효밴드선정 작업을 동시에
수행하지 않고 , Landsat 데이터 범위에서 30 개 밴드를 임의
로 선택한 것은 본 연구를 수행하고 소기의 연구목적을 달성 하는 데는 아무런 문제가 없다고 판단되었기 때문이다 .
3.4 정준상관분류 알고리즘
정준상관분석 (CCA:Canonical Correlation Analysis) 은 서
ρˆi*2ρˆ
i*2ρˆ
i*2n 1 – 1
2 --- p q 1 ( + + )
⎝ – ⎠
⎛ ⎞
– ln ( 1 ρˆ –
i*2)
i 1=
∏
p표 1. 하이퍼스펙트럴 데이터 중 사용 파장대
Subset
band number Band
number Wavelength
(nm) Bandwidth
(nm) Sensor
1 12 468.230011 11.35 VNIR
2 13 478.399994 11.35 VNIR
3 14 488.570007 11.34 VNIR
4 15 498.739990 11.32 VNIR
5 16 508.910004 11.28 VNIR
6 19 539.419983 11.08 VNIR
7 20 549.590027 10.99 VNIR
8 21 559.750000 10.90 VNIR
9 22 569.919983 10.81 VNIR
10 23 580.090027 10.71 VNIR
11 29 641.109985 10.29 VNIR
12 30 651.280029 10.27 VNIR
13 31 661.450012 10.26 VNIR
14 32 671.619995 10.27 VNIR
15 33 681.789978 10.31 VNIR
16 46 813.989990 11.18 VNIR
17 47 824.159973 11.24 VNIR
18 48 834.330017 11.26 VNIR
19 49 844.500000 11.26 VNIR
20 50 854.659973 11.27 VNIR
21 148 1628.869995 11.72 SWIR
22 149 1638.859985 11.75 SWIR
23 150 1648.959961 11.77 SWIR
24 151 1659.060059 11.78 SWIR
25 152 1669.160034 11.80 SWIR
26 204 2193.770020 10.60 SWIR
27 205 2203.870117 10.57 SWIR
28 206 2213.959961 10.55 SWIR
29 207 2224.060059 10.52 SWIR
30 208 2234.159912 10.50 SWIR
VNIR: Visible & Near-Infrared, SWIR: Short Wave Infrared
로 상관관계 또는 인과관계를 갖는 두 변수군 중에서 변수 의 개수가 적은 변수군을 예측변수군으로 하고 이에 대응하 는 변수군을 기준변수군으로 하여 서로 매우 높게 상관되어 있는 변수들을 밝혀내는 통계적 기법이다 . 이러한 정준상관 분석은 각 변수군 내의 변수들의 설명되는 변량을 극대화하 면서 , 하나의 변수군으로부터 다른 변수군의 예측치를 극대 화하는 구조를 밝힘으로써 두 변수군 내의 각 변수들의 상 관관계를 제공한다 . 따라서 정준상관분석에 의해 나타나는 각 변수들의 상관관계를 분류를 위한 판별함수로 사용할 수 있으며 , 본 연구는 이 기법을 하이퍼스펙트럴 영상의 토지피 복분류에 적용할 수 있도록 알고리즘화 한 것이다 . 원래 정 준상관분석에서는 기준변수가 예측변수보다 개수가 많다는 것을 기본논리로 하고 있으나 , 본 연구에서는 영상분류기법 의 특성상 화소단위로 분류하는 방법을 사용하게 되므로 기 준변수군의 변수는 단일 화소로서 1 개가 된다 . 이 형태를 도식으로 표현하면 다음 그림 2 와 같다 .
이상과 같은 정준상관분석을 이용한 하이퍼스펙트럴 영상 분류 알고리즘의 개념을 정리하면 다음과 같다 . 예측변수군 의 q 개의 변수는 분류대상 하이퍼스펙트럴 영상에서 식별이 분명하고 , 동일지역의 1/36,000 지형도에서 분류항목이 명확
한 대상들에 대한 트레이닝 영역이며 , 자료행렬 (data matrix)
의 각 요소값 (xnq) 은 각 밴드별로 트레이닝 영역별 원래 화
소값들에 대한 평균값을 Z-score 를 사용하여 변환한 값이다 .
기준변수로는 분류하고자 하는 수치영상의 화소 1 개만을
사용한다 . 크기가 (row, column) = (m, n) 인 직사각형 영역
위성영상의 경우 좌측상단에서 부터 우측하단 방향으로 순 서대로 화소별 분류를 실시한다 . 따라서 정준상관분류의 전 체 수행과정이 총 화소 개수만큼 반복 실시된다 .
이상과 같은 방법은 기준변수와 예측변수간에 정준상관관 계에 의해 산출되는 정준벡터를 이용하여 직접 분류를 수행 하는 기법이다 . 정준상관분류의 알고리즘을 도식으로 표현한 것이 그림 1 연구수행과정 흐름도의 좌측부의 내용이다 . 단 계별로 구체적인 설명을 덧붙이면 다음과 같다 .
3.4.1 자료 취득
분류할 원 영상을 밴드별로 독립되고 128bytes 의 헤더를
가진 Erdas 7.5 버전 프로그램 파일포맷으로 널리 알려진
*.lan 파일로 구성한다 . 본 연구의 하이퍼스펙트럴 데이터의
경우 밴드수를 30 개로 하였으므로 30 개의 파일로 구성된다 .
또한 분류할 항목을 대표하는 각 항목별 분류기준용 데이터 를 취득하기 위해 트레이닝 데이터로 사용할 영역의 밴드별 평균값을 계산하여 m 밴드에 n 항목의 텍스트파일을 작성한 다 . 본 연구의 경우 분류항목의 수를 4 개로 선정하였다 . 하 이퍼스펙트럴 데이터에 대한 정준상관분류의 유용성이 본 연 구의 주 목적이므로 , 시각적으로 구분이 쉽게 되는 토지피복 항목만을 위주로 소수의 개수만 선택하여 실험함으로써 작 업의 단순화를 꾀하였다 . 본 연구에서 토지피복분류항목의 개수는 그리 중요하지 않으며 , 선택된 분류항목이 얼마나 정 확히 분류되느냐에 주안점을 두고 있다 . Landsat 데이터의
경우 각 화소의 수치는 8bit 이나 , 본 연구에서 취득한 하이
퍼스펙트럴 데이터는 16bit 데이터이므로 255 이상의 천단위 또는 만단위의 수치를 가지고 있다 .
3.4.2 기본 자료행렬의 구성
3.4.1 에서 취득된 직사각형 위성영상데이터로부터 , 좌측상
단에서 시작하여 순차적으로 , 분류할 1 화소를 추출하여 n × 1
행렬로 만들고 이를 기준변수군으로 둔다 . 또한 트레이닝 영
역 통계파일로 부터 n × q 행렬을 구성하여 예측변수군으로 한다 . 그 다음 기준변수군 행렬과 예측변수군 행렬을 병합하 여 n × (1+q) 기본자료행렬을 구성한다 .
3.4.3 기본 자료행렬의 표준화
이후 수행되는 모든 계산과정을 신속하고 간편하게 처리하 며 , 산출된 결과를 쉽게 분석하기 위하여 자료행렬의 변수들 을 표준화 시킨다 .
3.4.4 상관계수행렬 계산
3.4.3 의 과정에서 생성된 표준화된 자료행렬로 부터
(1+q) × (1+q) 의 상관계수행렬을 산출한다 . 이 상관계수행렬이
정준상관분석에 있어 고유치와 고유벡터를 생성하기 위한 기 본행렬이 된다 .
3.4.5 상관계수행렬의 분할
3.4.4 에서 산출된 상관계수행렬은 (1+q) × (1+q) 행렬이므로 이
를 1 × 1, 1 × q, q × 1, q × q 의 독립행렬로 분할한다 . 이렇게 분할된 각 행렬로부터 정준상관분석이론에서 요구되는 역행렬 , 제곱근 행렬 , 그리고 제곱근 행렬의 역행렬을 개별적으로 계산한다 .
3.4.6 정준방정식의 해 산출
계산된 분할행렬을 이론식에서 제시된 형태로 재구성하여
3.4.4 에서 언급한 기본행렬 (M) 을 만든다 . 이 행렬에 대해 정
준방정식을 구성하여 고유벡터와 고유값을 산출한다 . 산출된 고유벡터로부터 두 변수군의 정준벡터 ( 정준가중치 ) 인 열벡터
, 를 계산한다 . 고유치의 개수는 기준변수군의 개수 만큼 생성되므로 본 연구에서는 1 개만 존재한다 . 열벡터 b의 원소의 개수는 분류항목의 수를 나타내는 것으로서 원소의 값은 정준상관관계에 대한 각 분류항목의 비중을 나타낸다 .
원소의 절대값 중 가장 큰 값이 해당되는 분류항목을 분류 대상 화소의 토지피복으로 결정하는 것이 정준상관분석에 의 한 영상분류과정의 핵심이다 .
1 1a×
( ) b
1 1×
( )