224
Copyright © 2016 The Korean Society of Fisheries and Aquatic Science pISSN:0374-8111, eISSN:2287-8815
서 론
어로현장에서어획대상어류의어종이나체장등과같은생 물학적정보를알수있다면
,
어업자가이들어류를선택적으 로어획할수있기때문에어업자원의남획이나부가가치가낮 은부수어획물이현장에서폐기되는문제를예방할수있어 어업자원의관리적인측면에서매우중요한요소가된다.
그러 나,
이와같은필요성에도불구하고아직도어종의식별에관한 연구는상업적인기술로서정착되지못한상태로여러방법론 적인연구가세계여러나라에서진행되고있는실정이다.
즉,
여러주파수에서측정한체적산란강도의차이(Woillez et al., 2012)
나echo trace
의차이(Fernandes, 2009)
를이용하는방법, echogram
의판별분석법에의한방법(Tasgarakis et al., 2015),
광대역
echo
신호의산란주파수특성에의한방법(simmonds
et al., 1996; Lee et al., 2015; Lee, 2015a; Lee, 2015b)
등에대한연구가있다
.
그러나,
이들의연구는매우제한된조건하에서 수행된관계로상업적인관점에서활용되기에는많은문제가 있다.
어종의식별에있어가장중요한요소는음향학적으로수 집되는정보중에서어종의존적인정보를어떻게정량적으로 추출해낼것인가와이렇게수집된정보로부터어떻게어종을 분류,
식별해내는가의문제이다(Lee et al., 2015; Lee, 2015a;
Lee, 2015b).
본연구에서는넓은주파수대역의chirp
어군탐 지시스템을사용하여어종의존적인정보가내포된시간-
주파 수echo
이미지의데이터셋(set)
을작성한후,
이들각이미지 에대한특징적인패턴을인공신경망(artificial neural network, ANN)
을이용하여분류하면,
어종의식별이가능하다는점에 주목하였다.
일반적으로인공신경망을구축할때,
학습의정도(accuracy)
는신경망구조,
입력층및은닉층의뉴런수,
활성화 함수(activation function),
목표출력에대한입력데이터셋의인공 신경망에 의한 6개 어종의 음향학적 식별
이대재*
부경대학교 해양생산시스템관리학부
Acoustic Identification of Six Fish Species using an Artificial Neural Network
Dae-Jae Lee*
Division of Marine Production System Management, Pukyong National University, Busan 48513, Korea
The objective of this study was to develop an artificial neural network (ANN) model for the acoustic identification of commercially important fish species in Korea. A broadband echo acquisition and processing system operating over the frequency range of 85-225 kHz was used to collect and process species-specific, time-frequency feature images from six fish species: black rockfish Sebastes schlegeli , black scraper Thamnaconus modesutus [K], chub mackerel Scomber japonicus , goldeye rockfish Sebastes thompsoni , konoshiro gizzard shad Konosirus punctatus and large yellow croaker Larimichthys crocea . An ANN classifier was developed to identify fish species acoustically on the basis of only 100 dimension time-frequency features extracted by the principal components analysis (PCA). The overall mean identification rate for the six fish species was 88.5%, with individual identification rates of 76.6% for black rockfish, 82.8% for black scraper, 93.8% for chub mackerel, 90.6% for goldeye rockfish, 96.9% for konoshiro gizzard shad and 90.6% for large yellow croaker, respectively. These results demonstrate that individual live fish in well-controlled environments can be identified accurately by the proposed ANN model.
Key words: Fish species identification, Time-frequency image, Artificial neural network, Principal components anal- ysis, Confusion matrix
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial Licens (http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
http://dx.doi.org/10.5657/KFAS.2016.0224 Korean J Fish Aquat Sci 49(2) 224-233, April 2016 Received 18 March 2016; Accepted 29 March 2016
*Corresponding author: Tel: +82. 51. 629. 5889 Fax: +82. 51. 629. 5885
E-mail address: [email protected]
적절성
,
연결강도(weight)
의갱신등과같은회로망의파라미 터의선택에의존하는바가매우크다.
이중에서특히,
입력층 에대한뉴런의수를너무적게선택하면복잡한데이터셋에포 함되어있는신호의특징과변동성을적절하게추출할수없어 큰식별오차가유발된다.
반면,
뉴런수를너무많게설정하면,
현재의입력뉴런에연결된학습데이터셋에대한식별성능은 향상되지만,
학습시간에많은시간이소비되어인공신경망의 효율성이오히려저하하는문제가발생한다(Lee et al., 2016).
이때문에이미지패턴을해석하는데있어서는데이터에내포 된주성분의많은축들이
3
차원데이터공간에서어떤패턴으로 전개되는가를분석하여데이터차원을축소하는주성분분석법(principal components analysis, PCA)
이널리이용되고있다(Zuo et al., 2006; Santo, 2012).
본연구의chirp
어군탐지시스 템으로부터실시간으로수록되는3
차원의시간-
주파수echo
이 미지(Imberger and Boashash, 1986; Dong and Cui, 2012; Sui et al., 2007)
는35×75
픽셀의echo
패턴이다.
이들이미지데이터를그대로인공신경망의입력층뉴런에연결하면
2,625
차원의입력데이터가되기때문에학습과정에서매우많은시간이 소요되어비효율적이다
.
따라서,
각어종별시간-
주파수echo
이미지의데이터속성을나타내는
PCA
계수matrix
를추출하고
,
원래의데이터셋에내포되어있는데이터속성이손상되지 않는범위내에서데이터차원을축소시킬필요가있다.
본연구에서는이와같은점에주목하여조피볼락
,
말쥐치,
고 등어,
불볼락,
전어,
부세등의6
개어종에대하여각어종당16
마리씩총96
마리의개체어로부터85-225 kHz
의주파수대역에대한시간
-
주파수echo
이미지를수록하고,
이들이미지데이터의차원을저감시킨후
, PCA matrix
의차원에따른어종의음향학적식별성능의변화를인공신경망모델을구축하여분 석
,
고찰하였다.
재료 및 방법
어류에 의한 시간-주파수 echo 이미지의 데이터 차원 축소
본연구에서는우리나라주변수역에서어획되는조피볼락
,
말쥐치,
고등어,
불볼락,
전어,
부세등의6
개어종을대상으로85-225 kHz
의주파수대역에서각어종당16
마리씩총96
마리의개체어에 대한 시간
-
주파수echo
이미지를 수록하였다(Lee et al., 2016).
이때,
각개체어에대한chirp echo
이미지 는등방향(dorsal aspect)
을기준으로±25°
자세각범위내에서 약2.5°
간격으로수록하였고,
각어종당총320
개(16
마리×20
개의이미지/
마리),
즉, 6
개어종에대하여얻어진총1,920
개의시간
-
주파수echo
스펙트럼패턴을바탕으로어종식별을위한데이터베이스를구축하였다
.
이들6
개의어종에대한활어 상태의각어류로부터수록한chirp echo
신호로부터SPWVD (smoothed pseudo-Wigner-Ville distribution)
기법에의해시간
-
주파수이미지를추출하고,
이들이미지의0-0.3 ms
의시간 영역과85-225 kHz
의주파수영역을i (column)×j (row)
픽셀(pixel)
사이즈(N = i×j )
로이미지커팅(cutting)
하여인공신 경망의학습용및테스트용이미지로사용하였다.
각어종의개 체어활어로부터수집되는시간-
주파수이미지패턴의행렬을I
1라할때,
이행렬은I
1= [ p p ⋮ p
1121i1p p ⋮ p
1222i2… … … ⋮ p p p
1j2jij] (1)
이되고
,
각이미지의column
벡터F
1은F
1= {p
11p
12… p
1jp
21p
22… p
2j… p
i1p
i2… p
ij} (2)
이다.
모든어종에대한개체어로부터수록된시간-
주파수이미 지의총수를M
이라할때,
이미지데이터의집합S
M은S
M= [F
1, F
2, F
3… F
M]
T(3)
이된다
.
여기서, [*]
T는[*]
의전치행열(transposed matrix)
이다.
한편,
모든어종의이미지데이터집합S
M을대상으로PCA
기 법을이용하여주성분계수행렬을구하고,
그것의전치행렬을W
라하면,
이행렬은W = [ w w ⋮ w
1121N1w w w ⋮
N21222… … … ⋮ w w w
NN1N2N] (4)
이 된다
.
즉,
분산이큰값으로부터작은값의순으로배열되 는주성분계수행렬을얻을수있다.
또한,
이행렬에서분산 이큰전반부의K
차원까지의주성분행렬(W
K)
을추출하여 나타내면W
k= [ w w ⋮ w
1121K1w w w ⋮
K21222… … … ⋮ w w w
KN1N2N] (5)
이된다
.
본연구에서는이와같이
K
차원으로축소된PCA
계수행렬W
K을이용하여모든어종으로부터수록된N
차원의시간-
주파 수이미지데이터셋을K
차원의시간-
주파수이미지데이터셋 으로축소시켜인공신경망의입력층의뉴런에전달하였다.
즉,
인공신경망의입력데이터행렬S
input는S
input= W
K· S
M(6)
에의해구하였다
.
다중 퍼셉트론 인공 신경망과 어류의 시간-주파수 이미지 데이터의 학습
일반적으로인공신경망모델에서는뉴런
(neuron,
또는node)
이라불리는신경세포와유사한처리소자들의병렬분산처리를 통해학습하고,
예측을수행하게된다.
본연구에서는입력층과 출력층사이에하나의은닉층을갖는신경회로망,
즉다중퍼셉 트론회로망(multilayer perceptron network, MLP)
을이용하 여어종식별시스템을구현하였는데,
그MLP
구조는Fig. 1
과 같다. Fig. 1
에서은닉층의j
번째노드가입력층의i
번째노드 로부터전달받은입력신호를x
i,
이들입력층과은닉층사이의 연결가중치(connection weight)
를w
ji,
은닉층의j
번째노드에 연결된임계치(bias)
를b
j라하면, Fig. 1
의MLP
신경망에서는 입력층의노드로부터입력되는외부신호에가중치와임계치를 반영한가중합을먼저계산한다.
그후,
이값은활성화함수(activation function)
에의해변환되어(7)
식의출력을출력층에 전달한다(Saad et al., 2007: Bai et al., 2009; Latha el al., 2009).
y
j= f (net
j) = f
d(∑
w
ji· x
i+ b
j) (7)
j=1
여기서
, net
j는은닉층의j
번째노드에들어오는외부자극에가중치와임계치를반영한가중합
,
즉,
순입력의값이다. f
는 활성화함수이고, y
j는은닉층의j
번째노드에대한순입력net
j 가활성화함수에의해처리된후,
출력층으로전달되는값이다.
한편, Fig. 1
에서출력층의k
번째노드에은닉층의j
번째노 드로부터입력신호y
i가전달되면,
이들은닉층과출력층사이의연결가중치를
w
kj,
출력층의j
번째노드에연결된임계치(bias) b
k가반영된순입력값net
k가산출되고,
이값은다시활 성화함수f ( net
k)
를통해최초의인공신경망의출력z
k이된다.
z
k= f (net
k) = f
h
(8)
(∑
w
kj· y
i+ b
k)
j=1
이와같은과정을거쳐산출되는인공신경망의실제의출력
z
k는목표치t
k과차이가발생하기때문에이들두값의차이,
즉, (9)
식으로정의되는 오차가설정한오차역치(error threshold)
보다적게될때까지반복적인학습이수행된다.
E =
1 m1
‖t - z‖
2(9)
{
∑
(t
k- z
k)
2=
2 k=1 2즉
, Fig. 1
의신경회로망의학습을통해(9)
식의오차값E
를최소로 하는연결 가중치벡터가산출된다
(Bai et al., 2009;
Latha el al., 2009).
본연구에서는MLP
기법과오류역전파(error backpropagation, BP)
알고리즘을 바탕으로 지도학습(supervised learning)
을통해입력층과은닉층,
또한,
은닉층과 출력층의각노드사이의연렬가중치를수정함으로써다음학 습시의목표치에더욱근접하는출력값을산출하였다.
즉,
입 력층과은닉층사이및은닉층과출력층사이의가중치및임계 치의변화량∆w
와∆b
을구하면,
과거의가중치w (old)
와임 계치b (old)
로부터새로운가중치w (new)
와임계치b (new)
를(10)
식과(11)
식에의해추정할수있다(Latha el al., 2009;
Pinjare and Arun Kumar, 2012).
w (new) = w (old) + ∆w (10)
b (new) = b (old) + ∆b (11)
본 연구에서 인공 신경망의 지도학습은
Matlab
신경망 툴(tool)
함수newff (feed-forward backpropagation network)
를 이용하여수행하였는데(Demuth et al., 2009),
이때, Fig. 1
의BP
신경망에대한각층사이의최적의연결가중치를계산하기위한학습은
traingdx
함수(gradient descent with variable learning rate and momentum)
를이용하여 수행하였다.
또한,
이계산은(9)
식의오차함수(performance function) E
값,
즉 평균제곱오차(mean square error, MSE)
가설정치이하로감 소할때까지반복적으로수행하였다(Kuruvilla and Gunavathi, 2014).
본연구에서이용한traingdx
함수의학습에사용한파라 미터는Table1
과같다(Shilbayeh et al., 2013).
Table 1
에서알수있는바와같이matlab
의툴함수newff
가인공신경망의모든구조를생성하여신경망변수net
에관 련함수및파라미터등을셋팅하면, train
함수가변수net
에저 장되어있는net.trainFcn
과net.trainParam
의설정치를바탕으 로회로망net
를학습시키고,
이로부터리턴(return)
되는net
회 Fig. 1. Architecture of multilayer perceptron (MLP) neural net-work with one hidden layer and basic block of error back-prop- agation process. The architecture represents a three-layered MLP with h neurons in the hidden layer and d neurons in the input layer corresponding to the time-frequency echo patterns of 6 fish spe- cies. The m nodes in the output layer indicate the m different fish species to be predicted.
로망을
sim
함수를이용하여시뮬레이션함으로써어종을식별 하였다.
한편,
본연구에서는은닉층과출력층에대한활성화(activation)
함수로서는hyperbolic tangent
함수를이용하였는 데,
이tan-sigmoid
함수는-1
과+1
사이의값을출력한다(Bai et al., 2009).
결과 및 고찰
어종별 학습용 및 테스트용 이미지의 특징적인 패턴
본연구에서는6
개어종, 96
마리의활어개체어로부터수록한시간
-
주파수echo
이미지에대한데이터베이스를크게두그룹으로분류하였다
.
하나는인공신경망의지도학습을위한 학습용데이터베이스이고,
다른하나는목표어종의식별에이 용하기위한테스트용데이터베이스이다.
먼저,
학습용데이터베이스는각어종별로수록한
320
개의시간-
주파수echo
패턴중에서무작위로
80%(256
이미지)
를추출하여구축하였다.
또한
,
나머지20%
는데스트용으로할당하여목표어종의식별을 위한데이터셋으로서활용하였는데,
조피볼락에대한학습용 과데스트용데이터셋의일례는각각Fig. 2
와같다. Fig. 2
의(a)
및(b)
에나타낸각어종의개체어로부터수록한chirp echo
Fig. 2. Original train image sets for black rockfish Sebastes schlegeli consisting of 320 color-scale images each with a matrix dimension of 35×75 pixels in the frequency and time domains. These SPWVD images were obtained from the broadband echoes by 16 live individuals over the frequency range of 85 to 225 kHz. (a) The 256 train images, for the supervised learning of ANN, corresponding to 80% of 320 im- ages were selected by random process. (b) The 64 test images corresponding to 20% of 320 images were used as an image set for identifying the target fish species.
Table 1. The function “traingdx” parameters Training parameters Description net.performFcn = mse Mean square error net.trainParam.goal = 0.001 Performance goal net.trainParam.show = 20 Epochs between displays net.trainParam.epochs = 5000 Maximum number of
epochs to train net.trainParam.mc = 0.95 Momentum constant
신호에대한모든시간
-
주파수echo
이미지는모두RGB
영상 패턴이다.
실제이들이미지는35×75
픽셀의gray
이미지패 턴으로변환되어인공신경망의입력데이터로서사용하였다. Fig. 2(a)
는조피볼락에대한학습용이미지데이터셋이고, Fig.
2(b)
는테스트용이미지데이터셋이다.
본연구에서는각이미 지패턴의윤곽(contour),
스펙트럼의구조및형상,
이미지픽셀의진폭변동
, echo
에너지가집중되는영역, echo
신호의출현과소멸구간등의차이등에주목하여분석을행하였다
.
이 들각어종에대한시간-
주파수이미지정보를비교,
분석한결 과,
각이미지상호간에매우유사한공통점이있음을알수있 었다.
즉,
저주파수영역에서고주파수영역을향해일정한기울기를갖는다양한형상의
echo contour
패턴이연속하여출현하였다
.
이들contour
패턴의형상은조사대상으로한6
개의어종 에있어각각서로다른양상을나타내었다.
또한,
이들각이미 지contour
패턴에서feature
성분이강하게집중되어나타나는 영역이서로다른점으로부터이들의스펙트럼성분들은어종 에매우의존적인특징을갖고있음을알수있었다.
따라서
,
본연구에서는각어종에대한시간-
주파수이미지패 턴속에내포되어있는어종의존적인특징들을어떻게추출하 여이것을어종식별인자로서활용할것인가에초점을두고연구를수행하였다
.
Fig. 2
에나타낸SPWVD
기법을이용하여얻어진각어종당320
개의35×75
픽셀이미지에대한2
차원feature
패턴을학습 용과데스트용으로분류하여재성형(reshaping)
한결과는Fig.
3
의(a)
및(b)
와같다. Fig. 3(a)
는Fig. 2(a)
의학습용이미지를 대상으로주파수축의35
개픽셀column
을서로체인형으로1
번부터
35
번까지순서대로결합시켜2,625
픽셀을갖는새로운이미지를생성한후
,
이들학습용의256
개의이미지전체를이 미지번호순으로배열한결과이다.
한편, Fig. 3(b)
는Fig. 2(b)
의테스트용이미지셋을대상으로
Fig. 3(a)
에서와같은재성형처리를수행하여얻은
64
개의새로운이미지패턴을이미 지번호순으로배열하여나타낸결과이다. Fig. 3
의(a)
및(b)
에서종축은이미지데이터의번호이고
,
횡축의1-2,625
는주파수축의
35
개column (75
픽셀/column)
을서로체인형으로순서대로연결하여생성한
2,625
픽셀의번호이다.
이들이미지feature
패턴에는각어종고유의생물학적,
형태학적,
음향학적성질등을나타내는어종의존적인정보들이내포되어있다
(Gavrovska et al., 2010; Han and Kim, 2010).
따라서,
이들이 미지패턴으로부터각어종이갖는고유의특징적인픽셀패턴 및변동성등을얼마나정확하게정량적으로추출해내는가는Fig. 3. (a) A reshaped image set of 256 train images for the supervised learning of ANN (Fig. 2a). (b) A reshaped image set of 64 test images for identifying the target fish species (Fig. 2b). Each matrix for train and test images of black rockfish Sebastes schlegeli was reshaped as a set of 2,625-dimensional feature pixels by concatenating the 35 columns of the 35×75 image matrix.
어종의식별성능을결정하는중요한요소가된다
. Fig. 3
의(a)
와(b)
에서조피볼락의16
개체어로부터추출된학습용및테스트용이미지패턴을살펴볼때
,
개체어에따라1,000
픽셀이하의이미지영역에서는매우불규칙한진폭변동이관찰되었지
만
, 1,000-2,300
픽셀의영역에서는픽셀번호가증가함에따라어종고유의공통적인변동패턴이나타나고있음을알수있었
다
.
또한, 2,300
픽셀이상의영역에서는이미지패턴이급속히소멸해가는경향을나타내었다
.
특히,
이들이미지패턴은어종 마다서로다른변동특성을나타내고있기때문에어종을식별 하기위해서는어종고유의이미지패턴의특징을정량적으로 추출할필요가있다.
그러나, Fig. 3
의(a)
와(b)
에서알수있는바와같이각개체어의이미지는
2,625
픽셀로구성되는픽셀패턴이고
,
각어종당256
개의이미지를인공신경망의지도학 습을위한데이터셋으로서이용하는경우,
처리해야할차원이 한어종당256×2,625
차원이된다.
즉,
인공신경망의지도학 습에너무많은시간소요된다.
따라서,
본연구에서는PCA
분 석을통해이들6
개어종의각각에대한학습용과테스트용이 미지셋의데이터차원을적극저감시키면서도어종의존적인 정보의손상은최소화시키기위한방안을고안하였다.
즉, Fig.
3(a)
의학습용의이미지데이터셋을대상으로계산된PCA
계수행렬로부터
(5)
식에서제시한적정수준의차원을갖는PCA
계수행렬W
K을추출하였다.
그후,
이계수행렬을Fig. 3(b)
의 테스트용이미지데이터셋에적용하여본연구에서구축한인 공신경망의학습시간을단축시키는기법을도입하여어종을 식별하였다.
이때,
지나치게feature space
의차원을낮추면,
어종의존적인정보의손실이초래되어어종식별율이저하하게 되고
,
반면,
지나치게feature space
의차원을높이면,
식별율은 향상되지만,
학습시간의증가에따른식별시스템의효율이저 하하는문제가발생한다.
이때문에본연구에서는이미지데이 터의차원축소에따른어종식별율의변화를먼저분석,
고찰한 후,
본연구에가장적합한최적의차원을추출하여최종적인어 종식별시스템을구축하였다.
시간-주파수 이미지 데이터의 차원 축소에 따른 어종 식별율의 변화
시간-주파수 이미지 데이터의 차원 축소
본연구에서는
6
개어종의각각에대하여256
개의시간-
주파 수이미지를학습용데이터셋으로준비하였고,
이들을본연구 에서구축한인공신경망의입력층의뉴런에전송하여지도학 습을수행하였다.
이때, 1
개의시간-
주파수echo
이미지패턴은
75×35
픽셀의크기이기때문에이들이미지를그대로입력층의뉴런에접속하려면총
2,625
개의뉴런이필요하다.
이경 우,
신경망의학습에소요되는연산시간이급격하게증대되는 문제가발생한다.
따라서,
신경망의학습에소요되는연산시간 을절감하기위해서는입력층의뉴런수,
즉,
입력데이터의차원수를감소시킬필요가있다
.
이를위해먼저PCA
분석을통해얻어진입력이미지데이터의
PCA
계수차원이인공신경망에의한어종식별율에미치는영향을분석
,
고찰하였는데,
그 결과는Fig. 4
와같다. Fig. 4
는16
마리의조피볼락으로부터수 록한총320
개의시간-
주파수echo
패턴중에서학습용으로무Fig. 4. A lower dimensional representation of the reduced feature matrix for the time-frequency echo pattern of black rockfish Sebastes schlegeli as a function of the number of principal components (eigenvectors). By only considering the first 250 eigenvectors of 2,526 eigen- vectors, the dimensionality of the image feature space (matrix) was greatly reduced. The supervised learning of ANN for identifying the fish species was accomplished by only using a truncated set of the first 100 eigenvectors.