• 검색 결과가 없습니다.

본 연구에서 준지도 회귀 기법에 의한 예측 성능 개선 효과를 검증하 기 위한 연구모형은 에세이1에서 베이지안 모형 평균화 기법을 이용하여 선별한 21개의 월 단위 변수로 구성된 모형(식 3-8)과, 40개의 15일 단 위 변수로 구성된 모형(식 3-9)이다. 에세이1의 선행연구에 기반한 비교 모형 대신 베이지안 모형 평균화에 의한 모형을 선택한 이유는 첫째, 구 성된 변수가 대부분 작물 단수와의 관계에서 유의한 것으로 나타났기 때 문이다. 이는 준지도 학습에 사용되는 예측모형에 유의하지 않은 변수에 의한 부정적인 영향을 최소화하기 위한 것으로 예측 성능 평가에서 준지 도 회귀 기법에 의한 순수한 효과를 반영하기 위함이다. 둘째 이유는 샘 플 수가 부족한 상황에서 모형의 복잡도가 준지도 회귀 기법의 성능에 영향을 미치는지 검증하기 위해 변수의 수가 많은 연구 모형의 선정하는 최적의 방법이 베이지안 모형 평균화 방법이기 때문이다. 유의한 변수를 많이 포함하는 모형을 만들기 위해서는 월 단위보다 짧은 기간의 집계 변수가 고려되어야 하고, 이 때 다수의 유의한 변수로만 구성된 복잡한 모형을 만들기 위해서는 베이지안 모형 평균화가 가장 효과적인 방법이 라고 판단하여 에세이1의 15일 단위 변수로 구성된 모형을 채용하였다.

연구 모형 식(4-1), 식(4-2)에서 사용된 변수 중 tm_avg는 평균기온, tm_min은, 최저기온, tm_max는 최고기온을 의미한다. hm_avg는 월 평 균상대습도, pr_sum은 월 총강수량이고, ss_dura는 월 총일조시간을 의 미한다. 변수명 끝의 숫자의 의미는 해당 월을 의미하고, a·b는 월의 상 반기·하반기를 의미한다. 비교모형에 포함된 변수 중 기상 변수는 예측 하려는 단수와 같은 연도에 관측된 변수들만 고려하여서 종속변수와 동 일한 t시점의 관측치이며, 전기 단수 변수는 t-1시점의 종속변수이기 때 문에 Yt-1로 표시하였다. 비교 모형의 식은 선형회귀모형 추정을 고려하 여 변수의 추정 계수를 포함하도록 표현하였으나 SVR, k-NN과 같은 머신러닝 기법의 경우 설명변수별로 계수를 추정하는 것이 아니기 때문

(4-2)을 해석해야 한다.

Yt = Yt-1 + tm_avg4t + tm_avg8t + tm_avg9t + tm_avg10t + tm_max4 + tm_max5 + tm_max7 + tm_min4t + tm_min5t + tm_min8t + hm_avg3t + hm_avg6t + hm_avg10 + ss_dura5t + ss_dura10t + pr_sum1t + pr_sum6t + pr_sum7t + pr_sum8t + pr_sum9t (4-1)

Yt = Yt-1 + tm_avg1at + tm_avg2bt + tm_avg3at + tm_avg4bt + tm_avg5at +tm_avg7at + tm_avg7bt + tm_avg10at +

tm_max1at + tm_max2bt + tm_max3at + tm_max3bt + tm_max7bt + tm_max8at + tm_min1at + tm_min3at + tm_min3bt+ tm_min5at + tm_min8at + tm_min8bt + tm_min9at + tm_min9bt + tm_min10bt + hm_avg2at + hm_avg6at + hm_avg10at + hm_avg10bt + pr_sum1bt + pr_sum3at + pr_sum4at + pr_sum6at + pr_sum7bt + pr_sum8at + pr_sum10at + ss_dura1at + ss_dura5at +

ss_dura6bt + ss_dura8bt + ss_dura9bt (4-2)

3. 분석 자료

본 연구에서는 사용하는 쌀 단수 자료와 기상 관측 자료는 각각 통계 청과 기상청에서 제공하는 공식자료를 사용하였다.

쌀 단수 데이터는 통계청 농작물 생산조사 자료에 1965년부터 최근까 지 시·군 단위와 광역도 단위로 집계되고 있으나 1977년부터 1995년까지 의 19년간은 시·군 단위 단수는 집계되지 않고 광역도 단위 단수만 집계 되었다. 따라서 본 연구에서는 단수 데이터의 연속성과 과거 1980년대 이전의 쌀 품종과 1990년대 이후의 쌀 품종의 차이로 인한 기상 요인의 영향 차이를 고려하여 1997년부터 2018년까지의 연도별로 집계된 157개 시·군과 강원, 경기, 경남, 경북, 전남, 전북, 제주, 충남, 충북의 9개 광역 도 단수 데이터를 사용하였다.

기상 관측 자료는 기상청의 기상자료개방포털에서 1973년 이후의 기 상관측소 관측 데이터를 제공하고 있다. 제공되는 기상 요인 중 본 연구 에서는 기온, 습도, 강수량, 일사량에 대한 일별 관측치 데이터를 사용하 여 월 단위 최고온도, 최저온도와 같은 파생 변수를 생성하였다. 기상 데 이터의 경우 쌀 단수 데이터의 시작 시점인 1997년에는 68개의 관측소가 운영되었으나 최근까지 꾸준히 증가하여 2018년에는 전국에 95개의 관측 소가 운영되고 있다. 따라서 연도별로 관측소 수가 다른 문제와 68∼95 개의 관측소 관측치를 단수 데이터가 있는 전국 157개 지역을 대표하는 기상 정보가 될 수 있도록 매핑이 필요한 문제가 있다. 본 연구에서는 매년 157개 시·군 지역의 GIS 중심 좌표에 대하여 인근의 최근접한 기 상 관측소 3개소의 GIS 좌표와의 거리 역수의 가중평균으로 계산된 기 상 관측치를 각 지역의 기상 정보로 간주하였다. 기상 변수의 고려 범위 는 일반적인 경우 쌀의 이앙기가 5월이고 수확기가 10월∼11월인 점을 고려했을 때 기상이 쌀의 생육에 직접적인 영향을 줄 수 있는 5월∼10월 의 기상 변수만 고려될 수 있는 점과 기존 연구들에서도 대부분 5월∼10 월 기상 변수만 사용되고 있다. 그러나 베이지안 모형 평균화 기법에 의

후보 변수로 선정되었다. 이는 1월∼4월 기상 조건에 의해 병해충과 관 련한 요인이 영향을 받거나 1월∼4월 기상 조건이 5월∼10월 기상과 상 관관계를 가질 수 있는 가능성이 존재하기 때문으로 본 연구에서는 이앙 기 이전인 1∼10월 기상 요인을 예측 모형에 사용하였다.

변수 변수 설명 변수 범위

쌀 단수 단위면적(ha)당 쌀 생산량(kg)

전기 쌀 단수 1년 전 시점의 쌀 단수

평균기온 해당월의 일평균 기온의 평균값 1월∼10월

최고기온 해당월의 일최고 기온의 평균값 1월∼10월

최저기온 해당월의 일최저 기온의 평균값 1월∼10월

누적일조시간 해당월의 일별 일조시간의 합계 1월∼10월

강수량 해당월의 일별 강수량의 합계 1월∼10월

상대습도 해당월의 일별 상대습도의 평균값 1월∼10월

<표 4-1> 준지도 회귀 쌀 단수 예측 모형 사용 변수

관련 문서