2021, 32
(2)
,361–374
스마트팜 토마토 빅데이터를 활용한 생존분석
†
기
ᆷ준철
1
· 권숙희2
·하일도3
·나명환4
123부경대학교 통계학과 · 3부경대학교 인공지능융합학과 · 4전남대학교 수학/통계학과
ᄌ ᅥ
ᆸᄉ ᅮ 2021ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 28ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2021ᄂ ᅧ ᆫ 3ᄋ ᅯ ᆯ 16ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2021ᄂ ᅧ ᆫ 3ᄋ ᅯ ᆯ 17ᄋ ᅵ ᆯ
요 약
4ᄎ ᅡ ᄉ ᅡ ᆫᄋ ᅥ ᆸᄒ ᅧ ᆨᄆ ᅧ ᆼ ᄀ ᅵᄉ ᅮ ᆯ ᄋ ᅲ ᆼ ᄒ ᅡ ᆸᄀ ᅪ ᄒ ᅧ ᆨᄉ ᅵ ᆫᄋ ᅳᄅ ᅩ ᄎ ᅬ ᄀ ᅳ ᆫ ᄂ ᅩ ᆼᄋ ᅥ ᆸ ᄇ ᅮ ᆫ ᄋ ᅣᄋ ᅦᄉ ᅥ ᄌ ᅥ ᆼᄇ ᅩᄐ ᅩ ᆼᄉ ᅵ ᆫᄀ ᅵᄉ ᅮ ᆯᄋ ᅳ ᆯ ᄌ ᅥ ᆸᄆ ᅩ ᆨ ᄒ ᅡᄋ ᅧ ᄌ ᅥ ᆨᄌ ᅥ ᆼᄒ ᅡ ᆫ ᄉ ᅢ ᆼᄋ ᅲ ᆨᄒ ᅪ ᆫ ᄀ ᅧ
ᆼᄋ ᅳ ᆯ ᄋ ᅲᄌ ᅵᄒ ᅡᄀ ᅩ ᄀ ᅪ ᆫ ᄅ ᅵᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄃ ᅩᄅ ᅩ ᆨ ᄉ ᅳᄆ ᅡᄐ ᅳᄑ ᅡ ᆷᄋ ᅴ ᄇ ᅩᄀ ᅳ ᆸ ᄀ ᅪ ᄒ ᅪ ᆨ ᄉ ᅡ ᆫᄋ ᅵ ᄒ ᅪ ᆯ ᄇ ᅡ ᆯᄒ ᅵ ᄋ ᅵᄅ ᅯᄌ ᅵᄀ ᅩ ᄋ ᅵ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄉ ᅳ ᄆ
ᅡᄐ ᅳᄑ ᅡ ᆷ ᄇ ᅵ ᆨᄃ ᅦᄋ ᅵᄐ ᅥᄅ ᅩᄇ ᅮᄐ ᅥ ᄉ ᅵ ᆯᄌ ᅦᄅ ᅩ ᄉ ᅮᄌ ᅵ ᆸᄃ ᅬ ᆫ ᄌ ᅮᄇ ᅧ ᆯ ᄐ ᅩᄆ ᅡᄐ ᅩ ᄌ ᅡᄅ ᅭᄅ ᅳ ᆯ ᄒ ᅪ ᆯᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄉ ᅢ ᆼᄌ ᅩ ᆫᄇ ᅮ ᆫᄉ ᅥ ᆨ ᄀ ᅧ ᆯᄀ ᅪᄅ ᅳ ᆯ ᄌ ᅦᄉ ᅵᄒ ᅡᄀ ᅩᄌ ᅡ ᄒ ᅡ ᆫ ᄃ
ᅡ. ᄋ ᅧᄀ ᅵᄉ ᅥ ᄀ ᅪ ᆫ ᄉ ᅵ ᆷᄉ ᅡᄀ ᅥ ᆫᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄉ ᅢ ᆼᄌ ᅩ ᆫ ᄉ ᅵᄀ ᅡ ᆫᄋ ᅳ ᆯ ᄉ ᅮ ᄒ ᅪ ᆨ ᄉ ᅵᄀ ᅡ ᆫ (ᄎ ᅡ ᆨᄀ ᅪᄇ ᅮᄐ ᅥ ᄉ ᅮ ᄒ ᅪ ᆨ ᄁ ᅡᄌ ᅵᄋ ᅴ ᄉ ᅵᄀ ᅡ ᆫ)ᄋ ᅳᄅ ᅩ ᄌ ᅥ ᆼᄋ ᅴᄒ ᅡᄀ ᅩ ᄀ ᅨᄉ ᅡ ᆫ ᄃ ᅬ ᆫ ᄉ
ᅮ ᄒ ᅪ ᆨ ᄉ ᅵᄀ ᅡ ᆫᄋ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅢ ᄐ ᅩ ᆼ ᄉ ᅡ ᆼᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄀ ᅩᄅ ᅧᄃ ᅬᄂ ᅳ ᆫ ᄒ ᅪ ᆫᄀ ᅧ ᆼᄇ ᅧ ᆫᄉ ᅮᄋ ᅵ ᆫ ᄂ ᅢᄇ ᅮᄋ ᅩ ᆫ ᄃ ᅩ, ᄂ ᅢᄇ ᅮᄉ ᅳ ᆸ ᄃ ᅩ, CO2ᄂ ᅩ ᆼ ᄃ ᅩ ᄀ ᅳᄅ ᅵᄀ ᅩ ᄂ ᅮᄌ ᅥ ᆨᄋ ᅵ ᆯᄉ ᅡᄅ ᅣ ᆼ ᄃ
ᅳ
ᆼ ᄀ ᅪ ᆫ ᄉ ᅵ ᆷ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄒ ᅪ ᆫᄀ ᅧ ᆼ ᄋ ᅭᄋ ᅵ ᆫᄋ ᅴ ᄀ ᅳᄅ ᅮ ᆸ ᄇ ᅧ ᆫᄉ ᅮᄋ ᅴ ᄂ ᅮᄌ ᅥ ᆨᄉ ᅮ ᄒ ᅪ ᆨ ᄒ ᅪ ᆨᄅ ᅲ ᆯ ᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄇ ᅵᄆ ᅩᄉ ᅮᄌ ᅥ ᆨ ᄎ ᅮᄌ ᅥ ᆼ ᄀ ᅧ ᆯᄀ ᅪᄅ ᅳ ᆯ ᄌ ᅦᄉ ᅵᄒ ᅡ ᆫᄃ ᅡ. ᄂ ᅡᄋ ᅡ ᄀ
ᅡ, ᄀ ᅡᄉ ᅩ ᆨ ᄒ ᅪ ᄉ ᅵ ᆯᄑ ᅢᄉ ᅵᄀ ᅡ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄀ ᅪ ᄇ ᅥ ᆯᄌ ᅥ ᆷᄒ ᅪ ᄀ ᅡᄂ ᅳ ᆼ ᄃ ᅩᄅ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄉ ᅢ ᆼᄌ ᅩ ᆫ ᄉ ᅵᄀ ᅡ ᆫᄋ ᅦ ᄌ ᅮ ᆼ ᄋ ᅭᄒ ᅡ ᆫ ᄋ ᅧ ᆼᄒ ᅣ ᆼᄋ ᅳ ᆯ ᄌ ᅮᄂ ᅳ ᆫ ᄋ ᅭᄋ ᅵ ᆫᄋ ᅳ ᆯ ᄎ ᅡ ᆽᄀ ᅩᄌ ᅡ ᄒ
ᅡ ᆫᄃ ᅡ. ᄇ ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄇ ᅥ ᆯᄌ ᅥ ᆷᄒ ᅡ ᆷᄉ ᅮᄅ ᅩᄉ ᅥ LASSO, ALASSO, SCAD, HL (hierarchical likelihood)ᄋ ᅳ ᆯ ᄉ ᅡ ᄋ
ᅭ
ᆼ ᄒ ᅡ ᆫᄃ ᅡ. ᄎ ᅮᄀ ᅡᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄂ ᅦ ᄀ ᅡᄌ ᅵ ᄇ ᅥ ᆯᄌ ᅥ ᆷᄒ ᅪ ᄇ ᅧ ᆫᄉ ᅮ ᄉ ᅥ ᆫᄐ ᅢ ᆨ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅦ ᄄ ᅡᄅ ᅳ ᆫ ᄋ ᅨᄎ ᅳ ᆨ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅴ ᄉ ᅥ ᆼᄂ ᅳ ᆼᄋ ᅳ ᆯ ᄑ ᅧ ᆼᄀ ᅡᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ.
ᄌ
ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄀ ᅡᄉ ᅩ ᆨ ᄒ ᅪ ᄉ ᅵ ᆯᄑ ᅢᄉ ᅵᄀ ᅡ ᆫ ᄆ ᅩᄒ ᅧ ᆼ, ᄇ ᅥ ᆯᄌ ᅥ ᆷᄒ ᅪ ᄀ ᅡᄂ ᅳ ᆼ ᄃ ᅩ, ᄉ ᅮ ᄒ ᅪ ᆨ ᄉ ᅵᄀ ᅡ ᆫ, ᄉ ᅳᄆ ᅡᄐ ᅳᄑ ᅡ ᆷ, ᄋ ᅨᄎ ᅳ ᆨ ᄑ ᅧ ᆼᄀ ᅡ.
1. 서론 ᄎ
ᅬ근 우리나라 농업환경은 농촌인구 감소와 고령화, 기후변화로 인한 생산성 불균형 및 자유무역협 저
ᆼ (FTA) 체결 등 급격한 변화를 접하고 있다. 이런 시점에서 4차 산업혁명 기술 융합과 혁신의 일안 ᄋ
ᅳ로 빅데이터와 사물인터넷 (IoT)을 활용하여 비닐하우스나 축사에 정보통신기술 (Information and Communications Technology; ICT)의 접목을 통해, 원격 또는자동으로 작물과 가축의 생육환경을적 저
ᆼ하게 유지하고관리할 수 있는스마트팜 (smart farm)의확산이 이루어지고 있다 (Na 등, 2017; Lee ᄃ
ᅳᆼ, 2020). 스마트팜은 SmartFarm 사이트 (https://www.smartfarmkorea.net)에서 참고한 Figure 1.1에서와 같이 PC 또는모바일을 통해 온실 내부 온도와 내부습도, 이산화탄소 (CO2) 농도 등을모니 ᄐ
ᅥ링하고 창문개폐, 영양분 공급 등을 원격자동으로 제어하여 재배하는작물생육정보와환경정보에 대 ᄒ
ᅡᆫ 데이터를기반으로 최적 생육환경을유지관리하고 있다. ICT를 접목한 스마트팜이 보편적으로 확 ᄉ
ᅡᆫ되면 노동과 에너지 등 투입 요소의 최적 사용을 통해 우리 농업의 경쟁력을한층 높이고, 미래 성장 ᄉ
ᅡᆫ업으로 견인 가능하다.
ᄇ
ᅩᆫ 논문에서는 농촌진흥청 공동연구사업의 일환으로, 스마트팜 빅데이터로부터 얻은 주별 토마토 ᄉ
ᅮ확시간 자료를 활용하여 생존분석 (survival analysis) 결과를 제시하고자 한다. 여기서 관심사건
†
ᄇ ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ ᄂ ᅩ ᆼᄎ ᅩ ᆫᄌ ᅵ ᆫᄒ ᅳ ᆼᄎ ᅥ ᆼ ᄀ ᅩ ᆼᄃ ᅩ ᆼᄋ ᅧ ᆫᄀ ᅮᄉ ᅡᄋ ᅥ ᆸ(ᄉ ᅦᄇ ᅮᄀ ᅪᄌ ᅦᄇ ᅥ ᆫᄒ ᅩ: PJ015361012020)ᄋ ᅴ ᄌ ᅵᄋ ᅯ ᆫ ᄋ ᅦ ᄋ ᅴᄒ ᅢ ᄋ ᅵᄅ ᅮᄋ ᅥᄌ ᅵ ᆫ ᄀ ᅥ ᆺᄋ ᅵ ᆷ.
1
(48513) ᄇ ᅮᄉ ᅡ ᆫ ᄀ ᅪ ᆼᄋ ᅧ ᆨᄉ ᅵ ᄂ ᅡ ᆷᄀ ᅮ ᄋ ᅭ ᆼ ᄉ ᅩᄅ ᅩ 45, ᄇ ᅮᄀ ᅧ ᆼᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄉ ᅥ ᆨᄉ ᅡᄀ ᅪᄌ ᅥ ᆼ.
2
ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (48513) ᄇ ᅮᄉ ᅡ ᆫ ᄀ ᅪ ᆼᄋ ᅧ ᆨᄉ ᅵ ᄂ ᅡ ᆷᄀ ᅮ ᄋ ᅭ ᆼ ᄉ ᅩᄅ ᅩ 45, ᄇ ᅮᄀ ᅧ ᆼᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄇ ᅡ ᆨᄉ ᅡᄀ ᅪᄌ ᅥ ᆼ.
E-mail: [email protected]
3
(48513) ᄇ ᅮᄉ ᅡ ᆫ ᄀ ᅪ ᆼᄋ ᅧ ᆨᄉ ᅵ ᄂ ᅡ ᆷᄀ ᅮ ᄋ ᅭ ᆼ ᄉ ᅩᄅ ᅩ 45, ᄇ ᅮᄀ ᅧ ᆼᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄋ ᅵ ᆫᄀ ᅩ ᆼ ᄌ ᅵᄂ ᅳ ᆼᄋ ᅲ ᆼ ᄒ ᅡ ᆸᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.
4
(61186) ᄀ ᅪ ᆼ ᄌ ᅮ ᄀ ᅪ ᆼᄋ ᅧ ᆨᄉ ᅵ ᄇ ᅮ ᆨ ᄀ ᅮ ᄋ ᅭ ᆼᄇ ᅩ ᆼ ᄅ ᅩ 77, ᄌ ᅥ ᆫᄂ ᅡ ᆷᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄉ ᅮᄒ ᅡ ᆨ/ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.
Figure 1.1 Schematic diagram of a smart greenhouse https://www.smartfarmkorea.net/contents/view.do?menuId=M01010103
(event of interest)에 대한 생존시간 (survival time)을 수확시간 (harvtime; 착과부터 수확까지의 시 ᄀ
ᅡᆫ)으로 정의하고, 이를 계산하는절차를보이고 각 수확시간에 수확이전의 공변량 중가장 많은영향 ᄋ
ᅳᆯ미치는 공변량을반영하기 위하여 Na 등 (2017)에 의한 시간차이 (time-lag)의 개념을도입해 새로 우
ᆫ변수 (지연변수; lagged variable)를사용하였다. 수확시간에 통상적으로 영향을미치는환경 변수로 ᄉ
ᅥ 내부온도, 내부습도, CO2, 누적일사량 등그룹별 요인의 누적수확 확률에 대한 비모수적 추정 결과 르
ᆯ제시한다. 나아가, 가속화 실패시간 모형 (accelerated failure time model; AFT)의 회귀계수 추정 ᄀ
ᅪ 벌점화 가능도 (penalized likelihood)를이용하여 생존시간에 중요한 영향을주는요인을찾고자 한 ᄃ
ᅡ. 특히 벌점함수 (penalty function)는 LASSO (Tibshirani, 1996), Adaptive LASSO (ALASSO;
Zou, 2006), SCAD (Fan과 Li, 2001), HL (hierarchical likelihood; Lee와 Oh, 2014)을사용한다. 추 ᄀ
ᅡ적으로 네 가지 벌점화 변수 선택 방법에 따른예측모형의 성능도 평가하였다.
보
ᆫ 논문은다음과 같이 구성되어 있다. 2절에서는토마토 분석 자료에 대해 살펴본다. 3절에서는가 ᄉ
ᅩ
ᆨ화 실패시간 모형과 벌점화 가능도 분석 방법을설명하고 4절에서는토마토 자료에 대한 모형 적합 결 ᄀ
ᅪ와 변수 선택 분석결과를살펴본다. 5절에서는변수 선택에 따른 훈련데이터와 평가데이터를이용하 ᄋ
ᅧ 예측모형의 성능을평가하고 6절에서 결론 및 토의를한다.
2. 분석 자료
2.1. 데이터 설명
Table 2.1 Variable description and summary
Variable Description Mean Min Max Missing
value sol Cumulative insolation 1,342.30 348.30 3,644.00 746
TP all Internal temperature all 19.72 8.59 39.60 316
TP daytime1 Internal temperature daytime1 22.50 12.69 45.49 414 TP daytime2 Internal temperature daytime2 17.06 4.28 33.20 408
TP am Internal temperature am 20.79 9.13 34.69 862
TP pm Internal temperature pm 24.97 14.38 39.24 901
TP sunset Internal temperature sunset 20.39 9.57 34.68 906 TP evening Internal temperature am 17.75 8.50 30.95 909 TP night Internal temperature night 16.89 4.14 28.66 859 TP dawn Internal temperature dawn 16.78 2.17 28.93 881
HD all Internal humidity all 83.06 0.36 99.98 312
HD daytime1 Internal humidity daytime1 79.18 0.53 99.97 454 HD daytime2 Internal humidity daytime2 87.61 0.28 100.00 450
HD am Internal humidity am 82.49 0.48 99.99 862
HD pm Internal humidity pm 74.65 0.43 99.99 900
HD sunset Internal humidity sunset 82.92 0.48 100.00 906 HD evening Internal humidity evening 86.87 0.17 100.00 909 HD night Internal humidity night 87.92 0.25 100.00 858
HD dawn Internal humidity dawn 88.77 0.52 100.00 880
CO2 all CO2 all 451.85 0.04 2,696.13 909
CO2 daytime1 CO2 daytime1 425.08 0.06 3,080.57 1,369
CO2 daytime2 CO2 daytime2 481.94 0.04 2,557.61 1,381
CO2 am CO2 am 467.60 0.10 3,219.60 1,367
CO2 pm CO2 pm 399.14 0.04 3,323.65 1,398
CO2 sunset CO2 sunset 386.00 2.00 2,316.30 1,404
CO2 evening CO2 evening 422.40 2.00 1,938.60 1,435
CO2 night CO2 night 486.35 0.04 2,630.18 1,389
CO2 dawn CO2 dawn 529.65 1.72 2,899.12 1,408
house type Greenhouse type: 0=vinyl(864), 1=glass(4,313) 2 local Region: 0=Outside Jangsu (1,044), 1=Jangsu (4,133) 0
보
ᆫ 논문에서 사용된자료는스마트팜 농가로부터 주별 측정된토마토의 생육 및 생장 데이터와 매 분 ᄄ
ᅩ는 매 시간마다 측정된 온실환경 데이터를 1주일을기준으로 통합 (여기서, 일출부터 다음날 일출 ᄌ
ᅥᆫ을 1일로 기준)한 원데이터에서 5108개의관측치와 48개의 변수에서 자료 수집과정 상 결측값이 많은 ᄀ
ᅩᆼ변량 (감우, 평균관수횟수, 공급 EC, 공급 pH, 1그루당 1회 물양, 생장 길이, 엽수, 엽길이, 엽폭, 줄 ᄀ
ᅵ 굵기, 화방높이)을제외하였다. 이는변수선택 시 자료의 손실이 크기 때문이다. Table 2.1는결측값 ᄋ
ᅵ 많은 공변량을제외한 각각 변수의 설명과 자료의 빈도표와 요약표를나타낸 것이다.
2.2. 생존시간 정의 ᄎ
ᅡ
ᆨ과군 (fr gruop), 수확군 (h group)의 화방의 수를 이용해 관심사건에 대한 생존시간 T 를착과부 ᄐ
ᅥ 수확까지의 시간 (단위; week) (수확시간; harvtime)이라 정의한다. 수확시간은착과부터 수확까지 6주가 걸린다고 가정하면 해당 주의 수확군의 화방수와 6주 전의 착과군의 화방수가 같아야 하는것을 ᄋ
ᅵ용하여 식 (2.1)과 Table 2.2와 같이 계산하였다:
T = (6주 전 착과군의 화방수) − (해당 주의 수확군화방수) + 6, (2.1) ᄋ
ᅧ기서, 예를 들어, 6주 전 착과군화방수와 해당 주 수확군화방수가 같으면 T = 6이다.
Table 2.2 Definition of harvest time Week fr group h group harvtime
34 0.9775 . .
35 2.0000 . .
36 2.7275 . .
37 3.6625 . .
38 4.3975 . .
39 5.0000 . .
40 5.6413 0.6663 6.3113 41 6.2825 1.3325 6.6675 42 7.0625 1.8750 6.8525
. . .
2.3. 상관 분석 ᄀ
ᅡ
ᆨ 수확시간에 수확이전의 공변량들 중가장 많은영향을미치는 공변량들을반영하기 위하여 Na 등 (2017)의 시간차이 (time-lag)의 개념을도입해 새로운지연변수 (lagged variable)를다음과 같이 정의 ᄒ
ᅡ였다:
xi의 지연변수 : xi,0, xi,−1, ..., xi,−k, (2.2) ᄋ
ᅧ기서 xi는 i번째 공변량, k (k = 0, 1, ..., K)는 시간차이 (week)이며 본 논문에서는수확시간에 대하 ᄋ
ᅧ 토마토가 개화 후 착과를 지나 수확이 되기까지 평균적으로 10주에서 12주 걸리기 때문에 이를 반 여
ᆼ하여 K = 12로 정하였다. 예를 들어 x1 (누적일사량; sol)의 시간차이가 8주일 때 x1의 지연변수는 x1,−8로 정의하고 8주 전 누적일사량 (sol 8)을의미한다 (Table 2.3).
Table 2.3 Definition of lagged variable of accumulated insolation sol sol 1 sol 2 sol 3 ... sol 10 sol 11 sol 12
1616.86 . . . . . .
1859.24 1616.86 . . . . .
1404.96 1859.24 1616.86 . . . .
1659.28 1404.96 1859.24 1616.86 . . .
1741.22 1659.28 1404.96 1859.24 . . .
1680.16 1741.22 1659.28 1404.96 . . .
1096.42 1680.16 1741.22 1659.28 ... . . .
1263.49 1096.42 1680.16 1741.22 . . .
1250.33 1263.49 1096.42 1680.16 . . .
1329.79 1250.33 1263.49 1096.42 1616.86 . .
1190.02 1329.79 1250.33 1263.49 1859.24 1616.86 . 1167.66 1190.02 1329.79 1250.33 1404.96 1859.24 1616.86 1001.23 1167.66 1190.02 1329.79 1659.28 1404.96 1859.24
. .
.
ᄀ ᅡ
ᆨ 생존시간 T 와 각 공변량 xi의 지연변수들과의 표본상관계수를구하고 가장 표본상관계수가큰지 ᄋ
ᅧᆫ변수를 각 공변량 xi의 최적 지연변수로 선택한다. Figure 2.1 (좌)는 T (수확시간)에 대한 x1 (누 ᄌ
ᅥᆨ일사량)의 최적 지연변수를 구하기 위해 계산한 지연변수들과의 상관계수를 그림으로 나타낸 것이 ᄃ
ᅡ. 누적일사량의 최적 지연변수는 x1,−8이며, 누적일사량의 최적 지연변수와 수확시간의 상관계수는 -0.46이다. 누적일사량이 많을수록수확시간이 짧아지며 이것은 음의 상관성을의미하고 가장 상관성이 ᄏ
ᅳᆫ경우의 시차는 8주이다.
Figure 2.1 Coefficient of correlation between harvest time and accumulated insolation lagged variables (left) and grouping for harvest time based on cumulative insolation before 8 weeks (right)
2.4. 그룹 변수 새
ᆼ존자료의 기초분석은주로 그룹간의 비교가 주관심이다. 그러나 최적 지연변수들은모두 연속형이 ᄆ
ᅳ로 각 농가별 평균평당수확량 (production)이 상위 10개인 농가들을찾아 그 농가들의 최적 지연변 ᄉ
ᅮ들의 평균을기준으로 각 농가의 최적 지연변수가 그 평균이상이면 1, 미만이면 0을부여하였다. 본 노
ᆫ문에서는그 평균을그룹기준평균 (average of group level)이라고 한다. Figure 2.1 (우)는수확시 ᄀ
ᅡᆫ에 대한 최적 지연변수 중 8주전 누적일사량 (sol 8)의 그룹기준평균 (선)을 산점도로 나타낸 것이 ᄃ
ᅡ. 그 선을기준으로 왼쪽이 0, 오른쪽이 1을부여 받는다. 여기서 8주전 누적일사량 (sol 8)의 그룹 ᄀ
ᅵ준평균은 1275.89이므로 부여 받는값은 I (sol−8 ≥ 1275.89)이며 I(·)는지시함수이다. 이후 Table 4.2에서 각 최적 지연변수에 대해 그룹기준평균을나타내었고 이 기준평균에 따라 최적 지연 변수의 ᄀ
ᅡ
ᆹ을부여하였다.