A Study on Basalization of the Classification in Mountain Ginseng and Plain Ginseng Images in Artificial Intelligence Technology for the Detection of Illegal Mountain Ginseng

(1)

불법 산양삼 검출을 위한 인공지능

기술에서의 산양삼과 인삼 이미지의 분류 기저화 연구

A Study on Basalization of the Classification in Mountain Ginseng and

Plain Ginseng Images in Artificial Intelligence Technology for the

Detection of Illegal Mountain Ginseng

박수경†_⋅_나호준_⋅_김지혜 오상테크놀로지 요 약 본 연구는 인삼과 산양삼에 대해 아무런 정보가 없는 초보 소비자가 인삼을 산양삼이라 여기는 사기 상황을 방지하는 차원에서 산양삼 형태에 대한 기저수준을 확립하려했다. 이를 위해 연구자들은 소비자가 스마트폰의 전용 APP으로 인삼을 촬영하면 그 사진이 원격으로 전송되어, 기계학습데이터를 기반으로 판별한 결과가 소비자에게 전송되는 서비스디자인을 고안했다. 연구과정에서의 데이터 셋과 소비자들이 스마트폰을 통해 촬영했을 때의 배경색, 산양삼의 위치, 크기, 조도, 색온도 등과의 차이를 최소화 하기 위해 소비자 용 전용 촬영 박스를 디자인 했다. 이에 따라 산양삼 샘플 수집은 디자인된 박스와 동일한 통제된 환경과 세팅 하에서 이루어졌다. 이를 통해 기계학습에서 통상 필요한 것 보다 약 1/10이 적은 샘플을 사용해 CNN(VGG16)모델에서 예측 확율 100%를 얻었다. ■ 중심어 : 산양삼, 인공지능, 기계학습, 이미지 분석, 합성곱 신경망 Abstract

This study tried to establish a base level for the form of ginseng in order to prevent fraud in which novice consumers, who have no information on ginseng and mountain ginseng, regard ginseng as mountain ginseng. To that end, researchers designed a service design in which when a consumer takes a picture of ginseng with an APP dedicated to a smartphone, the photo is sent remotely and the determined results are sent to the consumer based on machine learning data. In order to minimize the difference between the data set in the research process and the background color, location, size, illumination, and color temperature of the mountain ginseng when consumers took pictures through their smartphones, the filming box exclusively for consumers was designed. Accordingly, the collection of mountain ginseng samples was made under the same controlled environment and setting as the designed box. This resulted in a 100% predicted probability from the CNN(VGG16) model using a sample that was about one-tenth less than widley required in machine learning. ■ Keyword : Mountain Ginseng, Artificial Intelligence, Machine Learning, Image Detection, CNN(Convolutional Neural Network)

2020년 08월 06일 접수; 2020년 08월 21일 수정본 접수; 2020년 08월 25일 게재 확정.

(2)

Ⅰ

. 연구배경

본 연구는 뺷청정임산물 품질인증 시스템뺸의 일부로써 청정임산물의 재배- 유통-판매-소비의 각 단계에 필요한 사물인터넷, 인공지능, 블록체 인 기술을 수렴-융합해 품질종합인증시스템을 구성하고 이를 이용해 청정임산물의 이력을 관 리하여 소비자에게 신뢰를 얻고 해당 산업을 한 차원 높게 육성시키고자 하는 목표하에 수행되 었다. 산양삼은 국가지정 특별관리대상작물로서 국 가가 종자를 배양해 승인된 재배자에게 보급하 며, 생산 및 유통과정에서 뺷임업 및 산촌 진흥촉 진에 관한 법률뺸 등의 법적근거에 따라 국가의 관리를 받도록 하고 있으며, 이에 따라 산양삼 유통과정에서 생산자들로 하여금 품질합격증을 필수 부착하도록 하고 있다. 하지만 현 합격증 은 한차례 디자인을 갱신했음에도 불구하고 인 쇄업자 등에 의한 위변조 위험에 노출되어 있으 며 인삼이나 중국산 산양삼에 합격증을 부착해 판매하는 행위를 원천 차단하기에는 제도와 기 술 측면에서 미흡하다고 평가 받고 있다. 더불 어 산양삼 구입단계의 소비자는 스스로 산양삼 을 감정할 전문가적 지식이 없어 시판중인 산양 삼들을 신뢰하지 못하고 있다. 이와 같은 문제를 해결하기 위해서는 일차적 으로 산양삼 상자 패키지에 부착된 합격증의 인 쇄과정을 까다롭게 해 불법행위를 더 어렵게 만 들 수는 있으나, 이는 개별 뿌리에 대해서는 여 전히 정품 인증이 불가능한 미봉책으로 근본적 으로는 더 선진적인 기술을 이용하여 소비자가 산양삼의 진품 여부를 판별할 수 있도록 하는 방안이 필요하다. 이에 우선적으로는 블록체인을 이용한 산양 삼의 이력추적 시스템을 마련하고, 이에 더불어 스마트폰으로 산양삼을 촬영하면 인공지능을 이용하여 1. 인삼이 아닌 산양삼인지의 여부, 2. 외국산 삼인지의 여부, 3. 삼의 연근(나이) 데이 터를 제공해 정품 여부를 알려주는 기술을 연구 하여 사업화 하기로 하였고, 기계학습 기법을 이용한 산양삼 이미지 분류 모델의 연구개발을 추진하였다.

Ⅱ

. 연구대상 분석 및 데이터 수집

2.1 사전연구 본 연구는 순수 이론적 연구가 아닌 산업적 실시를 목표로 한 것으로, 실제 유통되고 있는 산양삼의 특징을 파악하는 것이 우선적으로 요 구되었다. 이 연구과정에는 이미지 기계학습의 라벨링을 위한 적절한 샘플을 특정하는 단계로 써 생산-유통을 포함한 산양삼 산업의 특징 연 구가 포함되어 있다. 사전연구와 데이터 수집 단계를 거치며 중국 돼지열병과 코로나19상황으로 인하여 다양한 모델 개발을 위한 데이터 수집에 어려움이 발생 했으며, 또한 산양삼 상품의 신뢰를 위해 필요 한 규격화, 표준화가 기존에 알려진 산양삼의 기준과는 달리 이루어져 있지 않음이 드러나, 이와 같은 문제들을 해결하기 위해 현재 연구단 계에서 필요한 산양삼 형태의 기저수준을 확립 하는 것으로 연구의 범위를 설정했다. 산양삼 산업은 국가가 전략적으로 관리한다 는 측면에서 홍삼의 상품화 초기 단계와 유사하 다. 연구자들은 사전연구과정에서 한국임업진 흥원의 해당 업무 담당자에게 다음과 같이 산양 삼 산업의 전반적인 특성을 청취하고 이를 브랜 드 차원에서 파악했으며 현산업의 위기와 기회 를 분석해 경쟁 전략을 마련했다. 연구의 사업성과 경제성 분석을 위해 2019년 현재 전세계 산양삼 시장 규모를 <표 3>과 같이 약 1,200억원으로 추산했다. 이는 인삼의 1/16에 해당하며 인삼과 단순 무게 비교시 산양삼이 상 대적으로 고부가가치 작물임을 의미한다.

(3)

홍삼 (협력적 경쟁제품) 산양삼 (한국삼 경쟁 전략 대두) 특성 ㆍ공기관 중심의 선도적 제품 육성 ㆍ고도의 가공-생산-유통 관리로 신뢰 ㆍ재배기간 상대적으로 길고 재배 어려움 ㆍ재배시 토양조사-승인-종자등록-재배관리 브랜드 ㆍ국내외 강력한 브랜드 형성 ㆍ품질과 신뢰 높음 ㆍ국내외 브랜드 파워 낮음 ㆍ품질은 높고 신뢰는 낮음 위기와 기회 1. 2020년 한-중 FTA에 따라 중국삼 국내 공세 예정. 미국삼, 중국삼 국제 경쟁 가속 2. 제4차산업혁명 시대 세계적인 농산물 이력관리 가속 경쟁 전략 체계적이고 과학적인 생산재배 및 유통관리로 산양삼은 물론 전체 한국삼의 차별적 우위 획득 <표 1> 홍삼 대비 산양삼의 경쟁 전략 번호 항목 수치 비고 1 국내 산양삼 임가[1] 2,713가구 2011∼2017 누계 2 2018 현재 산양삼 신고 재배면적[1] 3천2백만평 여의도 면적의 36배 3 2018 국내 산양삼 생산량[1] 130,191kg 약 13톤 4 2018 국내 산양삼 생산액[1] 409억원 5 산양삼 근당 평균 무게[2] 5∼10g 6년근 이상 6 2017 산양삼 제외 인삼류 해외 수출액[3] 1,772억원 수입 39억원 7 농산물 수출 중 인삼류 차지 비율[3] 2.6% 수입증가 8 연간 세계 인삼 총생산량[4] 8만톤/연간 2013년 기준 9 세계 인삼 생산량 주요 국가 비중[4] 한국34% 주요 4개국 95% 10 세계 인삼 연평균 시장 성장률[4] 8% 11 2015년 이후 세계 인삼류 수요[4] 2조원 상회 전망 12 전세계 농산물 시장 규모[5] 8천조원 연간 <표 2> 산양삼 시장 규모 산출을 위한 근거 항목 수치 비고 산출방식 산양삼의 세계 시장 규모 1,200억원 인삼대비 _1/16 Ⓐ 한국의 연간 인삼 생산액은 11에 대해 <표 2>의 9번 항목을 계산하면 6천8백 억원이므로, 2018 국내 산양삼 생산액의 16배 수준 Ⓑ 산양삼의 국가별 생산량이 국가별 인삼 생산량의 비율과 정비례 한다고 가정 했을 때, <표 2>의 8번에 대한 3번의 비율을 Ⓐ를 이용 해 계산하면 약 1/3이 되므로, 4번 X 3 = 약 1,200억원 <표 3> 세계 산양삼 시장 규모 산출 구분 2012 2013 2014 2015 이용량 비중 이용량 비중 이용량 비중 이용량 비중 합계 26,057 100 21,968 100 20,978 100 21,043 100 <표 4> 인삼 용도별 이용 현황[3] 단위: 톤, %

(4)

사전연구과정에서 산양삼이 인삼에 비해 성 분의 비가 높다는 것을 아래의 표 5와 같이 확인 하였다. 또한 가공 없이 섭취하는 것이 가장 효 능이 좋다고 알려져 있음과 함께 홍삼과 같이 특별한 가공을 거치지 않고 대부분 뿌리 그대로 판매⋅소비되고 있는 시장상황을 전문가 인터 뷰로 조사하였는데, 이는 가공되지 않은 산양삼 형태를 기계학습하는 본 연구의 성과가 대부분 의 산양삼 제품에 적용될 수 있다는 것을 의미 한다. 사전연구의 재배 전문가 인터뷰 과정에서는 상품성을 얻기 위한 재배 기간이 1∼2년 걸리는 인삼과 달리 산양삼은 5∼8년이 소요되므로 인 삼에 비해 생산량이 적고 가격도 상대적으로 높 다는 것을 확인할 수 있었다. 또한 이에 따라 산 양삼 재배자들은 현재의 합격증(150원) 가격에 구애 받지 않고 산양삼의 신뢰와 브랜드력을 높 일 수 있는 방안을 요구하고 있으며, 누구나 손 쉽게 산양삼의 품질을 검증 할 수 있는 서비스 를 요청하였다. 산양삼과 인삼의 사포닌(진세노사이드) 성분 (단위: mg/g) 성분 효능.효과 산양삼 인삼 비교 Rb1 중추신경억제. 해열진통억제,간기능보호 61.96 0.928 66.7배 Rb2 항당뇨, 항동맥경화 111.41 0.331 345.3배 Rc 단백질 및 지밀 합성촉진 1.04 0.604 1.7배 Rd 부신피질호르몬 분비촉진 20.71 0.238 87배 Re 간보호, 암종양, 열소판 응집억제 228.98 0.442 518배 Rg1 학습기능개선, 항피로 116 1.020 113.7배 Rg2 혈소판응집억제, 인지기능개성 5.69 0.072 79배 <그림 1> 불법 산양삼 재배-유통 현장 및 위조 합격증 적발 사례[7] <그림 2> 불법 산양삼 재배-유통 사례[8] <표 5> 산양삼 성분 분석[6][7]

(5)

국가와 민간의 전문가들은 인삼류를 포함한 국제 산양삼 시장이 중국, 미국, 캐나다 삼의 경 쟁으로 치열한 상황이며 이미 국내 인삼류 내수 시장은 해외삼에 의해 잠식된 상태로 한국을 대 표하는 해외 수출 주력 상품인 인삼류 및 산양 삼의 종합적 품질인증 방안을 이구동성으로 요 청하였다. 특히 한국임업진흥원은 인삼을 산양 삼으로 속여 팔거나, 중국산을 국산으로 둔갑시 켜 판매하는 등의 불법 산양삼 재배-유통에 대 처하여 산양삼의 신뢰를 획득할 수 있는 기술의 연구개발을 필요로 했다. 본 연구는 산양삼 관리기관인 한국임업진흥 원으로부터 수집된 산양삼의 외형적 특징에 대 해 분석한 후 분류(Labeling)를 거쳐 기계학습을 통해 모델화 하는 과정에서 일차적으로 인삼과 산양삼의 특징을 컴퓨터에 기계학습 하도록 했 다. 국산-외산 구별을 위한 이미지 분석은 향후 장기간 연구의 목표로 설정했다. <그림 3> 산양삼의 형태와 구조[9] 그림 3은 산양삼의 형태와 구조를 나타낸다. 시판중인 산양삼에서 그림과 같은 꽃(열매)를 발견하기는 쉽지 않았다. 이는 채종 시기와도 관련 있지만 한편으로는 재배자들이 꽃(열매)를 별도 채집해 개별 상품으로 가공하거나 하는 경 우가 있기 때문이다. 또한 시판중인 산양삼에 잎이 붙어서 나오는 시기는 통상 5월∼7월에 채 종한 경우에 한하는 것으로 조사되었다. 한국임 업진흥원이 제시하는 산양삼의 연근별 크기는 그림 4와 같다. 사진상으로는 15cm 길이의 볼펜 과 비교했을 때 판매가 많은 연근인 5∼8년근의 경우 몸통의 길이는 약 3∼6cm이며 25년 이상 인 경우에도 몸통의 길이는 큰 차이가 없는 것 을 알 수 있다. <그림 4> 산양삼의 연근별 크기[2] 2.2 서비스디자인 본 연구는 그림 5와 같이 소비자가 산양삼을 촬영해면 APP이 인공지능으로 판별하기 위해 <그림 5> 산양삼 판별 서비스디자인

(6)

<그림 6> 인공지능 산양삼 분석용 촬영 박스> 원격으로 전송하고, 원격에서 기계학습을 통해 저장된 학습데이터를 기반으로 판별해 소비자 에게 전송하는 서비스디자인을 고안했다. 이와 같은 서비스를 위하여 데이터 수집 및 데이터 셋 구성 과정에서의 산양삼 촬영과 소비 자들이 스마트폰을 통해 촬영했을 때의 배경색, 산양삼의 위치, 크기, 조도, 색온도 등의 차이를 최소화 해 서비스의 신뢰도를 높이고자 그림 5 와 같은 형태의 인공지능 산양삼 분석을 위한 산양삼 인삼(가삼) 작다(5g 내외). 잎색깔이 연한 녹색이다. 뇌두가 잘 보인다. 모양이 다양하다. 몸통이 거칠다. 잔뿌리가 길고 질기다 크다(6년근 보통 70∼80g) 외관부분이 잎 색깔이 산양삼 대비 짙다. 뇌두가 잘 안 보인다. 사람 모양이다. 몸통이 매끈하다. 잔뿌리가 짧다

산양삼 (한국)Wild/simulated ginseng 전칠삼,삼칠삼(중국)Panax bipinnatifidus 화기삼(미국, 캐나다)Panax trifolius 뇌두가 조밀하고 몸통의 주름은 선 명하며 약통과 뿌리는 황금색, 뿌리 가 길고질김 몸통이 울퉁불퉁하고검은색을 띄고 있음 고려인삼에 비하여 주근(뿌리)이 짧 고 단순한형상을 가지고 있음 뇌두 개수(마디) 연근 잎의 개수와 구성 8개 10년근 5매 장상복엽 4개 7∼9년근 5매 장상복엽 3개 4개 6년근 5매 장상복엽 2개 3개 5년근 2개 4년근 1개 3년근 2년근 5매 장상복엽 1개 1년근 3매 장상복엽 1개 <표 7> 산양삼의 연근 판단 기준[7] <표 6> 산양삼의 특징[7]

(7)

전용 촬영 박스를 디자인 했다. 또한 샘플 수집 은 디자인된 박스와 동일한 통제된 환경과 통제 된 스마트폰 카메라 세팅 하에서 이루어 졌다. 이러한 장치의 구성과 촬영방법을 통해 기계학 습에서 통상 필요한 약 1,000건이 넘는 샘플을 약 1/10수준으로 줄일 것으로 예상했고 이는 기 계학습 결과 산양삼 예측 확율 100%의 수치를 보이며 적중했다. 2.3 데이터 수집 연구자들은 데이터 수집단계에서 한국임업진 흥원의 전문가들과 공동으로 현장 재배-유통 전 문가를 인터뷰 했다. 이 결과 표 7과 같은 통상 의 연근의 판단기준인 뇌두의 개수와 잎의 구성 은 재배현장의 결과와는 동떨어진 비현실적 기 준이며, 산양삼 주근 또한 표 6에 나타난 것과는 달리 재배자의 밭같이 등의 재배방법, 개별 근 이 심어진 재배지의 미세한 일조량과 습도 등의 환경, 미세한 토양의 성분은 물론 야생동물의 배설물 등의 국소적인 토양조건 등에 따라 다양 한 크기와 모양을 갖는 것이 확인 되었다. 그림 7은 동일한 농장에서 재배된 6년근 산양 삼을 비교한 것으로 상단에 놓인 것들의 경우 주근의 굵기 및 크기가 만년필과 비슷한 정도로 크며 줄기 역시 길다. 해당 농장의 재배자는 하 단의 것들이 비교적 통상 온라인 상에서 가장 많이 유통되는 사이즈라 했다. <그림 7> 동일한 농장에서 재배한 6년근 산양삼 이와 같은 산양삼 형태와 품질의 비표준화 실 정에 대응하고자 산양삼과 인삼에 대한 비교 연 구에서는 시판중인 5∼8년산 산양삼의 재배지 환경, 재배방법, 토양조건 등을 평준화 할 수 있 는 요인으로 복수의 재배 지역을 선정하여 샘플 수집한 뒤 수집된 샘플을 랜덤하게 기계학습 하 여 향후 장기간의 연구에서 필요한 산양삼 형태 의 기저수준을 확립하고자 하였다. 한편 산양삼의 나이(연근) 판단 모델은 연구 대상에서 제외하였는데, 이는 블록체인 데이터 를 이용해 해당 삼의 재배 유통 단계에서 생산 자가 미리 입력한 연근 정보를 소비자에게 제시 하는 것이 서비스디자인적으로 무리가 없는 것 으로 연구되었기 때문이다. 본 연구에서 인터뷰한 산양삼 재배 농가 중 한 곳은 한국임업진흥원으로부터 추천 받은 곳 이었는데, 해당농가는 다른 많은 산양삼 재배자 들이 인삼밭에서 기른 1∼2년근을 산양삼 재배 지에 옮겨 심어 추가로 2∼3년 재배해 산양삼이 라고 판매하는 경우가 있고, 전문가의 경우는 이를 육안으로 판별 가능하다고 밝혔다. 이와 같은 정보를 샘플 수집을 위해 접촉한 다수의 인삼 및 산양삼 재배자들에게 확인 결과 대부분 그것이 불법이지만 사실상 널리 퍼진 관행이라 고 밝혔다. 이에 따라 연구자들은 산양삼 재배 지에 옮겨 심어 2∼3년 재배한 불법산양삼 샘플 을 한국임업진흥원과 다수의 생산자들에게 요 청했으나 이들은 모두 그러한 샘플 제공에 난색 을 표하거나 거부했다. 한편 현재 온라인에서 판매중인 1∼3년근 새 싹삼은 하우스, 노지재배 등 다양한 재배 방식 이 존재하며 싼 값에 채소처럼 대량 소비되고 있다. 향후 산양삼 5∼8년근과 가장 외형이 유 사한 새싹삼 1∼3년근을 대상으로 이미지 분석 을 하는 것이 적합하나 이 경우 또한 산양삼 주 근의 크기의 평준화 연구가 선결되어야 할 것 이다.

(8)

연구자들은 상기와 같은 연구 제한사항과 서 비스디자인의 설계로 인해 본 연구에서 가짜 산 양삼 혹은 불법 산양삼 유통을 잠정적으로 ‘옮 겨 심지 않은 보통의 인삼을 산양삼으로 속여파 는 행위’로 한정하였다. 현행 인삼산업법은 물론 한국인삼공사(KGC), (사)한국인삼연합회 등이 공통적으로 정의하고 있는 인삼의 분류는 다음과 같다. 연구자들은 대부분의 산양삼이 가공 없이 뿌리 채 유통되는 점을 감안하여 이 기준을 유일하게 충족하는 수 삼(水蔘)을 산양삼과 비교 연구 대상으로 선택 하였다. 1. “인삼”이란 오갈피나무과(科) 인삼속(人蔘屬) 식 물을 말한다. 2. “수삼”(水蔘)이란 말리지 아니한 인삼을 말한다. 3. “홍삼”(紅蔘)이란 수삼을 증기나 그 밖의 방법으 로 쪄서 익혀 말린 것으로서 농림축산식품부령으 로 정하는 색상을 띠는 것을 말한다. 4. “태극삼”(太極蔘)이란 수삼을 물로 익히거나 그 밖의 방법으로 익혀서 말린 것으로서 농림축산식 품부령으로 정하는 색상을 띠는 것을 말한다. 5. “백삼”(白蔘)이란 수삼을 햇볕⋅열풍 또는 그 밖 의 방법으로 익히지 아니하고 말린 것을 말한다. 6. “그 밖의 인삼”이란 수삼을 원료로 하여 제조한 것(제3호부터 제5호까지에 해당하는 것은 제외한 다)으로서 농림축산식품부령으로 정하는 것을 말 한다. 산양삼 생산자인 평창산삼마을영농조합법인 은 사전연구를 위한 인터뷰 시 수삼(말리지 않 은 삼)인 인삼은 대부분 1∼6년근이 판매되고있 다 하였으며 이와 같은 인식은 다음의 통계자료 를 잘 반영하였다. 계 2년근 3년근 4년근 5년근 6년근 14,832 2,977 3,351 3,178 2,533 2,793 <표 8> 2017년 인삼 연근 별 경작 동향[10] (단위: ha.) 조사 결과[11] 인삼은 6년 이상 자라면 성장 이 더디어 지고 노년기에 들어서 표피가 목질화 되어 딱딱해 지며, 가공시 품질이 떨어지고, 4년 근 까지가 사포닌 함량이 최고다. 다른 조사[12] 에 따르면 4년근 인삼의 외형적 특성은 전체길 이 약 23∼29cm, 몸통 약 8∼10cm, 몸통 지름은 약 2cm다. 그러나 다음 사진과 같이 4년근 인삼 은 육안으로 보기에 산양삼보다 훨씬 크기에 산 양삼에 대한 사전 정보가 있는 소비자의 경우 4 년근 이상의 인삼을 산양삼으로 속아 구매하는 일은 쉽지 않을 것임을 알 수 있다. <그림 8> 4년근 인삼 즉 모든 크기의 인삼을 이미지 분석하는 것은 부적합하며, 통상 산양삼과 유사한 크기의 인삼 을 대상으로 분석하는 것이 적합하다. 다만 인 삼을 산양삼으로 속여 파는 행위는 산양삼과 인 삼에 대한 정보가 거의 없는 초보자에게도 일어 날 수 있으므로 본 연구에서는 시판중인 평균적 인 산양삼 크기를 선정하고 이와 가급적 비슷한 크기의 시판중인 인삼을 샘플로 선택하여 이를 기계학습을 통해 구분하도록 하였다. 한편 중국산 산양삼에 대한 조사[13]에 따르 면 인삼은 뇌두가 거의 없고 산양삼은 뇌두가 길기 때문에 쉽게 구분된다. 그러나 뿌리의 길 이는 명확히 구분되지 않는다. 상세한 평균치는 표 9와 같다. 상기의 연구 결과는 중국산양삼의 경우 국산 인삼과 크기가 비슷하나 뇌두의 평균길이는

(9)

구 분 뿌리평균길이 뇌두평균길이 한국산양삼 145mm 13.9mm 산삼(화천) 160mm 10.8mm 중국산양삼 220mm 18.8mm 인삼 233mm 0mm ※ 산양삼 8년근, 인삼 5년근, 중국산양삼 8년근 <표 9> 산양삼, 중국산양삼, 인삼 뿌리 및 뇌두의 평균 크기 0mm로 기계학습을 통해 연구시 의미 있는 결과 를 나타낼 것을 예상 할 수 있게 한다. 그러나 연구자들은 농수산물시험연구원 확인 결과 백 두산 근처 길림성에서 주로 재배되는 중국산 산 양삼은 2019년 가을 이후 중국돼지열병 및 잇따 른 코로나19 사태로 인해 2020년 현재는 물론 향후 상당 기간 샘플 데이터를 구할 수 없으며, 미국산 삼에 대해서도 마찬가지 상황으로 현재 관련 연구가 잠정 불가하다는 것을 확인하였다. 이에 따라 해당 인공지능 모델은 연구 대상에서 제외하였지만 향후 연구를 위한 환경이 허락되 면 재개할 계획이다. 산양삼과 같이 인삼 역시 재배지에 따른 형태 적 특징이 발견될 수 있다. 그 예로 금산군청 홈 페이지의 금산 인삼 소개[14]의 경우 금산 인삼 은 몸체가 길고, 단단하며 색이 희다고 명시하 고 있고 이는 검증이 필요하다. 따라서 국내산 인삼 또한 향후 재배지역에 따른 외형적 특성을 모델링에 포함하는 것이 적합하다. 현재 우리나 라의 인삼은 위도 36도∼38도 사이의 충남-경북 권 이북에서 대부분 재배되며 온난화로 인해 꾸 준히 북상중이다. 2015년 인삼 재배면적을 도별로 고려하면 대 표적으로 경기, 강원, 충북, 전북 을 선정할 수 있으며, 이는 산양삼 또한 유사하기 때문에 장 기적으로 이들 지역에 대한 산양삼과 인삼의 특징을 학습하는 것이 필요하다. 하지만 본 연 구는 앞서 언급했듯 산양삼 형태의 평준화된 결과를 기저수준으로 하여 향후 후속연구를 통 해 보다 상세한 하부 모델로 분화해 나아가는 방향을 채택하였다. 즉 본 연구에서는 기계학 습을 통해 산양삼의 지역별 차이가 없어지는 것이 관찰되도록 여러 지역의 산양삼 샘플을 랜덤한 순서로 학습시켰으며 인삼은 단일 지역 의 것을 사용했다. <그림 9> 인삼의 재배지역][15] <그림 10> 산양삼 재배지역][16]

(10)

Ⅲ

. 기계학습

3.1 데이터 셋 구성 앞서 살펴본 바를 적용하여 다음과 같이 산양 삼 샘플에 대해 데이터 셋을 구성하였다. 산양 삼은 채종 시기에 따라 줄기 및 잎이 붙은채로 출하되는 경우와 그렇지 않은 경우가 있으므로 잎을 제외한 노두까지만 분석하였다. 이에 따라 인삼은 노두까지 붙어 있는 상태를 대상으로 데 이터를 구성하였는데, 시판중인 대부분의 인삼 은 노두가 붙어 있었다. 지역 종류 연근 개수 강원도 산양삼 5∼8년근 30개 충북 산양삼 5∼8년근 30개 전북 `산양삼 `5∼8년근 40개 재배방식 종류 갯수 인삼밭 인삼(수삼) 1∼3년근 140개 <표 10> 산양삼 및 인삼의 데이터셋 구성 위와 같이 기계학습에 사용한 인삼(140개)과 산양삼(100개) 데이터는 총 240개이다. 인삼은 잔뿌리가 적고 산양삼은 잔뿌리가 많다. 그리고 인삼은 대개 몸통 부분이 길게 나타나지만 산양 삼은 몸통이 짧다는 육안상으로 학인 가능한 특 징이 있다. 이는 인삼의 경우 세척과정을 통해 잔뿌리가 붙은 채로 유통되지 않는다는 실제 산 업장면의 현실을 반영한 것이다. 다시 강조하면 본 연구는 인삼과 산양삼에 대해 아무런 정보가 없는 초보 소비자가 가장 보통의 인삼을 산양삼 으로 속아 구매할 수 있는 상황, 즉 시장상황을 고려해 가장 기초적이고 쉬운 속임수가 일어나 는 상황을 상정하고 이를 방지하는 차원에서 통 상의 산양삼 형태에 대한 기저수준을 확립하는 것에 한정된다. 또한 본 연구에서는 촬영 환경의 균일한 배경 과 조도를 유지하였으며, 카메라의 설정에서도 균일한 구도와 화각, 표 11과 같이 균일한 조리 개 개방값, 셔터스피드, 화이트밸런스를 유지하 였다. 특히 서비스 단계에서 소비자들은 스마트 폰을 사용해 산양삼을 촬영할 것이기 때문에 데 이터 수집 단계에서 스마트폰(LGE LM-V500) 을 사용했으며 원래 구성한 촬영환경의 배경은 순수한 흰색에 가까왔지만 다양한 광원환경에 서의 사용자 촬영환경을 고려하여 비교적 밝은 회색 즉 LAB Color Model에서 L값 70/100내외 에 가까운 배경을 얻도록 주변의 광량을 설정했 다. 이와 같은 설정은 앞에서 설명한 바와 같이 통제된 촬영환경을 제공하는 서비스디자인 및 소비자 촬영 보조장치로 구현되어 소비자들에 게 상업적으로 수용 가능한 수준의 보다 높은 이미지 판독율을 제공할 것이다. 기계학습에서 사용할 데이터는 학습 데이터 (Train Data), 검증 데이터(Validation Data), 시험 데이터(Test Data)로 나눈다. 학습데이터는 모델 의 가중치(Weight)를 도출하기 위해 사용되는

(11)

데이터를 의미한다. 검증데이터는 모델 학습과 정 중 모델의 성능을 평가하기 위해 사용되는 데이터로 학습데이터의 일부분을 사용한다. 시 험 데이터는 학습된 모델의 성능을 평가하는 데 이터이다. 데이터를 나누는 비율은 학습 데이터 가 많은 경우 대개 7:3으로 나누고 학습 데이터 가 적은 경우는 8:2로 나눈다. 하지만 이 수치는 정해진 것은 아니고 모델을 테스트하면서 조정 될 수 있다. ⋅학습 데이터 : 인삼(106개), 산양삼(80개), 총 데이터(240개)의 80% ⋅검증 데이터 : 인삼(32개), 산양삼(16개), 학 습데이터(186개)의 20% ⋅시험 데이터 : 인삼(34개), 산양삼(20개), 총 데이터(240개)의 20% 3.2 모델 알고리즘 3.2.1 DNN DNN은 신경망(Neural Network) 알고리즘을 확장한 것으로 다수의 은닉층(Hidden Layer)를 포함하는 인공 신경망알고리즘이다. 비 선형적 인 관계를 데이터에서 찾을 수 있지만 학습을 위해 많은 연산량을 요구하며 예측결과의 변동 이 커지는 과적합(Overfitting) 문제가 생길 수 있다. 최근에는 과적합을 피하기 위해 Drop-Out, ReLU(Rectified Linear Unit) 활성화 함수 등을 사용하여 문제를 방지한다. (1) 신경망 알고리즘은 식 (1)을 이용해 은닉층 각각의 노드의 가중치(weight, w)를 찾는 것이 목표이다. 는 학습율(Learning rate)을 의미하며 가중치 변화량의 패널티를 부과하여 매 스텝마 다 가중치의 변화량을 조정한다. 는 비용함수 (Cost Function)를 의미하며 학습의 형태(지도학 습, 강화 학습 등)와 활성화 함수(Activation Function)에 의해 결정된다. 일반적으로 이미지 인식 및 분류 같은 다중 클래스 분류 문제 (Multiclass Classification)에서는 활성화 함수는 Softmax 함수(식2)를 사용하고 비용함수는 교차 엔트로피 함수(Cross Entropy Function, 식 (3)을 사용한다. (2) (3) DNN 모델의 성능을 결정하는 주요 파라미터 는 노드와 은닉층의 개수이며 파라미터를 변경 하며 데이터에 맞는 모델을 찾는다. 노드와 은 닉층의 개수는 경험적으로 노드와 은닉층의 개 수를 설정하는 휴리스틱(Heuristic, 발견법)1)_기 법으로 찾아야 하며 데이터에 맞는 최적의 노드 와 은닉층의 갯수를 결정하는 수식은 아직까지 존재하지 않는다. 본 실험에서는 은닉층의 개수 가 상대적으로 적은 모델과 은닉층이 많은 모델 을 구성하여 분류 결과를 평가한다. 3.2.2 CNN

CNN(Convolutional Neural Network)2)_{은 얀}

1) 제한된 정보와 시간제약을 고려해 현실적으로 만족할 만한 수준의 해답을 찾는 방법 2) Yann Lecn et al., Efficient BackProp,1998

노출 시간 F스톱 ISO 노출 바이어스 초점 거리 조리개최 대개방 측광 모드 35mm환산 초점거리 밝기 광원 화이트 밸런스 1/614 sec F/1.5 50 0 단계 4mm 1.16 중앙 25 6.56 D55 자동 <표 11> 카메라 설정값

(12)

리쿤 교수가 문자 인식을 위해 제안한 알고리즘 으로 DNN알고리즘에 합성곱층(Convolutional Layer)과 풀링층(Pooling Layer)를 추가한 것이 다. CNN은 컨볼루션 계층과 풀링 계층을 번갈 아가며 수행함으로써 이미지로부터 특징을 자 동으로 추출한다. CNN은 입력 이미지로부터 정 보를 손쉽게 분류하기 위해 저차원의 정보를 고 차원의 정보로 분류하기 때문에 일반적으로 이 미지 인식 분야에서 DNN에 비해 높은 성능을 보인다. 3.3 모델 구조 DNN은 은닉층이 적을 때와 많을 때 2가지 모 델로 구성하고 두가지 모델 모두 Drop-out을 적 용하여 과적합을 방지한다. 은닉층 사이에 활성 화 함수는 ReLU를 사용하며, 출력층의 활성화 함수는 Softmax를 사용한다. CNN은 DNN과 유사하게 은닉층이 적은 모델 과 많은 모델로 구성한다. 은닉층이 적은 모델 은 DNN과 동일하게 노드의 수와 은닉층의 개수 를 구성한다. 은닉층이 많은 모델은 CNN알고리 즘 중 VGG16을 사용한다. VGG16은 CNN알고 리즘을 기반으로 2014년 이미지넷 이미지 대회 에서 준우승을 한 모델이다. 옥스포드 대학의 VGG팀이 개발하였고 층이 16개로 구성되어 VGG16이라 불린다. 이외에도 CNN 알고리즘의 층과 노드의 개수등을 달리한 AlexNet, LeNet-5, ResNet, VGG19 등이 있다.

MODEL NODE LAYER

DNN 1 128 2 DNN 2 128 16 CNN 1 128 2 CNN 2(VGG16) VGG16 구조를 따름 VGG16 구조를 따름 <그림 13> CNN 구조(24*24 이미지 기준) <그림 14> VGG16 구조[17]

(13)

<그림 15> CNN 2(VGG 16) 반복학습에 따른 정확도 변화 <그림 17> CNN 2(VGG 16) 시험데이터(산양삼) 판단결과(1) <그림 19> CNN2(VGG16) 시험데이터(인삼) 판단결과(1) <그림 16> CNN 2(VGG 16) 반복학습에 따른 Loss 변화 <그림 18> CNN 2(VGG16) 시험데이터(산양삼) 판단결과(2) <그림 20> CNN2(VGG16) 시험 데이터(인삼) 판단결과(2)

(14)

DNN1, DNN2, CNN 1 은 노드의 개수를 은닉 층 별 동일하게 적용한 모델이고 CNN 2는 은닉 층별 노드의 개수를 은닉층 별로 상이하게 조절 한 경우이다. 3.4 모델 결과 검증 데이터 정확도는 총 데이터 셋(240개)중 에서 학습에 사용된 48개 데이터에 대한 성능이 다. 시험 데이터 정확도는 총 데이터 셋(240 개) 중에서 학습에 포함되지 않은 54개 데이터에 대 한 성능이다. CNN 2 모델의 결과가 가장 높았 으며 나머지 모델의 결과는 비슷했다. CNN 2 모델은 반복 학습에 따라 정확도가 상승하는 것 을 그림 12를 통해 확인할 수 있다. MODEL 검증 데이터 _정확도 시험 데이터 _정확도 DNN 1 66.7% 42.9% DNN 2 66.7% 57.1% CNN 1 66.7% 57.1% CNN 2(VGG16) 100% 100% 그림 17∼20은 CNN2의 시험 데이터 판단 결 과를 나타낸다. Filename은 시험 데이터 (이미 지) 파일명, Predictions는 모델의 예측 결과, Probability는 예측 결과 확률을 나타낸다. 예를 들어 그림 19를 보면 202000520_160729.jpg이름 을 가진 이미지 파일을 CNN2 모델이 인삼으로 예측했고 확률은 98.66% 라는 것을 알 수 있다. 총 54개(인삼 34개, 산양삼 20개)의 시험 데이터 에 대해 예측결과가 정답과 높은 확률로 100% 일치했다. 하지만 그림 17에서 알 수 있듯 202000608_141326.jpg 이미지 파일(그림 21)은 50.37% 확률로 가까스로 산양삼이라고 예측했 다. 신경망 알고리즘 특성상 왜 확률이 낮은지 에 대한 해석은 어렵다. 다만 학습 데이터가 적 음에도 불구하고 나머지 산양삼에 대한 확률이 <그림 21> 202000608_141326.jpg 높은 것을 고려했을 때 산양삼에 대한 다양한 학습 데이터를 확보한다면 확률은 높아질 것으 로 사료된다. 3.5 결론 모델 결과에서 알 수 있듯이 CNN(VGG 16) 알고리즘을 이용하면 인삼, 산양삼 분류를 높은 성능으로 판단하는 모델을 구축할 수 있음을 확 인했다. 하지만 본 실험에서는 비교적 작은 데 이터 셋(240개)의 대한 결과이고 데이터가 배경 이 일정하고 잘 가공되어 성능이 높은 것으로 사료된다. 따라서 본 모델을 이용하여 실제 산 업에 적용하기 위해서는 가공되지 않은 다양한 데이터 셋을 활용했을 때 모델 결과를 확인해야 하며 실제 산업에서는 가공되지 않은 데이터가 많으므로 이미지 데이터 전처리의 대한 연구가 지속적으로 수행되어야 한다.

Ⅳ

. 향후 과제

연구과정에서 드러난 기존 산양삼 상품 품질 과 규격의 비표준화는 관계기관이나 소비자 뿐 아닌 오랜 기간 산양삼을 재배해 온 재배자들 사이에서도 혼란을 유발하고 있는 상황이다. 향 후 기계학습 기법을 활용한 산양삼과 인삼의 이 미지 분류는 자체의 하위 모델을 정교화하는 것

(15)

뿐 아닌 외국삼과 산양삼의 분류로 확대 되어야 할 것이다. 그러나 먼저 재배자, 소비자, 연구기관 및 관 계기관이 모두 만족할 수 있는 산양삼의 형태와 품질에 관한 합의된 인지가 필요하다. 이러한 절차는 해당 산업을 육성하기위한 공공정책 수 립과 실행이 관 중심의 하향적 방향으로 인식 되어 또 하나의 규제로 작동하는 것이 아닌, 생 산자와 소비자가 중심이 되는 자율적 지식을 증 대시켜 경제적 이익을 극대화하고 산업을 발전 시키는 가능성의 문을 열게 될 것이다. 결과적으로 본 연구는 가장 보편적인 산양삼 상품에 관한 추후 연구의 기저수준을 확보하였 고 추가적인 다양한 대량 샘플 시험을 위한 바 탕을 마련했지만, 향후의 기계학습 연구는 산양 삼 제품의 브랜드 마케팅 연구와 함께 학제 통 합적인 의미에서 동시적이고 다면적으로 행해 지는 것이 필요하다.

참 고 문 헌

[1] 한국임업진흥원 홈페이지 산양삼 재배 현황 [2] 한국임업진흥원 블로그 [3] 인삼 통계자료집 (2017. 농림축산식품부) [4] 인삼산업의 국내외 동향 및 인삼산업 활성화 방안 (2017. 식품가공적성정보센터) [5] 농촌경제연구원 홈페이지 [6] 산양삼과 재배삼의 성분 및 약성 차별화 연구 (2009. 고성권. 세명대학교 한방식품영양학부) [7] 한국임업진흥원 홈페이지 [8] YTN 유투브 채널 [9] 한국임업진흥원 산양삼정보다드림 홈페이지 [10] 산양삼 품질관리와 재배기술 관리현황 (2018. 한국임업진흥원) [11] 수삼의 지역별 연근별 인삼사포닌 함량 비교 (2004. 한국식품과학회지 Vol. 36, No. 5, pp. 847∼850.이충렬. 황인균) [12] 한국인삼유통공사 [13] 산양삼의 생산현황 및 효율적인 관리체계 구축 방안 연구 (2008. 산림청) [14] 금산군청 홈페이지 [15] 1970∼2015 농립어업총조사 (2016. 통계청) [16] 한국임업진흥원 블로그 [17] https://neurohive.io/en/popular-networks/vgg16/

저 자 소 개

박 수 경(Soo-Kyoung Park) ･2008년 2월 숭실대학교 정보 과학대학원 IT지식경영학 (석사) ･2012년 8월 숭실대학교 일반 대학원 IT정책경영학(박사) ･2007년 9월-현재 (주)오상테 크놀로지 대표이사 근무 ･주요관심분야 : IT성과분석 및 전략, 경영정보 (Technical MIS), 블록체인 공공인증, Artificial Neural Network, 빅데이터 모델링

나 호 준(Na Hojun) ･1994-2002 성균관대학교 경영 학부 산업심리학 전공, 동대학 원 인지과학 전공 ･2002-2016 한마음과학원 - 랜 덤머신 중심 컴퓨터과학 및 체 화된 마음 관련 인지발달 연구 ･2017 ㈜넥시스 인공지능 사업부 수석컨설턴트 근무 ･2018-현재 ㈜오상테크놀로지 객원 연구원, 한국 표준협회 경쟁력향상센터 수석전문위원 ･주요관심분야: 4차산업혁명, 인간-기술 상호협 력, 지식의 수렴 및 창발, 체화된 인지, 서비스디 자인

(16)

김 지 혜(Ji-Hye Kim) ･2002년 2월 홍익대학교 역사 교육학과(학사) ･2007년 9월-현재 (주)오상테 크놀로지 상무이사 근무 ･주요관심분야: UI/UX, 청정임 산물, 농수산물, 임업

(17)

부 록

<그림 1> DNN 1반복학습에 따른 정확도 변화 <그림 3> DNN 2반복학습에 따른 정확도 변화 <그림 5> CNN 1반복학습에 따른 정확도 변화 <그림 2> DNN 1반복학습에 따른 Loss 변화 <그림 4> DNN 2반복학습에 따른 Loss 변화 <그림 6> CNN 1반복학습에 따른 Loss 변화