Comparison of Convolutional Neural Network (CNN) Models for Lettuce Leaf Width and Length Prediction

Ji Su Song; Dong Suk Kim; Hyo Sung Kim; Eun Ji Jung; Hyun Jung Hwang; Jaesung Park

doi:10.12791/KSBEC.2023.32.4.434

Preview

Original Articles

Journal of Bio-Environment Control. 31 October 2023. 434-441
https://doi.org/10.12791/KSBEC.2023.32.4.434

Comparison of Convolutional Neural Network (CNN) Models for Lettuce Leaf Width and Length Prediction

상추잎 너비와 길이 예측을 위한 합성곱 신경망 모델 비교

Ji Su Song¹

Dong Suk Kim²

Hyo Sung Kim¹

Eun Ji Jung¹

Hyun Jung Hwang¹

Jaesung Park³^*

송 지수¹

김 동석²

김 효성¹

정 은지¹

황 현정¹

박 재성³^*

¹Undergraduate Student, Department of Bio-Industrial Machinery Engineering, Pusan National University, Miryang 50463, Korea

²Graduate Student, Department of Bio-Industrial Machinery Engineering, Pusan National University, Miryang 50463, Korea

³Assistant Professor, Department of Bio-Industrial Machinery Engineering, Pusan National University, Miryang 50463, Korea

¹부산대학교 바이오산업기계공학과 학부생

²부산대학교 바이오산업기계공학과 대학원생

³부산대학교 바이오산업기계공학과 조교수

^{*Corresponding Author}

ABSTRACT

Determining the size or area of a plant's leaves is an important factor in predicting plant growth and improving the productivity of indoor farms. In this study, we developed a convolutional neural network (CNN)-based model to accurately predict the length and width of lettuce leaves using photographs of the leaves. A callback function was applied to overcome data limitations and overfitting problems, and K-fold cross-validation was used to improve the generalization ability of the model. In addition, ImageDataGenerator function was used to increase the diversity of training data through data augmentation. To compare model performance, we evaluated pre-trained models such as VGG16, Resnet152, and NASNetMobile. As a result, NASNetMobile showed the highest performance, especially in width prediction, with an R_squared value of 0.9436, and RMSE of 0.5659. In length prediction, the R_squared value was 0.9537, and RMSE of 0.8713. The optimized model adopted the NASNetMobile architecture, the RMSprop optimization tool, the MSE loss functions, and the ELU activation functions. The training time of the model averaged 73 minutes per Epoch, and it took the model an average of 0.29 seconds to process a single lettuce leaf photo. In this study, we developed a CNN-based model to predict the leaf length and leaf width of plants in indoor farms, which is expected to enable rapid and accurate assessment of plant growth status by simply taking images. It is also expected to contribute to increasing the productivity and resource efficiency of farms by taking appropriate agricultural measures such as adjusting nutrient solution in real time.

Keywords

data augmentation

lettuce imaging

plant growth

transfer learning

vertical farming

식물의 잎의 크기나 면적을 아는 것은 생장을 예측하고 실내농장의 생산성의 향상에 중요한 요소이다. 본 연구에서는 상추 잎 사진을 이용해 엽장과 엽폭을 예측할 수 있는 CNN기반 모델을 연구하였다. 데이터의 한계와 과적합 문제를 극복하기 위해 콜백 함수를 적용하고, 모델의 일반화 능력을 향상시키기 위해 K겹 교차 검증을 사용했다. 또한 데이터 증강을 통한 학습데이터의 다양성을 높이기 위해 image generator를 사용하였다. 모델 성능을 비교하기 위해 VGG16, Resnet152, NASNetMobile 등 사전학습된 모델을 이용하였다. 그 결과 너비 예측에서 R² 값 0.9436, RMSE 0.5659를 기록한 NASNetMobile이 가장 높은 성능을 보였으며 길이 예측에서는 R² 값이 0.9537, RMSE가 0.8713로 나타났다. 최종 모델에는 NASNetMobile 아키텍처, RMSprop 옵티마이저, MSE 손실 함수, ELU 활성화함수가 사용되었다. 모델의 학습 시간은 Epoch당 평균 73분이 소요되었으며, 상추 잎 사진 한 장을 처리하는 데 평균 0.29초가 걸렸다. 본 연구는 실내 농장에서 식물의 엽장과 엽폭을 예측하는 CNN 기반 모델을 개발하였고 이를 통해 단순한 이미지 촬영만으로도 식물의 생장 상태를 신속하고 정확하게 평가할 수 있을 것으로 기대된다. 또한 그 결과는 실시간 양액 조절 등의 적절한 농작업 조치를 하는데 활용됨으로써 농장의 생산성 향상과 자원 효율성을 향상시키는데 기여할 것이다.

키워드

데이터 증강

상추이미지

수직농장

식물 생장

전이학습

MAIN

서 론
재료 및 방법
1. 하드웨어 및 소프트웨어
2. 데이터 세트
3. 영상 전처리
4. K겹 교차검증
5. 모델 아키텍처 선택
6. 성능지표
7. Keras.callbacks
8. 학습 모델
결과 및 고찰
1. 콜백 함수
2. 아키텍처 비교
3. 손실함수 및 활성화함수 비교
4. 옵티마이저 비교
결 론

서 론

국내 농업은 2000년대 초반까지 지속적인 성장을 하였다. 하지만 최근 농가 소득의 정체, 곡물 자급률 하락, 농촌인구의 감소와 농촌 고령화, 지구온난화 및 이상기후 현상 등으로 인해 어려움을 겪고 있다. 또한 세계적으로 기후 변화와 물 부족, 급속한 도시화로 인한 경작지 감소, 인구 고령화로 인한 식량 수급 문제가 예상된다(KREI, 2016). 정보통신기술(ICT)을 활용해 원격·자동으로 작물의 생육환경을 관측하고 자동 시스템으로 최적의 상태를 관리하는 과학 기반의 농업방식인 스마트팜 기술이 이러한 농촌 문제의 해결안으로 주목을 받고 있다(NABO, 2022). 또한 최근 농업에서 차지하는 비중이 큰 상추와 같은 시설채소를 중심으로 스마트팜 보급 면적이 증가하는 추세이다(KREI, 2006). 이러한 시설채소 및 원예작물은 물가 경제에 미치는 영향이 높아, 생산성을 향상하고 생육 비용을 줄일 수 있도록 데이터 기반의 생육 모델 개발 요구가 증가하고 있다(Kim 등, 2017). 그러나 스마트팜 기술 개발 현황에 따르면 통합제어 기술, 재배시설 기술, 광원 관련 기술이 대부분(74%)을 차지하고, 작물 생장 모니터링 기술은 전체에서 9%로 다른 기술에 비해 개발이 저조한 것을 확인할 수 있다(COMPA, 2019).

스마트팜 기술의 주목적은 외부 기상 조건의 영향을 받지 않고 고품질의 상품을 출하하는 것이므로 작물의 생육 및 생장에 관련된 기술 개발이 필요한 상황이다. 그러기 위해 스마트팜 내에서 식물의 지속적인 관찰 및 내부 환경 제어는 필수적이다. 특히 농작물에 적합한 환경을 조절하기 위해서는 시간에 따라 변동되는 재배식물의 정보를 실시간(real-time)으로 모니터링해야 한다(NICE, 2020). 이러한 시계열 정보에는 식물의 크기, 색상, 병해충의 유무, 생체중, 엽면적 등이 있다. 식물의 색상 및 병해충의 유무에 대한 데이터는 일반적인 영상 카메라(RGB camera)를 통해 쉽게 확인이 가능하지만, 식물의 크기 및 엽면적을 파악하기 위해서는 정밀한 측정이 필요하다. 식물의 크기 및 면적은 식물의 생장과 수확량뿐만 아니라 생산량, 광합성, 관개 및 시비에 대한 반응에 영향을 미치는 중요한 특성이다. 따라서 식물의 개별적인 잎의 생장을 추정하는 것은 작물의 생장과 작물과 환경 간의 상호 작용을 이해하고 실내 농장에서 효과적으로 관리하기 위해 필수적인 과정이다(Launay와 Guérif, 2003).

잎 표면적의 중요성은 많은 연구에서 언급되고 있다. 잎은 광합성, 증산 및 작물 생장에 중요한 역할을 하여 생산성과 직결된다(Mack 등, 2017). 대표적으로 디지털 이미지 분석, 레이저 광학 장치 등을 이용하여 엽면적을 측정하는 방법들이 있다(Deng 등, 2019; Boyacı와 Küçükönder, 2022; de Lucena 등, 2019; Zhang, 2020). 디지털 이미지를 이용한 연구의 대다수는 잎사귀의 정사형 이미지를 얻기 위해 파괴적인 방법을 이용한다. 이러한 파괴적인 측정 방법은 스마트팜 내에서 잎의 생장을 측정하기 위해 많은 시간과 비용이 들고 측정 대상인 식물의 생장에 영향을 미칠 수 있다. 따라서 비(非) 파괴적인 방식의 측정이 필요하다(Peksen, 2007).

식물의 너비와 길이를 이용하여 엽면적을 측정하는 방법은 특별한 장비 없이 모델 학습을 위한 데이터와 컴퓨터만 있으면 된다. 이 주제에 대해서는 이미 많은 연구자들이 다양한 식물 종을 이용하여 선형회귀를 통해 선형방정식을 만들었다. Souza와 Habermann (2014)은 독립변수로 너비와 길이, 너비와 길이 제곱을 독립변수로 사용하여 Styrax pohlii 및 Styrax ferrugineus종의 엽면적을 추정하였으며 Fakir 등(2013)은 pigeon pea의 너비와 길이, 생체중 및 건체중을 이용하여 선형회귀모델을 만들어 엽면적을 추정했다. 이외에도 이미지를 이용한 비파괴적 방법도 연구되고 있다. Hajjdiab와 Obaid (2010)은 2×2cm 흰색의 사각형 이미지(calibration square)를 이용하여 잎과 함께 사진을 찍어 윤곽을 추출, 픽셀을 이용해 면적을 예측한다. 그러나 이 경우에는 직접 잎에 판을 접촉하여 촬영해야 함으로 대규모 농장에선 활용이 어렵다. 따라서 따로 조작을 가하지 않고 본 형태 그대로를 촬영하는 것이 더 좋은 방안이다.

현장에서 직접 사진을 찍을 때 변화하는 빛으로 인한 노이즈 등 환경변수들이 있으므로 이미지의 강력한 특징추출을 위한 합성곱 신경망(convolution neural network, CNN)을 사용할 수 있다. 이는 여러 연구에서 보편적으로 이미지 분류작업에 사용되었지만, 생장 값 특징추출에 관한 연구는 상대적으로 적다. Gang 등(2022)은 수직에서 찍은 상추의 RGB-D 이미지를 이용하여 중량 및 높이, 엽면적 등을 예측하였으며 Zhang 등(2020)은 온실 상추 이미지를 이용해 CNN이 생장 관련 특성의 정확한 예측을 할 수 있음을 보여준다. 따라서 본 연구에서는 이미지와 CNN을 이용하여 상추의 엽면적을 예측하는 데 주로 사용되는 잎의 길이와 너비를 최대한 정확하게 예측하는 모델을 제시한다.

사용된 로메인 상추의 모든 데이터는 AIHub(aihub.or.kr)의 ‘지능형 수직농장 통합 데이터(엽채류)’의 데이터이며, 이 데이터는 상추의 이미지와 경계 박스, 길이와 너비 외에도 다양한 생육 정보들을 가지고 있다. AIHub는 정부에서 인공지능 제품·서비스 개발 및 성능 향상에 필수적인 인공지능 학습용 데이터, 알고리즘, 고성능 컴퓨팅 자원을 활용할 수 있도록 구축된 플랫폼으로써, 국내 기업 및 대학, 연구기관, 개인 등 누구나 서비스에 접근할 수 있으며 양질의 데이터를 쉽게 활용할 수 있는 오픈소스 시스템이다(NIA, 2019). 학습용 데이터 세트가 크지 않기 때문에 VGG16, Resnet152, NASNetMobile 등 사전 훈련된 CNN 모델들을 사용하였다(Nasiri 등, 2021). 모델의 성능을 평가하기 위해 평균 절대 오차(mean absolute error, MAE), 평균 제곱근 오차(root mean squared error, RMSE), 평균 절대 비율 오차(mean absolute percent error, MAPE), 결정계수(R-squared, R²)를 활용하여 최적의 모델을 찾는다.

재료 및 방법

1. 하드웨어 및 소프트웨어

본 연구에서 사용한 컴퓨팅 환경은 AMD Ryzen 7 5800X 프로세서와 NVIDIA GeForce RTX 3060 12G 그래픽 카드를 탑재한 시스템이다. 소프트웨어 환경으로는 python 3.7.16을 기반으로, keras 2.10.0 및 tensorflow 2.11.0과 tensorflow-gpu 2.10.1을 사용하였다. 데이터 처리와 분석을 위하여 numpy 1.21.6, pandas 1.3.5, scikit-learn 1.0.2, matplotlib 3.5.2를 활용하였다.

2. 데이터 세트

본 연구에 사용된 데이터는 AIHub에서 제공하는 “지능형 수직농장 통합 데이터(엽채류)”의 상추 데이터를 활용하였으며, 2021년 재배된 로메인 상추(Lactuca sativa L.)이다. 전체 데이터세트는 41,627개의 원천 이미지와 이에 대응하는 생육 데이터는 json 파일로 구성되어 있다. 이미지 데이터는 데이터 구축 기관의 현장 점검 후 스마트폰 카메라를 고정하여 촬영하고, 수집되었으며, 해상도는 10만 화소 이상을 갖는 RGB 3채널 JPG 형식으로 되어 있다. 각 이미지와 관련된 정보는 json 파일 형태로 제공되며, 이미지의 상세 정보, 재배 환경 정보, 생육 지표, 그리고 어노테이션 정보 등을 포함하고 있다.

전체 이미지 중에서 28,847개는 적색광에서 재배된 상추 이미지(Fig. 1)로 구성되어 있으며, 그 중, 엽폭과 엽장 데이터를 포함하는 이미지는 총 2,321개로, 이를 다시 64%(1,485개)의 훈련 데이터, 16%(372개)의 검증 데이터, 그리고 20%(464개)의 테스트 데이터로 구분하여 활용하였다. 상추잎의 엽폭과 엽장 데이터는 각 잎에 대한 수치(cm)로 제공되며, 이를 분석에 활용하기 위해 바운딩 박스(bounding box, bbox)를 사용하여 각 잎을 정확하게 추출하였다(Fig. 2). 복수의 json 파일로 되어 있는 데이터들은 분석의 편의를 위해 하나의 csv 파일로 통합 저장하였다. 본 연구에서 모델의 학습에 사용된 주요 정보는 엽폭, 엽장, 그리고 바운딩박스 정보였다.

https://cdn.apub.kr/journalsite/sites/phpf/2023-032-04/N0090320421/images/phpf_32_04_21_F1.jpg

Fig. 1.

Original lettuce image sample before image preprocessing.

https://cdn.apub.kr/journalsite/sites/phpf/2023-032-04/N0090320421/images/phpf_32_04_21_F2.jpg

Fig. 2.

Lettuce image sample cropped using the four coordinates of a bbox.

3. 영상 전처리

본 연구에서는 훈련 데이터의 다양성과 양을 동시에 증대시키기 위해 Keras의 ImageDataGenerator 함수를 활용하였다. 이 함수를 통해 원본 이미지 데이터에 다양한 변형을 적용하여 새로운 변형 데이터를 생성하였다. 원본 데이터와 변형 데이터를 함께 사용함으로써, 학습 데이터의 양과 다양성이 증가할 수 있으며 이러한 데이터 증강 기법은 모델의 일반화 능력 향상에 큰 도움을 주고 특히 부족한 양의 학습 데이터를 가지고 있는 상황에서 매우 유용하다. 전처리 과정에서 이미지의 픽셀값은 0과 1 사이로 정규화되었다. 추가로, 데이터 증강으로 이미지는 최대 30도의 각도로 회전되었고, 동일한 범위로 전단 변환이 적용되었다. 더불어, 이미지는 최대 30픽셀 내에서 수평 및 수직으로 이동시켜졌으며, 이미지의 수평 및 수직 반전도 무작위로 적용되었다. 뿐만 아니라, 각 컬러 채널의 값을 임의로 조정하여 이미지의 컬러 분포를 변형시켰다. 이러한 방법들을 통해, 데이터 증강은 모델이 실제 환경에서의 다양한 변동성에 대응할 수 있도록 도와줄 수 있다.

4. K겹 교차검증

K겹 교차검증(K-fold cross validation)은 모델의 일반화 성능을 평가하기 위해 전체 데이터를 K개의 집합으로 분할하는 방법이다. 각 분할에서, 하나의 집합을 검증 데이터로 사용하고 나머지를 훈련 데이터로 활용한다. 이 과정은 K회 반복되며, 모든 검증 결과를 평균 내어 성능을 평가한다. 본 연구에서는 5겹 교차검증을 사용하였으며, Scikit-learn 라이브러리를 활용하여 데이터를 5개의 겹으로 나누었다.

5. 모델 아키텍처 선택

본 연구에서 사용한 딥러닝 모델 아키텍처는 ImageNet 데이터 세트에서 사전 훈련된 VGG16, Resnet152, NASNetMobile로 구성되어 있다. 이 아키텍처들을 활용하여 전이 학습의 접근 방식을 채택하였다.

5.1 VGG16

VGG는 Karen Simonyan과 Andrew Zisserman에 의해 2014년에 개발된 딥러닝 아키텍처이다(Simonyan와 Zisserman, 2014). 이 아키텍처는 이미지 분류 문제에서 네트워크의 깊이가 분류 정확도에 어떤 영향을 미치는지 연구하였다. VGG16은 이름에서 알 수 있듯이 16개의 계층을 포함한 버전이며, 3x3의 작은 컨볼루션 필터를 핵심 구성 요소로 사용한다. 2014년 ImageNet 챌린지에서 이 아키텍처는 localization 부문에서 1위, 분류 부문에서는 2위를 차지하는 뛰어난 성과를 보였다.

5.2 Resnet152

Resnet(잔여 네트워크) 아키텍처는 2015년에 Kaiming He, Xiangyu Zhang, Shaoqing Ren, 그리고 Jian Sun에 의해 설계되었다(He 등, 2016). 이 구조는 매우 깊은 신경망 분석에서 발생할 수 있는 경사 소실 문제를 해결하기 위한 방안으로 개발되었다. Resnet 아키텍처는 “short cut” 또는 “skip connection”을 도입하여 계층 간의 정보 흐름을 개선하였다. Resnet152는 총 152개의 계층으로 이루어져 있으며, 매우 심층적인 구조를 가진 강력한 분류 모델 중 하나이다.

5.3 NASNetMobile

신경 구조 검색(Neural Architecture Search, NAS)은 Barret Zoph와 Quoc Le에 의해 2017년에 도입된 모델 설계 자동화 방법이다. NAS는 순환 신경망(RNN)을 활용하여 모델 구조를 설계하고, 이를 강화학습 기법으로 최적화한다. NASNetMobile모델은 NAS 방법론을 사용하여 2018년에 도입된 아키텍처로, 효율적인 연산과 낮은 파라미터 수를 가진 모델로서, 특히 모바일 환경에 최적화된 구조를 지니고 있다. 이 아키텍처는 여러 블록으로 구성되며, 각 블록은 합성곱, 풀링 연결 등의 다양한 연산을 포함하고 있다(Zoph와 Le, 2016; Zoph 등, 2018).

6. 성능지표

모델은 손실함수로 MAE및 MSE, 혼합함수[α×MAE+(1−α)×MSE]를, 최적화를 위해 Adam 및 RMSprop을 사용하고 성능평가를 위해 RMSE, MAPE, R²등을 사용하였다. MAE는 예측값과 실제 값 간의 절대 차이의 평균으로 계산된다. MAE는 다음과 같은 식 (1)로 표현된다.

(1)

M A E = \frac{1}{n} \sum_{i = 1}^{n} |p r e d i c t e d_{i} - a c t u a l_{i}|

RMSE는 예측 오차의 제곱 합의 평균에 루트를 적용한 값이다. RMSE는 다음과 같은 식 (2)로 계산된다.

(2)

R M S E = \sqrt{\frac{1}{n} \sum_{i = 1}^{n} (p r e d i c t e d_{i} - a c t u a l_{i})^{2}}

MAPE는 실제값과 예측값 간의 백분율 오차의 평균으로, 다음과 같은 식 (3)으로 표현된다.

(3)

M A P E = \frac{100}{n} \sum_{i = 1}^{n} |\frac{a c t u a l_{i} - p r e d i c t e d_{i}}{a c t u a l_{i}}|

R²는 독립 변수에서 예측할 수 있는 종속 변수의 분산 비율을 측정한다. 식 (4)로 계산되며 식 (5)는 전체 제곱합(total sum of squares, SST)로 실제값에서 실제값의 평균을 뺀 결과의 총합, 식 (6)은 추정 제곱 오차합(explained sum of squares, SSE)로 예측값에서 예측값의 평균을 뺀 결과의 총합, 식 (7)은 잔차제곱합(residual sum of squares, SSR)로 실제값에서 예측값을 뺀 값, 잔차의 총합이다.

(4)

R^{2} = \frac{S S E}{S S T} = 1 - \frac{S S R}{S S T}

(5)

S S T = \sum_{i = 1}^{n} (a c t u a l_{i} - \bar{a c t u a l_{i}})^{2}

(6)

S S E = \sum_{i = 1}^{n} (p r e d i c t e d_{i} - \bar{p r e d i c t e d_{i}})^{2}

(7)

S S R = \sum_{i = 1}^{n} (a c t u a l_{i} - p r e d i c t e d_{i})^{2}

7. Keras.callbacks

부족한 데이터양과 그 다양성으로 인해 과적합의 위험이 증가하기에 이러한 과적합 문제를 완화하기 위해, 학습률의 조정을 중심으로 한 전략을 적용하였다. 이를 위해 Keras framework의 callbacks 기능 중, 학습률을 동적으로 조절할 수 있는 LearningRateScheduler와 ReduceLROnPlateau를 활용하였다. LearningRateScheduler는 각 Epoch이 진행될 때마다 학습률을 사용자가 지정한 수치에 따라 주기적으로 변경시켜 준다. 이러한 학습률 변화를 통해 극소점(local minima) 문제를 효과적으로 극복할 수 있다. ReduceLROnPlateau는 모델의 학습 진행 중 특정 지표(예: validation loss)가 지정한 연속 에폭(Epoch) 동안 개선되지 않을 경우, 학습률을 감소시키는 방법을 사용한다. 이를 통해 학습이 고원에 도달했을 때, 학습률을 감소시켜 학습의 진행을 더욱 원활하게 해준다.

8. 학습 모델

모델 훈련은 총 300회 동안 진행되었으며, 각 배치(batch)의 크기는 학습 데이터는 48개, 검증 데이터는 12개로 설정하였다.

결과 및 고찰

1. 콜백 함수

Fig. 3의 (a)는 콜백(callback)함수의 사용 여부에 따른 성능 차이를 보기 위해 NASNetMobile 모델에 대한 실험 결과를 시각화한 것이다. 성능 차이를 보기 위해 R² 값을 활용했다. 콜백함수를 사용하지 않은 모델에서 R² 값은 엽폭이 0.065, 엽장이 0.079로 낮게 측정되었다. 반면, 콜백함수를 도입한 모델에서는 엽폭이 0.915, 엽장이 0.933으로 상당히 높아진 것을 볼 수 있다. 이는 콜백함수의 적용이 모델의 일반화 능력을 크게 향상한 것으로 해석된다.

Fig. 3의 (b)는 Resnet152 모델에 대한 실험 결과를 나타낸다. NASNetMobile 모델과 유사한 패턴을 보이는 것을 확인할 수 있는데, 콜백함수의 미적용 시 R²의 값은 엽폭이 0.78, 엽장이 0.795로 측정되었으며, 적용 시에는 각각 0.889와 0.915로 증가하였다. 이 역시 콜백함수의 도입이 모델 성능의 긍정적인 효과를 가져온 것을 확인할 수 있다.

https://cdn.apub.kr/journalsite/sites/phpf/2023-032-04/N0090320421/images/phpf_32_04_21_F3.jpg

Fig. 3.

R² plot and Actual by Predicted plot by Epoch with and without callback function.

결론적으로, 두 모델 모두에서 콜백함수의 적용이 학습의 효율성과 성능을 개선시키는 중요한 역할을 하는 것으로 나타났으며, 작은 데이터셋에 대한 반복 학습에서 과적합을 방지하거나 학습률을 조절하여 최적의 결과를 도출하는 데 효과적이라는 것을 이 실험을 통해 확인할 수 있었다.

2. 아키텍처 비교

본 연구에서는 세 가지 주요 딥러닝 아키텍처, 즉 VGG16, Resnet152, 그리고 NASNetMobile에 대한 성능을 비교 분석하였다. 완전연결층의 활성화 함수로는 ReLU, 손실함수로는 MAE를 사용하여 비교하였다. 학습은 총 300회 실시하였으며, 모델의 검증 성능은 R², RMSE를 기반으로 평가하였다(Fig. 4).

https://cdn.apub.kr/journalsite/sites/phpf/2023-032-04/N0090320421/images/phpf_32_04_21_F4.jpg

Fig. 4.

R² and RMSE in a comparison of three architectures.

아키텍처의 비교를 통하여 NASNetMobile의 R² 및 RMSE가 가장 좋은 성능을 보인다는 것을 알 수 있다. R²가 엽폭에서 0.9064, 엽장에서 0.9294이라는 수치를 기록하였으며 가장 높은 수치인 것을 볼 수 있다. RMSE 또한 엽장에서 0.7212, 엽폭에서 1.0647이라는 수치를 기록하여 셋 중 가장 낮은 수치인 것을 볼 수 있다.

3. 손실함수 및 활성화함수 비교

앞선 결과를 통해 나온 NASNetMobile 아키텍처를 사용하며, 완전 연결층의 손실 함수 및 활성화함수를 변화시켜 비교하였다. 손실함수로는 MAE, MSE와 두 함수에서 0.5의 가중치를 사용한 합성함수를, 활성화 함수로는 ReLU와 ELU를 사용하여 비교하였다. 학습은 총 300 Epoch 실시하였으며, 모델의 검증 성능은 R², RMSE를 기반으로 평가하였다(Fig. 5).

https://cdn.apub.kr/journalsite/sites/phpf/2023-032-04/N0090320421/images/phpf_32_04_21_F5.jpg

Fig. 5.

R² and RMSE for the comparison of three loss functions and two activation functions.

손실함수와 활성화함수의 비교를 통하여 MSE와 ELU의 조합에서의 R² 및 RMSE가 가장 좋은 성능을 보인다는 것을 알 수 있다. R²가 엽폭에서 0.9382, 엽장에서 0.9568이라는 수치를 기록하였으며 가장 높은 수치인 것을 볼 수 있다. RMSE 또한 엽장에서 0.5934, 엽폭에서 0.8275라는 수치를 기록하여 비교군 중 가장 낮은 수치인 것을 볼 수 있다.

4. 옵티마이저 비교

앞선 결과를 통해 나온 조합을 이용하여 optimizer를 변형시켜 각각 동일 데이터세트에서 비교 시험하였다. 총 다섯 번 반복시험 하였으며 각각의 결과는 1－5로 표기하였다(Fig. 6). W는 엽폭 예측이며 L은 엽장 예측이다.

https://cdn.apub.kr/journalsite/sites/phpf/2023-032-04/N0090320421/images/phpf_32_04_21_F6.jpg

Fig. 6.

R² and RMSE for comparing adam and RMSprop optimizer performance (W is the leaf width, L is the leaf length prediction, five runs in total, denoted 1-5).

R²를 확인해 보면 RMSprop이 adam에 비해 높은 모습이다. W1에서 0.9436의 값을 L4에서 0.9537의 값을 보인다. RMSE 같은 경우 엽장 예측에서 RMSprop이 더 낮은 모습을 보였으며 엽폭 예측에서는 비슷하거나 더 낮은 모습을 보인다. W1에서 0.5659의 값을 L5에서 0.8713의 값을 보인다.

최종적으로 아키텍처는 NASNetMobile, 손실함수는 MSE, 활성화 함수는 ELU, optimizer는 RMSprop의 조합이 좋은 결과를 보였다.

결 론

본 연구는 ‘Ai Hub’에서 제공하는 로메인 상추 이미지와 그에 대한 생장 데이터를 활용하여 상추의 폭과 길이를 정밀하게 예측하는 딥러닝 모델을 개발하였다. 이 과정에서, 다양한 파이썬 라이브러리들을 사용하여 다양한 아키텍처와 최적화 방법을 사용하였다. 데이터의 부족과 과적합 문제를 극복하기 위해, 콜백 함수를 적용하였으며, K겹 교차검증을 통해 모델의 일반화 능력을 향상했다. ImageDataGenerator 함수를 활용하여 데이터 증강 기법도 도입하여 훈련 데이터의 다양성을 높였다. 폭과 길이 예측에서 모두 NASNetMobile 모델이 높은 성능을 보였으며, 폭의 경우 R² 값이 0.9436, RMSE는 0.5659를 기록하였다. 길이 예측에서는 R² 값이 0.9537, RMSE는 0.8713의 값을 기록하였다.

이러한 결과는 현대 농업 환경, 특히 스마트팜이나 수직 농장에서 고정 또는 이동형 카메라를 활용해 지정 식물의 크기를 예측하여 생장 상태를 실시간으로 관찰한 후 해당 식물의 추가적인 양액 급여 및 관수 감소 등의 생육환경을 조성하는 데 도움이 될 것으로 기대된다. 그러나 실제 학습데이터가 제공된 농장에 적용하기 위해서 더 많은 데이터와 다른 위치 등을 고려한 추가적인 연구가 필요할 것으로 판단된다. 앞으로의 연구 방향은 추가적인 상추 영상과 다양한 최신 아키텍처를 활용, 학습하여 모델의 성능을 더욱 향상하는 것이며, 실제 현장에 적용하기 위해서 현장에서 직접 얻어진 상추 영상을 대상으로 개선된 객체 검출 알고리즘을 적용하여 상추잎 영역만을 보더 정확하게 추출하는 모델을 개발하고자 한다.

Acknowledgements

본 연구는 2021년도 정부(교육부)의 재원으로 한국연구재단의 창의도전연구기반지원사업의 지원(No. 2021R1I1A1A01058373)과 2022학년도 부산대학교 신임교수연구정착금 지원으로 이루어졌음.

References

Boyacı S., and H. Küçükönder 2022, A research on non-destructive leaf area estimation modeling for some apple cultivars. Erwerbs-Obstbau 64:1-7. doi:10.1007/s10341-021-00619-w 10.1007/s10341-021-00619-w

Commercialization Promotion Agency for R&D Outcome (COMPA) 2019, S&T Market Report, Vol. 69. COMPA, Seoul, Korea. (in Korean)

De Lucena L.R.R., M.L.D.M.V. Leite, C.B. da Cruz Junior, J.D. Carvalho, E.R. dos Santos, and A.D.M. de Oliveira 2019, Estimation of cladode area of Nopalea cochenillifera using digital images. J Prof Assoc Cactus Dev 21:32-42. doi:10.56890/jpacd.v21i.4 10.56890/jpacd.v21i.4

Deng Y., K. Yu, X. Yao, Q. Xie, Y. Hsieh, and J. Liu 2019, Estimation of Pinus massoniana leaf area using terrestrial laser scanning. Forests 10:660. doi:10.3390/f10080660 10.3390/f10080660

Fakir M.S.A., M.A.B. Siddique, A. Islam, M.R. Ismail, and M.K. Uddin 2013, Leaf area estimation by linear regression models in pigeonpea (Cajanus cajan (L.) Millsp.). J Food Agric Environ 11:312-316.

Gang M.S., H.J. Kim, and D.W. Kim 2022, Estimation of greenhouse lettuce growth indices based on a two-stage CNN using RGB-D images. Sensors 22:5499. (in Korean) doi:10.3390/s22155499 10.3390/s2215549935898004PMC9331482

Hajjdiab H., and A. Obaid 2010, A vision-based approach for nondestructive leaf area estimation. In 2010 The 2nd Conference on Environmental Science and Information Application Technology IEEE, pp 53-56. doi:10.1109/ESIAT.2010.5568973 10.1109/ESIAT.2010.5568973

He K., X. Zhang, S. Ren, and J. Sun 2016, Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp 770-778. doi:10.1109/CVPR.2016.90 10.1109/CVPR.2016.9026180094

Kim S.K., Lee S.K., Lee H.J., and Lee J.K. 2017, Horticultural crop growth models for smart farms: utilization of descriptive, explanatory, and structural growth models. Magazine Korean Soc Agric Engin 59:28-37. (in Korean)

Korea Rural Economic Institute (KREI) 2006, Agriculture and Rural Economy Trends Spring 2006. KREI, Naju, Korea. (in Korean)

Korea Rural Economic Institute (KREI) 2016, A study on analyzing the realities of smart farm operations and researching development direction. KREI, Naju, Korea. (in Korean)

Launay M., and M. Guérif 2003, Ability for a model to predict crop production variability at the regional scale: an evaluation for sugar beet. Agronomie 23:135-146. doi:10.1051/agro:2002078 10.1051/agro:2002078

Mack L., F. Capezzone, S. Munz, H.P. Piepho, W. Claupein, T. Phillips, and S. Graeff‐Hönninger 2017, Nondestructive leaf area estimation for chia. Agron J 109:1960-1969. doi:10.2134/agronj2017.03.0149 10.2134/agronj2017.03.0149

Nasiri A., A. Taheri-Garavand, D. Fanourakis, Y.D. Zhang, and N. Nikoloudakis 2021, Automated grapevine cultivar identification via leaf imaging and deep convolutional neural networks: a proof-of-concept study employing primary iranian varieties. Plants 10:1628. doi:10.3390/plants10081628 10.3390/plants1008162834451673PMC8399703

National Assembly Budget Office (NABO) 2022, Current status and improvement tasks of the smart agriculture fostering project. NABO, Seoul, Korea. (in Korean)

National Information Society Agency (NIA) 2019, AI INsight Report Vol. 01. NIA, Daegu, Korea. (in Korean)

NICE Information Service Co., Ltd. (NICE) 2020, GREENPLUS Technical Analysis Report. NICE, Seoul, Korea. (in Korean)

Peksen E. 2007, Non-destructive leaf area estimation model for faba bean (Vicia faba L.). Sci Hortic 113:322-328. doi:10.1016/j.scienta.2007.04.003 10.1016/j.scienta.2007.04.003

Simonyan K., and A. Zisserman 2014, Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556.

Souza M.C., and G. Habermann 2014, Non-destructive equations to estimate the leaf area of Styrax pohlii and Styrax ferrugineus. Braz J Biol 74:222-225. doi:10.1590/1519-6984.17012 10.1590/1519-6984.1701225055106

Zhang L., Z. Xu, D. Xu, J. Ma, Y. Chen, and Z. Fu 2020, Growth monitoring of greenhouse lettuce based on a convolutional neural network. Hortic Res 7:124. doi:10.1038/s41438-020-00345-6 10.1038/s41438-020-00345-632821407PMC7395764

Zhang W. 2020, Digital image processing method for estimating leaf length and width tested using kiwifruit leaves (Actinidia chinensis Planch). PloS ONE 15:e0235499. doi:10.1371/journal.pone.0235499 10.1371/journal.pone.023549932628694PMC7337316

Zoph B., and Q.V. Le 2016, Neural architecture search with reinforcement learning. arXiv preprint arXiv:1611.01578.

Zoph B., V. Vasudevan, J. Shlens, and Q.V. Le 2018, Learning transferable architectures for scalable image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 8697-8710. doi:10.1109/CVPR.2018.00907 10.1109/CVPR.2018.00907

Journal of Bio-Environment Control ISSN:1229-4675(Print) 2765-3641(Online) 생물환경조절학회지

Preview

Comparison of Convolutional Neural Network (CNN) Models for Lettuce Leaf Width and Length Prediction

ABSTRACT

MAIN

Fig. 1.

Original lettuce image sample before image preprocessing.

Fig. 2.

Lettuce image sample cropped using the four coordinates of a bbox.

(1)

(2)

(3)

(4)

(5)

(6)

(7)

Fig. 3.

R2 plot and Actual by Predicted plot by Epoch with and without callback function.

Fig. 4.

R2 and RMSE in a comparison of three architectures.

Fig. 5.

R2 and RMSE for the comparison of three loss functions and two activation functions.

Fig. 6.

R2 and RMSE for comparing adam and RMSprop optimizer performance (W is the leaf width, L is the leaf length prediction, five runs in total, denoted 1-5).

Acknowledgements

References

R² plot and Actual by Predicted plot by Epoch with and without callback function.

R² and RMSE in a comparison of three architectures.

R² and RMSE for the comparison of three loss functions and two activation functions.

R² and RMSE for comparing adam and RMSprop optimizer performance (W is the leaf width, L is the leaf length prediction, five runs in total, denoted 1-5).