서 론
재료 및 방법
1. Natural light augmentation (NLA)
2. PatchSwap
3. 데이터셋 및 실험 환경
결과 및 고찰
1. 참외 데이터셋 결과 분석
2. 딸기 데이터셋 결과 분석
3. 종합 분석
서 론
농업 분야에서 객체 탐지는 생육 모니터링, 병해충 관리, 자동 수확 시스템 등 다양한 응용에서 중요한 역할을 한다. 작물의 성장 상태와 병충해 발생 여부를 자동으로 인식하는 기술은 농업 생산성을 높이고 인력 부담을 줄일 수 있다(Koirala 등, 2019). 최근에는 딥러닝 기반 객체 탐지 모델이 활발히 연구되고 있다(Sa 등, 2016). 그중에서도 YOLO 계열 모델은 빠른 속도와 우수한 성능으로 널리 사용되고 있다(Bochkovskiy 등, 2020; Redmon 등, 2018; Wang 등, 2023). 그러나 객체 탐지 모델의 성능을 높이기 위해서는 충분한 학습 데이터가 필요하다. 작물 이미지 데이터셋은 일반 객체 인식 분야와 달리 규모가 작고 환경적 제약이 크다. 노지에서는 시간대, 계절, 기상 조건에 따라 광조건이 크게 달라지고, 시설하우스에서도 구조물, 장비, 인공광의 영향으로 영상 특성이 변한다. 이러한 요인들은 데이터 다양성 확보를 어렵게 만들며, 학습된 모델의 일반화 성능을 저하시킬 수 있다. 따라서 데이터 증강 기법을 통해 학습 데이터를 확장하고 성능을 개선하는 것이 필수적이다.
YOLO 기본 증강에는 Mosaic, RandomAffine, 색공간 변환 등 다양한 기법이 포함된다(Liu 등, 2016; Yun 등, 2019). Mosaic은 여러 영상을 결합하여 객체 배치를 다양화함으로써 성능 향상에 기여하지만, 서로 다른 영상의 광조건이 합성되면서 실제 환경에서는 관찰되지 않는 장면이 만들어질 수 있다. 색공간 변환 역시 범용 객체 인식 데이터셋을 기준으로 설계되어 다양한 영상 조건을 모사하는 데 효과적이지만, 작물 이미지의 경우 작물의 잎과 열매는 비교적 일정한 색조 특성을 가지며 실제 광조건 변화도 제한된 범위 내에서 발생한다. 이러한 특성을 고려할 때 범용 설계에 기반한 색공간 변환은 작물 이미지에서는 다소 과도한 변화로 작용할 수 있으며, 결과적으로 현실에서는 나타나지 않는 색상 분포가 만들어져 모델이 실제와 무관한 특성을 학습하게 하고 안정적인 성능 확보를 저해할 가능성이 있다. 따라서 작물 이미지의 특수성을 고려하면 데이터 증강 기법 역시 현실적인 광조건 변화를 반영해야 한다. 실제 현장에서 촬영된 작물 영상은 햇빛의 세기 변화, 촬영 시간대에 따른 색온도 차이, 구름이나 구조물에 의한 부분적인 명암 차이 등 다양한 요인으로 인해 특성이 달라진다. 이러한 변화를 반영한 증강은 모델이 실제 환경에 더 잘 적응하도록 돕지만, 기존 연구에서는 작물 이미지에 특화된 광조건 기반 증강 기법이 충분히 다뤄지지 않았으며, 이로 인해 기존 증강의 효과가 제한적이라는 한계가 존재한다(Chen 등, 2020; Ghiasi 등, 2021). 작물 이미지 학습에서 조명 변화에 대한 견고성을 확보하기 위해, 선행 연구들은 밝기·대비·색조·채도 조정, 감마, 히스토그램 보정 등의 변환을 데이터 특성에 맞게 조합하거나 파라미터를 조정하여 성능을 개선해 왔다. 그러나 이러한 접근은 실제 현장에서 발생하는 자연광 변동을 체계적으로 반영한 증강 방법으로 발전되지는 않았다(Fan 등, 2024; Kaur 등, 2025; Lee 등, 2025).
본 논문에서는 이러한 문제를 해결하기 위해 작물 이미지 데이터셋에 적합한 증강 기법으로 Natural Light Augmentation (NLA)을 제안한다. NLA는 밝기, 색온도, 대비 변화를 기반으로 실제 촬영 환경에서 나타나는 광조건 변화를 모사하여 기존 색공간 변환의 한계를 보완하고 학습 안정성을 높인다. 또한 Mosaic의 한계를 보완하기 위해 동일 영상 내 패치를 교환하는 PatchSwap 기법을 추가적으로 적용하였다. 제안 기법은 시설하우스에서 촬영한 참외와 딸기 데이터셋을 대상으로 평가하였다. 평가는 COCO 스타일의 mAP, precision, recall을 사용하였다(Lin 등, 2014). NLA는 기존 증강 대비 전반적인 성능 향상을 보였고 특히 mAP50-95 지표에서 4-6% 수준의 향상폭이 가장 크게 나타났다. 또한 딸기 데이터셋에서는 Baseline 모델이 Validation 과정에서 성능이 하락하는 양상을 보여 과적합이 의심되었으나, NLA를 적용한 모델은 학습 후반부에도 안정적인 성능을 유지하였다. PatchSwap은 성능 기여가 제한적이었으나 Mosaic 합성의 단점을 보완하는 보조적 의미가 있었다.
재료 및 방법
1. Natural light augmentation (NLA)
작물 이미지는 촬영 시점과 환경 조건에 따라 광조건이 크게 달라진다. 노지에서는 햇빛의 세기와 구름의 움직임이 영상의 밝기와 대비에 직접적인 영향을 주며, 시설하우스에서는 구조물이나 피복재에 의한 빛의 반사와 차광이 영상 특성을 변화시킨다. 이러한 광조건의 변동은 실제 농업 현장에서 빈번하게 나타나는 자연스러운 현상이지만, 기존 YOLO 기본 증강 기법은 범용 데이터셋을 기준으로 설계되어 작물 이미지의 특수성을 충분히 반영하지 못한다. 특히 색공간 변환과 같은 기법은 실제 환경에서 관찰되지 않는 과도한 색조 변화를 만들어낼 수 있어, 모델이 현실과 무관한 데이터를 학습하게 할 위험이 있다. 따라서 본 연구에서는 작물 이미지의 광조건 변화를 직접적으로 반영할 수 있는 자연광 기반 증강 기법을 설계하였다. 이를 Natural Light Augmentation(NLA)이라 한다.
NLA는 실제 촬영 환경에서 나타날 수 있는 세 가지 주요 광조건 변화, 즉 밝기 변화, 색온도 변화, 대비 변화를 모사하도록 설계되었으며, 예시는 Fig. 1에 나타내고 있다. 첫째, 밝기 변화는 태양 고도나 구름의 이동에 따른 광량 차이를 반영한다. 영상 전체의 밝기 값을 조정하여 낮 시간대의 강한 직사광선이나 흐린 날의 저조도 환경을 재현한다. 둘째, 색온도 변화는 촬영 시간대에 따라 발생하는 색조 차이를 반영한다. 일출·일몰 시 붉은 기가 도는 장면이나 한낮의 푸른빛이 강조된 장면이 이에 해당하며, 이를 모사하기 위해 R, B 채널의 비율을 조정하였다(Lee 등, 2017). 셋째, 대비 변화는 그림자, 구조물 차광, 구름 통과 등으로 인한 명암 분포의 차이를 반영한다. 이를 위해 감마 보정을 적용하여 영상의 전체적인 대비를 조절하였다(Reinhard 등, 2002). 이를 수식으로 나타내면 다음과 같다.
여기서 𝛼는 밝기 조정 계수, , 는 색온도 보정 계수, 𝛾는 대비 조정 계수를 의미한다. 모든 연산은 [0,1] 구간으로 정규화된 픽셀 값에 대해 수행되었으며, 연산 후에도 동일한 구간 내에서 값이 유지되도록 하였다.
기존 YOLO 기본 증강에 포함된 RandomHSV는 색상·채도·밝기를 무작위로 조정함으로써 데이터 다양성을 제공한다. 그러나 이러한 변환은 실제 작물 이미지에서 발생하지 않는 비현실적인 색상을 만들어낼 수 있으며, 학습 안정성을 저하시킬 수 있다. 물론 RandomHSV의 파라미터 범위를 축소하면 과도한 왜곡을 줄일 수는 있으나, 이 경우 데이터 다양성이 감소하여 다양한 광조건에 대한 학습 효과가 제한된다. 반면, 본 연구에서 제안하는 NLA는 밝기, 색온도, 대비와 같은 실제 광조건 요인을 기반으로 설계되어, 데이터 다양성을 유지하면서도 물리적으로 일관된 변화를 제공한다. 따라서 단순한 파라미터 축소 방식보다 현실적인 증강 효과를 얻을 수 있다. 본 연구의 목적은 실제 촬영 메타데이터를 수집하여 광조건의 통계적 분포를 정량적으로 모사하는 것이 아니라, Fig. 2의 사례처럼 현실에서 발생하기 어려운 조명 상황을 회피함으로써 결과적으로 실제 환경과 유사한 광조건 분포를 유지하도록 하는 데 있다. 각 조정 파라미터는 물리적 일관성을 유지하는 범위 내에서 설정되었으며, 이는 RandomHSV와 같은 기존 증강 기법에서 발생할 수 있는 과도한 색 변환이나 명암 대비의 왜곡을 방지하기 위한 것이다.
2. PatchSwap
YOLO 기본 증강에서 널리 사용되는 Mosaic 기법은 서로 다른 네 장의 영상을 합성하여 객체의 배치와 배경 구성을 다양화함으로써 모델의 일반화 성능을 높인다. 그러나 작물 이미지에서는 동일 포장에서 촬영된 영상이라 하더라도 촬영 시점과 위치에 따라 광조건이 달라질 수 있다. 서로 다른 영상이 결합되는 Mosaic 증강에서는 이러한 광조건 불일치가 합성 영상 내에 동시에 나타나게 되며, 이는 실제 환경에서는 관찰되지 않는 장면을 만들어낼 수 있다.
이러한 한계를 보완하기 위해 본 연구에서는 동일 영상 내에서 패치를 교환하는 PatchSwap 기법을 도입하였다. PatchSwap은 단일 영상의 일부 영역을 무작위로 선택하여 다른 위치와 교환함으로써 데이터 다양성을 확보하는 방식이다. 원본 영상 하나만을 사용하기 때문에 광조건은 일관되게 유지되며, 동시에 객체 배치와 배경 패턴의 변화를 제공할 수 있다. 예를 들어 교환된 패치에 작물의 일부가 포함되면 객체의 형상이 변형되어 모델이 다양한 상황에 노출될 수 있고, 배경 위주 패치가 교환될 경우에도 잡음 효과가 발생하여 일반화 성능 향상에 기여할 수 있다. PatchSwap의 적용 예시는 Fig. 3에서 나타내고 있다. 패치의 크기와 개수는 파라미터로 정의되며, 교환 과정은 수식 (4)와 같이 표현할 수 있다.
여기서 , 는 영상 내에서 선택된 패치 영역이며, 교환 후의 결과 영상은 로 나타난다.
본 연구에서는 여러 파라미터 조정을 통해 PatchSwap의 효과를 검증하였으며, 최종적으로 패치 크기 64×64, 교환 개수 4, 적용 확률 0.5에서 가장 안정적인 성능을 확인하였다. 이 설정은 객체와 배경이 균형 있게 교환되도록 유도하여 데이터 다양성을 확보하면서도 영상 전체의 구조적 왜곡을 최소화할 수 있었다. PatchSwap은 Mosaic과 성격이 다른 증강 기법으로, 두 방법은 상호 보완적인 관계에 있다. Mosaic은 다양한 영상 합성을 통해 객체 수와 배경 구성을 동시에 변화시키는 장점이 있는 반면, PatchSwap은 동일 광조건 내에서 새로운 배치를 만들어내어 현실성을 유지하면서 데이터의 변동성을 확대한다.
다만 PatchSwap의 성능 기여도는 제한적일 수 있으며, 이는 실험 결과에서 구체적으로 논의한다. 따라서 본 연구에서는 PatchSwap을 주 증강 기법이라기보다는 Mosaic과 병행하여 사용할 때 의미를 가지는 보조적 기법으로 활용하였다.
3. 데이터셋 및 실험 환경
본 연구에서는 제안한 NLA의 효과를 검증하기 위해 참외와 딸기 두 가지 데이터셋을 사용하였다. 참외 데이터셋은 시설하우스 환경에서 촬영되었으며, 총 1,085장의 영상으로 구성되어 있다. 데이터셋은 학습(train) 868장, 검증(validation) 108장, 시험(test) 109장으로 분할하였다. 탐지 대상 클래스는 암꽃과 수꽃 두 가지로 구성되어 있다.
딸기 데이터셋 또한 시설하우스 환경에서 촬영되었으며, 총 1,374장의 영상으로 구성되어 있다. 데이터셋은 학습 1,139장, 검증 117장, 시험 118장으로 분할하였다. 탐지 대상 클래스는 총 5개로, 미숙과, 성숙과, 반숙과, 꽃, 그리고 분류 불가 객체를 포함한다. 두 데이터셋은 모두 YOLO 형식으로 어노테이션되었으며, 탐지 모델 학습에 활용하였다.
모델은 Ultralytics YOLOv8m(Pytorch기반)을 사용하였으며, 입력 영상 크기는 1280×1280으로 통일하였다. 학습은 NVIDIA RTX 3090 Ti GPU 환경에서 Batch size 16, epoch 200으로 진행하였으며, 모든 실험에는 동일한 random seed (42)를 적용하여 재현성을 확보하였다. 비교 실험은 YOLO 기본 증강을 적용한 Baseline, 제안한 NLA를 적용한 경우, 그리고 참외 데이터셋에 한해 NLA와 PatchSwap을 병행한 경우로 구분하여 수행하였다. 이는 실험 순서상 참외 데이터셋을 먼저 활용하여 NLA의 효과와 PatchSwap 병행 시 성능 향상을 검증하기 위함이었다. 그러나 PatchSwap 병행 실험 결과, NLA 단일 적용 대비 성능 차이가 미미하여 추가적인 개선 효과가 확인되지 않았다. 따라서 이후 수행된 딸기 데이터셋 실험에서는 NLA 단일 적용만으로 진행하였다. PatchSwap의 파라미터는 패치 크기 64×64 픽셀, 교환 패치 개수 4, 적용 확률 50%로 설정하였다. Best는 mAP50이 최대인 epoch, Last는 최종 epoch을 의미한다. 실험에서는 밝기 조정 계수 𝛼∈[0.85, 1.15], 색온도 보정 계수 , 는 각각 1.05, 0.95, 대비 조정 계수 𝛾∈[0.9, 1.1]로 설정하였다.
결과 및 고찰
1. 참외 데이터셋 결과 분석
참외 데이터셋에서 수행한 실험은 Baseline, NLA, 그리고 NLA와 PatchSwap을 추가로 병행한 세 가지 조건으로 비교하였다. Fig. 4와 Table 1, 2에서 정량적 결과를 나타내고 있다. Validation 결과, NLA는 Baseline 대비 전반적으로 더 높은 성능을 기록하였다. 특히 종합 지표인 mAP50-95에서 0.603에서 0.637로 5.62% 상대 향상이 관찰되었는데, 이는 제안한 증강 기법이 실제 농업 환경에서 빈번하게 발생하는 광조건의 변화를 학습 데이터에 효과적으로 반영했음을 보여준다. 또한, 모델은 새로운 조명 상황에서도 안정적으로 객체를 인식할 수 있는 일반화 성능을 확보하였다. Precision과 Recall 또한 큰 손실 없이 유지되었는데, 이는 NLA가 불필요하게 왜곡된 데이터를 추가하지 않고 실제 발생 가능한 범위 내에서만 증강을 수행했기 때문에 탐지 안정성을 유지할 수 있었음을 시사한다. 따라서 관찰된 성능 향상은 단순한 수치적 개선이 아니라, 제안한 기법이 모델의 조명 적응력을 강화하여 실제 작물 이미지 환경에 보다 신뢰성 있게 적용될 수 있음을 입증하는 결과라 할 수 있다.
Table 1.
Oriental melon validation results compared with Baseline (Best/Last).
Table 2.
Oriental melon test results compared with Baseline (Best/Last).
NLA와 PatchSwap을 병행한 경우 Precision은 가장 높게 나타났으나 Recall이 낮아 결과적으로 mAP50-95에서는 NLA 단독보다 낮은 0.624을 기록하였다. 이는 PatchSwap이 Mosaic의 인위적인 영상 합성 문제를 완화할 수는 있지만, 성능 개선 효과가 제한적임을 의미한다. 따라서 참외 데이터셋에서의 분석은 NLA가 성능 향상의 핵심 요인이며, PatchSwap은 보조적인 성격이 강하다는 점을 보여준다.
Test 결과 역시 유사한 경향을 보였다. Baseline은 mAP50-95가 0.557에서 0.585로 5.03% 상대 향상을 보였으며, Precision과 Recall도 개선되었다. 또한 Baseline은 Best→Last 구간에서 성능이 하락(0.557→0.548)한 반면, NLA는 성능을 거의 유지(0.585→0.582)하여 학습 후반부 안정성이 높았다. 이는 NLA가 학습 안정성을 높이고 과적합 발생을 완화에 효과가 있음을 확인할 수 있었다.
2. 딸기 데이터셋 결과 분석
딸기 데이터셋에서는 Baseline과 NLA 두 조건으로 실험을 진행하였다. Fig. 5와 Tables 3, 4에서 정량적 결과를 나타내고 있다. Validation 결과에서 두 모델의 Best 시점의 mAP50-95 성능은 약 0.605 정도로 비슷하게 나타났다. 그러나 학습이 진행됨에 따라 뚜렷한 차이가 드러났다. Baseline은 Last 시점에서 성능이 0.572로 하락하여 Best 대비 5.5% 성능 저하가 발생한 반면, NLA는 0.604를 기록하여 성능을 안정적으로 유지하였다. Recall 역시 Baseline은 크게 감소했지만, NLA는 오히려 증가하는 경향을 보였다. 이러한 결과는 NLA가 단순히 최고 성능을 높이는 데 그치지 않고, 학습 전반에서 안정성을 유지한다는 점을 잘 보여준다.
Table 3.
Strawberry validation results compared with Baseline (Best/Last)
Table 4.
Strawberry test results compared with Baseline (Best/Last)
Test 결과에서도 Baseline 대비 NLA의 우수성이 확인되었다. NLA는 mAP50-95가 0.543에서 0.567로 4.42% 상대 향상되었으며, Precision과 Recall도 모두 개선되었다. Baseline은 Best 이후 성능 변동이 불안정하게 나타난 반면, NLA는 마지막까지 안정적인 수치를 유지하였다. 이는 시설하우스 환경과 같이 광조건 변화가 큰 영상에서도 NLA가 모델의 일반화 성능 확보에 효과적임을 입증한다.
3. 종합 분석
참외와 딸기 데이터셋에 대한 정성적 결과는 Fig. 6에서 나타내고 있다. 결과를 종합하면, 제안한 NLA는 두 가지 측면에서 일관된 성과를 보였다. 첫째, Baseline 대비 성능 향상 효과이다. 참외에서는 Validation과 Test에서 각각 5.62%, 5.03%, 딸기에서는 Test에서 4.42%의 상대 향상이 관찰되었다. 둘째, 학습 안정성 측면에서의 효과이다. Baseline은 epoch가 진행될수록 성능이 하락하거나 불안정한 패턴을 보였던 반면, NLA는 Best 성능을 마지막까지 유지하며 과적합을 완화하는 모습을 나타냈다. 이는 실제 농업 환경에서 다양한 광조건에 직면하는 객체 탐지 모델이 신뢰성 있게 동작할 수 있는 기반을 마련한다는 점에서 중요한 의미를 가진다.
한편, PatchSwap은 보조적 시도로서 Mosaic 증강의 한계를 완화하는 가능성을 보여주었지만, 성능 지표 개선 측면에서는 뚜렷한 기여를 확인하기 어려웠다. 따라서 본 연구의 핵심 기여는 NLA를 통해 작물 이미지의 현실적인 광조건을 모사함으로써 모델의 성능과 안정성을 동시에 개선할 수 있음을 입증한 데 있다.








