본문 바로가기

딥러닝

GhostNetV3: Exploring the Training Strategies for Compact Models - 경량화 모델, 대형 모델의 학습법을 버리고 자신만의 최적화 경로를 찾다

반응형


일러두기 (Disclaimer)

본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.

 

 

논문 링크 : https://arxiv.org/abs/2404.11202

 

GhostNetV3: Exploring the Training Strategies for Compact Models

Compact neural networks are specially designed for applications on edge devices with faster inference speed yet modest performance. However, training strategies of compact models are borrowed from that of conventional models at present, which ignores their

arxiv.org

 

 

초록 (Abstract)

경량 신경망(Compact neural networks)은 에지(edge) 디바이스에서의 활용을 위해 특별히 설계되었으며, 비교적 평범한 성능을 감수하는 대신 더 빠른 추론 속도를 제공합니다. 그러나 현재 경량 모델의 학습 전략은 기존 대형 모델의 방식을 그대로 차용하고 있습니다. 이는 모델 간의 수용력(Model capacity) 차이를 무시하는 처사이며, 결과적으로 경량 모델의 성능 향상을 저해할 수 있습니다. 본 논문에서는 다양한 학습 구성 요소가 미치는 영향을 체계적으로 조사하여, 경량 모델을 위한 강력하고 새로운 학습 전략을 제안합니다. 연구 결과, 적절하게 설계된 재매개변수화(Re-parameterization)와 지식 증류(Knowledge Distillation)가 고성능 경량 모델을 학습하는 데 핵심적인 역할을 한다는 것을 발견했습니다. 반면, Mixup이나 CutMix와 같이 기존 대형 모델 학습에 널리 쓰이는 일부 데이터 증강(Data augmentation) 기법은 오히려 경량 모델의 성능을 하락시키는 것으로 나타났습니다. ImageNet-1K 데이터셋을 활용한 실험을 통해, 본 연구에서 제안한 경량 모델 맞춤형 학습 전략이 GhostNetV3뿐만 아니라 MobileNetV2, ShuffleNetV2 등 다양한 아키텍처에도 범용적으로 적용될 수 있음을 입증합니다. 구체적으로, 이 전략을 적용한 GhostNetV3 1.3x 모델은 모바일 기기에서 14.46ms의 짧은 지연 시간과 269M FLOPs의 낮은 연산량만을 사용하면서도 79.1%의 Top-1 정확도를 달성하여, 기존의 일반적인 방식으로 학습된 모델의 성능을 큰 폭으로 뛰어넘었습니다. 나아가 본 연구의 관찰 결과는 객체 탐지(Object detection) 시나리오로도 확장 적용될 수 있습니다.

 

1. 한줄 요약 & 3줄 핵심 (Executive Summary)

추론 속도를 지연시키는 구조적 변경 없이, 오직 경량 모델의 한계 수용력에 맞춘 맞춤형 학습 레시피(재매개변수화와 지식 증류의 최적화)를 적용하여 모바일 인공지능의 성능을 SOTA(최고 수준)로 끌어올린 연구입니다.

  1. 기존의 문제점 (Pain point): 경량화 모델을 학습할 때 수용력이 큰 대형 모델용 학습 기법(예: 복잡한 데이터 증강 및 정규화)을 맹목적으로 사용하여, 오히려 학습 효율이 떨어지고 최종 성능이 저하되는 한계가 존재했습니다.
  2. 이 논문의 해결책 (Solution): 추론 시 추가 연산 없이 학습 중에만 매개변수를 늘리는 재매개변수화 기법과 교사 모델의 지식을 전달하는 지식 증류 기법을 최적의 비율로 결합하고, 경량 모델의 학습을 방해하는 특정 데이터 증강 기법을 학습 파이프라인에서 배제했습니다.
  3. 달성한 성과 (Key Result): GhostNetV3 1.3x 모델 기준 모바일 기기 환경에서 14.46ms의 빠른 추론 속도를 유지하면서 ImageNet-1K 79.1%의 정확도를 달성하였으며, 동일한 학습 전략을 MobileNetV2 및 ShuffleNetV2에 적용하여 2~3% 이상의 성능 향상을 보편적으로 입증했습니다.

 

2. 들어가며: 왜 이 연구가 필요했나? (The "Why")

딥러닝 모델이 발전함에 따라 신경망의 깊이와 파라미터(매개변수) 수는 기하급수적으로 증가해 왔습니다. 서버 환경이나 클라우드 인프라에서는 연산 자원이 풍부하여 수백억 개의 파라미터를 가진 거대 모델을 구동할 수 있지만, 스마트폰, 자율주행 자동차의 엣지 센서, 드론, 그리고 스마트 팩토리의 사물인터넷(IoT) 기기 등 실생활에서 인공지능이 작동해야 하는 현장은 사정이 다릅니다. 이들 기기는 메모리 공간, 배터리 수명, 그리고 연산 처리 능력에서 엄격한 제약을 받습니다. 이러한 제한적인 하드웨어 위에서 빠르고 효율적으로 동작하기 위해 SqueezeNet, MobileNets, ShuffleNets, 그리고 GhostNet과 같은 경량화 신경망(Compact Models)이 등장했습니다.

 

초기 경량화 네트워크 연구는 주로 파라미터 수와 연산량(FLOPs)을 줄이면서도 정보 손실을 최소화하는 모델 구조(Architecture) 설계에 집중되었습니다. 값비싼 공간 합성곱(Spatial Convolution) 연산을 잘게 쪼개는 깊이별 분리 합성곱(Depth-wise separable convolution)을 도입하거나, 불필요한 채널 연산을 줄이고 신경망 구조 탐색(Neural Architecture Search, NAS) 알고리즘을 활용해 최적의 레이어 배치를 찾는 방식이 주류를 이루었습니다. 하지만 모델의 구조적 설계만으로는 달성할 수 있는 최종 정확도에 한계가 존재했습니다.

 

딥러닝 모델의 최종 성능은 단순히 뼈대만으로 결정되지 않습니다. 모델을 어떻게 훈련할 것인가를 결정하는 학습 전략(Training Strategy)이 매우 중요한 역할을 담당합니다. 최근 수년간 ResNet이나 Vision Transformer(ViT)와 같은 거대한 파라미터를 가진 모델들은 고도화된 최적화 기법, 학습률 스케줄링, 그리고 복잡한 데이터 증강 기법(Data Augmentation)을 통해 동일한 모델 구조임에도 정확도를 비약적으로 끌어올렸습니다. 연구자들은 이러한 대형 모델에서 성공을 거둔 강력한 학습 레시피를 경량 모델에도 그대로 차용하기 시작했습니다.

 

여기서 치명적인 문제점이 발생합니다. 경량 모델은 파라미터 수가 적어 정보를 담고 패턴을 기억할 수 있는 수용력(Capacity)의 그릇 자체가 작습니다. 수용력이 작은 네트워크에 두 이미지를 섞어버리는 Mixup이나 이미지의 일부를 잘라 붙이는 CutMix와 같이 난해하고 복잡한 변형 데이터를 입력하면, 네트워크는 올바른 특징 공간(Feature space)을 매핑하지 못하고 오히려 혼란에 빠져 정상적인 특징마저 학습하지 못하게 됩니다. 즉, 대형 모델의 성능을 극한으로 끌어올리던 고급 훈련 방식이 경량 모델에게는 성능을 가로막는 장애물로 작용하고 있었던 것입니다.

 

이러한 배경 속에서 연구진은 근본적인 질문을 던졌습니다. 구조의 변경 없이, 오직 경량 모델의 작은 수용력을 고려했을 때 이들에게 가장 알맞은 학습 방식은 무엇인가를 탐구하는 것입니다. 본 연구는 단순히 새로운 모듈을 추가하는 하드웨어적 변형을 넘어서, 철저히 경량 모델의 관점에서 재매개변수화, 지식 증류, 데이터 증강, 하이퍼파라미터 세팅 등을 체계적으로 재평가하고 최적의 훈련 조합을 찾아내고자 했습니다.

 

3. 이 논문의 뿌리 (Key Reference)

본 연구는 기존의 훌륭한 연구들을 비판적으로 계승하고 이를 경량 모델의 특성에 맞게 결합하여 탄생했습니다. 이 논문이 탄생하는 데 가장 큰 영감을 주었거나 기본 백본으로 활용된 세 가지 핵심 연구의 관계는 다음과 같습니다.

 

첫 번째 뿌리는 GhostNet V1 (2020) 및 GhostNet V2 (2022)입니다. 본 논문은 이름에서 알 수 있듯 GhostNet 시리즈의 구조를 기본 백본(Backbone)으로 사용합니다. GhostNet은 일반적인 합성곱 연산 결과물에 서로 유사하고 중복되는 특징 맵(Feature map)이 다수 존재한다는 점에 착안했습니다. 이를 바탕으로 연산량이 많은 기본 합성곱으로 핵심 특징만 우선 추출한 뒤, 연산량이 매우 적은 선형 연산(Cheap operation)으로 나머지 특징 맵을 유령처럼 복제해 내는 혁신적인 구조를 제안했습니다. 이어지는 V2 버전에서는 모바일 하드웨어에서 빠르게 동작하는 분리형 완전 연결 어텐션(Decoupled Fully Connected Attention, DFC Attention) 모듈을 추가하여 장거리 픽셀 간의 의존성을 효율적으로 수집했습니다. GhostNetV3는 이 V2의 가볍고 우수한 추론 구조를 그대로 계승하되, 학습 방식을 전면 개편한 모델입니다.

 

두 번째 뿌리는 RepVGG (2021) 논문에서 본격적으로 유행한 구조적 재매개변수화(Structural Re-parameterization) 개념입니다. 이 연구는 모델이 학습할 때의 구조와 추론할 때의 구조가 반드시 같을 필요가 없다는 패러다임을 제시했습니다. 학습할 때는 여러 갈래의 복잡한 연산 가지(Branch)를 두어 피처(Feature)의 다양성을 확보하고 학습 성능을 높입니다. 이후 실제 사용할 때는 수학적 변환을 통해 이 여러 갈래의 연산 가중치들을 단 하나의 기본 합성곱 층으로 병합해버립니다. 본 논문은 이 아이디어를 차용하되, 기존 대형 모델이나 2D 공간 합성곱이 아닌 경량 모델의 핵심인 깊이별 합성곱(Depth-wise Convolution)에 맞게 다중 가지 구조를 재설계하여 적용했습니다.

 

세 번째 뿌리는 딥러닝 분야의 선구자인 제프리 힌튼(Geoffrey Hinton) 등이 제안한 지식 증류(Knowledge Distillation, 2015) 기법입니다. 이 기법은 거대하고 성능이 뛰어난 교사(Teacher) 모델이 출력하는 확률 분포(Soft labels)를 작고 가벼운 학생(Student) 모델이 모방하도록 학습시키는 기술입니다. 경량 모델은 파라미터가 부족하여 데이터의 복잡한 패턴을 스스로 찾아내는 데 한계가 있습니다. 본 논문에서는 이러한 경량 모델의 태생적인 한계를 극복하기 위해 지식 증류 기법을 도입했으며, 나아가 어떤 교사 모델을 선택하고 하이퍼파라미터를 어떻게 세팅해야 학생 모델이 가장 효과적으로 지식을 전수받을 수 있는지 면밀히 분석했습니다.

 

요약하자면, 이 논문은 GhostNetV2의 하드웨어 친화적이고 가벼운 구조를 바탕으로 삼고, 학습 능력의 한계를 보완하기 위해 RepVGG의 재매개변수화와 Knowledge Distillation의 아이디어를 융합하여 완전히 새로운 경량 모델용 학습 레시피를 구축한 것입니다.

 

4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)

본 논문의 가장 중요한 발상의 전환은 "학습할 때의 모델 구조와 실전에서 추론할 때의 모델 구조가 꼭 같을 필요는 없다"는 점과, "수용력이 작은 모델은 대형 모델과 다르게 가르쳐야 한다"는 점입니다. 이 두 가지 핵심 아이디어를 비유와 함께 상세히 살펴보겠습니다.

 

컨셉 1: 훈련용 보조 바퀴 달기 (Re-parameterization의 도입)

두발자전거를 처음 배우는 상황을 상상해 볼 수 있습니다. 처음부터 두 바퀴만으로 험난한 길을 달리며 중심을 잡기는 매우 어렵습니다. 그래서 양옆에 보조 바퀴(추가 연산 가지)를 달아줍니다. 보조 바퀴가 있으면 넘어지지 않고 다양한 코스에서 안전하게 페달 밟는 법을 배울 수 있습니다. 학습이 완벽히 끝나고 실전에 나갈 때는 무겁고 거추장스러운 보조 바퀴를 떼어버립니다. 그러면 가벼운 두발자전거로 속도를 내면서도 훈련 때 배운 안정적인 균형 감각은 그대로 유지할 수 있습니다.

 

본 논문에서는 3x3 깊이별 합성곱(Depth-wise convolution) 블록을 훈련할 때 원본 데이터가 그대로 통과하는 우회 경로(Identity)와 1x1 깊이별 합성곱이라는 보조 바퀴를 평행하게 추가합니다. 데이터가 입력되면 다수의 경로로 나뉘어 풍부한 특징 공간을 탐색하며 학습을 진행합니다. 학습이 완료되면 선형 연산의 수학적 분배법칙 특성을 이용해 이 세 갈래의 가중치(Weight)들을 덧셈 연산하여 단 하나의 3x3 합성곱 필터로 압축해버립니다. 실전 기기인 스마트폰에 탑재될 때는 보조 바퀴가 사라진 뼈대만 남게 되어 연산 비용과 추론 속도에는 단 1ms의 지연도 발생하지 않습니다. 특히, 연구진은 여러 형태의 가지 중 1x1 깊이별 합성곱을 보조 바퀴로 사용하는 것이 성능 향상에 결정적인 역할을 한다는 디테일을 발견했습니다.

 

컨셉 2: 1타 강사의 족집게 과외 (Knowledge Distillation 최적화)

수용력이 작은 경량 모델이 방대한 데이터의 정답 라벨(Hard label)만 보고 스스로 복잡한 시각적 패턴을 모두 깨우치기란 쉽지 않습니다. 그래서 이미 수많은 데이터를 보고 학습을 끝낸 거대 모델(ResNet-101, DeiT 등)을 교사로 초빙합니다. 학생 모델은 단순히 정답만 외우는 것이 아니라, 교사가 문제를 풀면서 고민한 흔적을 모방합니다. 예를 들어 특정 이미지를 보고 "이 사진은 자동차일 확률이 90%지만, 둥근 형태 때문에 자전거일 확률도 5% 정도 존재한다"는 세밀한 확률 분포(Soft labels) 정보를 그대로 흡수하는 것입니다. 이전에는 모델의 구조적 변경만으로 성능을 올리려 했으나, 본 연구는 수용력이 부족한 경량 모델에게는 똑똑하고 적절한 강사를 매칭시켜 주는 과외 방식이 필수적이라는 것을 체계적인 실험으로 입증했습니다.

 

컨셉 3: 복잡한 훈련 교재의 배제 (Mixup/CutMix의 역효과 증명)

기존의 거대 모델들은 데이터의 다양성을 극대화하기 위해 두 이미지를 반반씩 투명하게 겹치거나(Mixup), 한 이미지의 일부를 잘라내어 다른 이미지에 붙이는(CutMix) 방식을 널리 사용했습니다. 파라미터가 넉넉한 대형 모델은 이러한 부자연스러운 합성 이미지에서도 각각의 패턴을 분리하여 인식할 수 있는 여유 공간이 있습니다. 그러나 뇌세포(파라미터)가 적은 경량 모델에게 이런 혼종 이미지를 학습시키면, 제한된 수용력 안에서 원래의 정상적인 사물 패턴마저 잊어버리게 되는 역효과가 발생합니다. 따라서 본 연구는 경량 모델의 학습 파이프라인에서 이러한 과도한 증강 기법을 과감히 제거하는 발상의 전환을 보여주었습니다.

 

5. 작동 원리: 어떻게 돌아가는가? (The "How")

이제 데이터가 GhostNetV3 네트워크에 입력되어 처리되고 출력되기까지의 전반적인 데이터 흐름(Data Flow)을 단계별로 설명하겠습니다. 경량화 모델이기 때문에 내부의 데이터 처리는 철저하게 자원 효율성을 중심으로 흘러갑니다.

 

입력 데이터의 진입 (Stem Layer):

이미지 데이터(예: RGB 컬러 픽셀 행렬)가 모델에 들어오면 가장 먼저 표준 합성곱 층(Standard Convolution Layer)을 거쳐 초기 단계의 기본적인 특징(Feature)을 뽑아냅니다. 이 단계는 이미지의 윤곽선이나 색상 대비와 같은 저차원적 정보를 수집합니다.

 

Ghost 모듈을 통한 특징 부풀리기 (Feature Generation)

네트워크의 핵심적인 데이터 흐름은 Ghost 모듈에서 일어납니다. 입력된 텐서(데이터 덩어리)를 1차로 처리하여 목표하는 채널 수의 절반 정도에 해당하는 진짜 특징(Intrinsic features)을 생성합니다. 그런 다음, 값비싼 공간 합성곱 연산을 다시 수행하는 대신 이 진짜 특징들에 비용이 매우 저렴한 깊이별 합성곱 연산을 한 번 더 적용하여 유령 특징(Ghost features)을 만들어냅니다. 마지막으로 먼저 만든 진짜 특징과 나중에 파생된 유령 특징을 채널 축을 기준으로 이어 붙여(Concatenation) 최종적으로 원하는 개수만큼의 넉넉한 특징 맵을 완성합니다. 이 과정은 연산량은 크게 줄이면서도 다음 층으로 전달되는 정보량은 풍부하게 유지하는 영리한 흐름입니다.

 

DFC 어텐션을 통한 글로벌 문맥 이해 (Context Capture)

경량 모델에서 연산량을 줄이기 위해 자주 쓰이는 작은 크기의 필터(1x1, 3x3)는 바로 인접한 픽셀들의 정보만 볼 수 있어 이미지 전체의 문맥(Global information)을 파악하기 어렵다는 단점이 있습니다. 이를 보완하기 위해 텐서는 DFC(Decoupled Fully Connected) 어텐션 모듈로 들어갑니다. 데이터는 수직 방향의 평균 풀링(Average Pooling)과 수평 방향의 평균 풀링으로 각각 분리되어 처리됩니다. 가로줄과 세로줄의 정보를 길게 스캔하여 멀리 떨어진 픽셀들 간의 상관관계를 파악한 뒤, 이미지의 어느 부분에 더 집중(Attention)해야 할지 가중치 맵을 생성하여 원래의 데이터 텐서에 곱해줍니다. 무겁고 복잡한 자기 주의(Self-attention) 행렬 곱셈 대신 단순화된 선형 레이어를 두 방향으로 분리하여 사용하므로 연산 흐름이 매우 빠릅니다.

 

재매개변수화 블록 통과 (Re-parameterization Flow)

  • 학습 시의 흐름: 데이터가 특정 깊이별 합성곱 층을 지날 때 메인 3x3 합성곱 경로, 1x1 깊이별 합성곱 경로, 그리고 데이터가 어떤 변환도 없이 그대로 통과하는 우회 경로(Identity) 등 총 3갈래의 병렬 경로로 쪼개집니다. 각 경로에서 생성된 출력 텐서들은 마지막에 요소별 덧셈(Element-wise addition)으로 합산되어 다음 층으로 넘어갑니다.
  • 추론(실전) 시의 흐름: 학습이 성공적으로 완료되면, 병렬로 존재하던 가중치 텐서들과 배치 정규화(Batch Normalization) 파라미터들이 수학적 과정을 통해 단 하나의 3x3 합성곱 필터로 병합됩니다. 따라서 실제 모바일 기기에서 데이터가 흐를 때는 복잡하게 갈라지지 않고 단일 필터를 직진으로 통과하게 됩니다.
  • 최종 결과 출력 (Classification Head): 위의 모듈들이 여러 겹으로 촘촘히 쌓인 구조를 차례로 통과한 데이터는 공간적 차원을 1x1로 압축하는 전역 평균 풀링(Global Average Pooling)을 거쳐 최종적으로 분류기(Classifier)로 진입합니다. 여기서 해당 이미지가 천 개의 객체 중 어떤 객체에 속하는지 나타내는 1,000차원의 확률값(Logits) 벡터로 변환되어 출력됩니다.

 

6. 작동 원리: 어떻게 학습하는가? (The "How")

훌륭한 아키텍처와 레시피가 준비되었으니, 이를 실제로 훈련시키기 위한 구체적인 학습 환경과 입력 데이터를 세팅해야 합니다. 본 연구는 다음과 같은 데이터 규격과 세팅을 사용합니다.

 

입력 데이터 (학습용)

이 모델을 똑똑하게 만들기 위해 컴퓨터 비전 학계의 표준이자 방대한 스케일을 자랑하는 ImageNet-1K 데이터셋을 주력으로 사용합니다.

  • 데이터 종류 및 포맷: 2D 형태의 RGB 컬러 해상도 이미지 데이터와 해당 이미지가 무엇인지 명시된 정답 카테고리 식별자(Label)가 쌍으로 존재합니다. 일반적으로 메모리 한계를 고려하여 224x224 픽셀 해상도로 크기를 조정(Resize 및 Crop)하여 모델에 입력합니다.
  • 수량 및 구체적 예시: 약 128만 장의 방대한 학습용 이미지와 5만 장의 검증용(Validation) 이미지를 사용합니다. 데이터는 1,000개의 구체적인 사물 및 동식물 카테고리로 나뉘어 있습니다. 예를 들어, 특정 모양의 강아지 사진 한 장과 "이것은 비글(Beagle) 종입니다"라는 텍스트 라벨이 하나의 세트를 구성하며, 스포츠카 이미지와 해당 클래스 번호가 묶여서 반복적으로 학습 모델에 주입됩니다.

 

학습 과정 및 스케줄러 세팅

8대의 NVIDIA Tesla V100 GPU를 동원하여 한 번에 2,048장이라는 대규모의 이미지를 묶어(Mini-batch size) 모델에 입력합니다. LAMB라는 고급 최적화 알고리즘을 사용해 전체 데이터를 총 600번(Epoch) 반복 학습시킵니다.

  • 학습률(Learning rate): 초기 학습률은 0.005로 시작하며 코사인(Cosine) 스케줄을 따릅니다. 처음에는 천천히 줄어들다가 중간에 가파르게, 마지막에 다시 완만하게 줄어드는 이 방식은 모델이 손실 함수 공간에서 안정적으로 최적의 해답에 안착하도록 돕습니다.
  • 가중치 감쇠(Weight Decay) 조절: 모델의 가중치가 너무 커져서 학습 데이터에만 과적합(Overfitting)되는 것을 막는 수치입니다. 경량 모델은 수용력이 적어 너무 강한 가중치 감쇠(예: 0.1)를 주면 학습한 내용을 다 잊어버리게 됩니다. 따라서 0.05라는 적절히 작은 값을 부여하여 최상의 성능을 끌어냅니다.
  • 지수 이동 평균 (Exponential Moving Average, EMA): 훈련 중 가중치의 변동성을 부드럽게 만들기 위해 EMA 감쇠율을 0.9999로 설정하여 과거의 안정적인 가중치 정보를 적절히 보존합니다.

 

데이터 증강의 취사선택

학습 데이터를 부풀려 모델의 강건함을 키우기 위해, 이미지의 일부 픽셀 영역을 무작위로 지워버리는 기법(Random Erasing)이나 색상 및 명암을 무작위로 변환하는 기법(RandAugment)은 모델 성능 향상에 긍정적으로 기여했습니다. 그러나 앞서 설명한 것처럼 두 이미지를 투명도를 주어 섞는 Mixup이나 다른 이미지의 패치를 잘라 붙이는 CutMix는 오히려 0.3%~0.7%의 성능 하락을 가져왔으므로 학습 파이프라인에서 완전히 제외됩니다.

 

출력 데이터

학습이 진행되는 동안 모델에 새로운 이미지를 입력하면, 모델은 최종적으로 "이 이미지는 1,000개의 카테고리 중 골든 리트리버일 확률이 85%, 푸들일 확률이 10%입니다"와 같은 형태의 클래스별 확률 분포(Probabilities) 데이터를 출력 포맷으로 반환합니다. 이 출력값과 실제 정답, 그리고 교사 모델이 내놓은 확률값을 함께 비교하여 오차(Loss)를 계산하고 역전파를 수행합니다.

 

7. 결과: 얼마나 좋아졌나? (Results)

제안된 학습 전략을 바탕으로 훈련된 GhostNetV3 모델은 성능과 속도 사이의 딜레마를 훌륭하게 극복하며 다방면에서 SOTA(State-of-the-Art) 수준의 결과를 보여줍니다.

방법론 (Method) 파라미터 수 (Params) 연산량 (FLOPs) 모바일 지연 시간 (Latency) ImageNet Top-1 정확도
MobileNet V2 1.0x 3.4M 300M 7.96ms 72.0%
ShuffleNet V2 1.0x 2.3M 146M 11.07ms 69.4%
MobileOne-S2 7.8M 1299M 40.28ms 77.4%
MobileFormer-508 14.0M 508M 129.58ms 79.3%
GhostNetV3 1.0x (Ours) 6.1M 167M 7.81ms 77.1%
GhostNetV3 1.3x (Ours) 8.9M 269M 14.46ms 79.1%
GhostNetV3 1.6x (Ours) 12.3M 399M 18.87ms 80.4%

 

 

비약적인 SOTA 정확도 달성 및 추론 속도 향상

성능 분석 결과를 살펴보면 GhostNetV3 1.3x 모델은 불과 269M FLOPs라는 매우 적은 연산 비용만으로 79.1%라는 높은 Top-1 정확도를 달성했습니다. 특히 실제 모바일 기기(Kirin 9000 CPU 탑재 환경)에서 추론 테스트를 수행했을 때 14.46ms라는 실시간 처리가 가능한 압도적인 속도를 보여줍니다. 수동으로 정교하게 설계된 강력한 경쟁 모델인 MobileOne-S2와 비교하면, 정확도는 1.7% 더 높으면서도 모바일 지연 시간은 40.28ms 대비 60%나 더 빠른 처리 속도를 보여줍니다. 심지어 79.3%로 비슷한 정확도를 기록한 최신 MobileFormer 모델의 경우 모바일 환경에서 129.58ms라는 지연 시간을 보여 실제 실시간 서비스 적용이 어려운 반면, GhostNetV3 1.6x는 그보다 훨씬 높은 80.4%의 정확도를 달성하면서도 지연 시간은 18.87ms에 불과하여 약 6.8배 이상 빠른 속도 우위를 자랑합니다.

 

타 아키텍처로의 범용성 입증

이 학습 전략의 놀라운 점은 그 효과가 GhostNet에만 국한되지 않는다는 것입니다. 연구진은 기존에 널리 사용되던 MobileNetV2와 ShuffleNetV2 아키텍처 구조를 조금도 변경하지 않고, 오직 본 논문에서 제안한 학습 레시피(재매개변수화 블록 임시 추가, 지식 증류 최적화 등)만을 적용하여 다시 학습을 진행했습니다. 그 결과 두 모델의 정확도가 기존 대비 각각 3.0%, 2.2%나 크게 상승하는 보편적 성능 향상 효과를 입증했습니다. 이는 무리한 구조 설계의 변경보다 올바른 학습 방법론의 채택이 얼마나 파괴적인 성능 향상 잠재력을 갖는지 증명하는 대목입니다.

 

객체 탐지(Object Detection) 과제에서의 성과

단순한 이미지 분류를 넘어 MS COCO 데이터셋을 활용한 객체 탐지 프레임워크에서도 GhostNetV3를 기본 백본(Backbone)으로 장착하여 성능을 측정했습니다. 그 결과 기존 MobileNetV2 대비 더 적은 FLOPs를 사용하면서도 평균 정밀도(mAP)를 향상시켜 다운스트림 태스크(Downstream task)에서도 훌륭한 강건성을 보였습니다.

 

솔직한 실패 케이스 및 한계점

연구진은 신뢰도를 높이기 위해 실패한 사례도 가감 없이 논문에 명시합니다. 재매개변수화 과정에서 1x1 깊이별 합성곱 경로를 포함하지 않고 무작정 병렬 가지(Branch)의 수만 늘릴 경우, 파라미터 연산량만 증가하고 오히려 성능이 떨어지는 현상이 관찰되었습니다. 또한 지식 증류(KD) 과정에서 교사 모델을 선택할 때, 아무리 좋은 훈련 기법이라도 교사 모델(Teacher)의 원래 인식 성능이 우수하지 않으면 학생 모델(GhostNetV3)이 전수받는 성능 향상의 폭도 그에 비례해 저조해진다는 의존성의 한계가 명확히 확인되었습니다. 더불어 지식 증류 시 온도를 조절하는 하이퍼파라미터(Temperature) 값을 높일 경우 경량 모델의 성능이 뚜렷하게 저하되는 민감성 역시 실패 케이스로 언급됩니다.

 

 

8. 이 논문의 계보와 발전 (Impact & Follow-ups)

GhostNetV3가 딥러닝 학계에 제시한 "경량 모델의 수용력에 맞는 맞춤형 학습 레시피가 필요하다"는 철학은 논문 발표 이후 수많은 후속 연구와 산업 응용 분야에 빠르게 스며들며 그 파급력을 넓히고 있습니다. 이 논문을 기반으로 발전한 최신 트렌드를 소개합니다.

  • 초저해상도 환경으로의 모델 소형화 적응 (GhostNetV3-Small, 2025년 최신 동향): 기존의 GhostNetV3는 고해상도(224x224 픽셀) 규격인 ImageNet 데이터셋의 특성에 맞춰 최적화된 상태였습니다. 그러나 최근 발표된 후속 연구 논문에서는 32x32 픽셀 수준의 극단적인 저해상도 이미지를 다루는 CIFAR-10과 같은 데이터셋 환경에 맞게 네트워크의 내부 하이퍼파라미터와 구조적 디테일을 재조정한 GhostNetV3-Small 변형 모델이 등장했습니다. 이 연구에서 도출된 매우 흥미로운 사실은, 이토록 작은 해상도를 다루는 초소형 모델 훈련 시에는 교사 모델을 여러 대 동원하는 앙상블 증류나 교사 보조(Teacher Assistant) 증류 등 복잡한 지식 증류 기법을 총동원해 보아도 오히려 아무런 기법을 쓰지 않은 기준치(Baseline)보다 정확도가 하락했다는 점입니다. 이는 경량화 모델 연구가 단순히 훈련 기법의 최적화를 넘어, 다루는 데이터의 해상도 스케일에 따라 아키텍처의 적응성(Adaptation)이 복합적으로 고려되어야 한다는 새로운 발전 방향을 학계에 던져줍니다.
  • 스마트 농업 및 산업 현장 특화 도메인으로의 이식 (I-GhostNetV3 활용 사례): 드론이나 노지에 설치된 소형 저전력 카메라로 농작물의 잎사귀 상태를 스캔하여 질병 유무를 실시간으로 탐지하는 스마트 농업 분야에서 GhostNetV3 구조가 적극적으로 채택되고 있습니다. 벼 잎의 세균성 및 진균성 병해충을 식별하는 연구에 GhostNetV3 구조가 베이스라인으로 적용된 I-GhostNetV3 프레임워크는, 자원이 빈약한 모바일 환경에서도 오작동 없이 높은 분류 성능과 공간적 어텐션(병변 부위 집중) 능력을 증명했습니다. 뿐만 아니라, 산업 현장의 진동 스크린 고장 진단을 위한 센서 데이터 분석 등 엣지 컴퓨팅 기반의 결함 탐지에도 이 구조가 응용되며 딥러닝 기술이 학계의 벤치마크를 넘어 실제 공장과 농장에 적용되는 마일스톤 역할을 하고 있습니다.

이 논문은 무작정 수백 개의 GPU를 동원해 새로운 네트워크 구조를 찾아 헤매는 신경망 구조 탐색(NAS) 위주의 비효율적인 연구 트렌드에서 벗어나, "이미 존재하는 훌륭하고 가벼운 구조를 어떻게 최상의 상태로 훈련시킬 것인가"라는 실리적인 최적화 중심 트렌드로 학계의 무게 중심을 옮기는 데 결정적인 역할을 수행하고 있습니다.

 

9. 마무리

지금까지 살펴본 바와 같이, GhostNetV3 논문은 딥러닝 경량화 분야에 매우 실용적이면서도 명확한 메시지를 전달합니다. 과거 연구자들은 모델의 최종 성능을 높이기 위해서는 단순히 모델의 층을 깊고 넓게 설계하거나 막대한 클라우드 컴퓨팅 자본을 들여 아키텍처 탐색(NAS) 알고리즘을 구동해야 한다고 굳게 믿었습니다. 하지만 본 연구는 모델이 담을 수 있는 그릇(Capacity)의 한계를 정확히 인지하고, 그 체급에 맞는 적절한 교육 방식(Training Strategy)만 채택해 주어도 이전 세대 모델들이 겪던 한계점을 가볍게 뛰어넘을 수 있음을 방대한 통계 수치로 증명했습니다.

 

다만, 이 훌륭한 기술을 실제 프로덕트 개발이나 실무 서비스에 도입하고자 할 때는 반드시 염두에 두어야 할 몇 가지 주의사항 및 제약 조건이 존재합니다.

 

첫째, 학습 단계에서의 GPU 메모리 소모량 증가 문제입니다. GhostNetV3는 실전인 추론 단계에서는 재매개변수화 기법을 통해 보조 가지들을 하나로 합쳐버리므로 메모리 사용량이 극히 적고 가볍게 동작합니다. 하지만 역설적으로 학습(Training)을 진행하는 동안에는 성능을 끌어올리기 위해 다수의 보조 연산 가지(Branches)를 병렬 구조로 메모리 상에 유지해야 하며, 지식 증류 과정에서 무거운 교사 모델(ResNet-101 등)의 파라미터까지 동시에 GPU 메모리에 올려놓고 순전파를 진행해야 합니다. 즉, 스마트폰에 올라갈 최종 결과물의 용량은 극도로 가볍지만, 그 가벼운 결과물을 정제해 내는 학습 서버 인프라는 역설적으로 일반 학습 방식보다 훨씬 더 큰 GPU VRAM 자원을 요구할 수 있다는 점을 실무 프로젝트 환경 및 예산 산정 시 반드시 고려해야 합니다.

 

둘째, 데이터 증강 파이프라인의 전면 재검토가 필수적입니다. 기존에 대형 모델을 튜닝하며 사내에 훌륭하게 구축해 놓은 Mixup이나 CutMix 기반의 데이터 증강 파이프라인 코드를 경량 모델 훈련에 비판적 사고 없이 그대로 복사해서 붙여넣기 한다면, 모델의 성능이 바닥을 치는 역효과를 마주하게 될 것입니다.

 

요약하자면, GhostNetV3 논문은 단순히 미세하게 파라미터 수를 조정한 새로운 네트워크 뼈대를 제안한 것을 넘어, 작은 모델을 거인처럼 강하게 키워내는 최적의 가이드라인을 집대성한 훌륭한 실무 지침서입니다.

 

반응형