일러두기 (Disclaimer)
본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.
논문 링크 : https://arxiv.org/abs/2211.12905
GhostNetV2: Enhance Cheap Operation with Long-Range Attention
Light-weight convolutional neural networks (CNNs) are specially designed for applications on mobile devices with faster inference speed. The convolutional operation can only capture local information in a window region, which prevents performance from bein
arxiv.org
초록 (Abstract)
경량화된 합성곱 신경망(Light-weight CNN)은 더 빠른 추론 속도를 바탕으로 모바일 기기에서의 응용을 위해 특별히 설계되었습니다. 그러나 합성곱(Convolution) 연산은 오직 제한된 지역(Window region) 내의 정보만을 포착할 수 있으며, 이는 모델의 성능을 더 이상 향상시키지 못하게 막는 장애물로 작용합니다. 합성곱 신경망에 자가 주의 집중(Self-attention) 기법을 도입하면 전역적인(Global) 정보를 잘 포착할 수 있지만, 실제 기기에서의 구동 속도를 크게 저하시키는 문제가 발생합니다.
본 논문에서는 하드웨어 친화적인 주의 집중 메커니즘인 DFC Attention(Decoupled Fully Connected Attention)을 제안하고, 이를 바탕으로 모바일 애플리케이션을 위한 새로운 GhostNetV2 아키텍처를 제시합니다. 제안된 DFC 주의 집중 기법은 완전 연결 계층(Fully-connected layers)을 기반으로 구성되어 일반적인 하드웨어 환경에서 빠르게 실행될 수 있을 뿐만 아니라, 멀리 떨어져 있는 픽셀들 간의 장거리 의존성(Long-range dependence)을 성공적으로 포착합니다.
더 나아가 본 연구는 이전 모델인 GhostNetV1에 존재했던 표현력(Expressiveness)의 병목 현상을 재검토합니다. 그리고 저렴한 연산(Cheap operations)을 통해 생성된 확장된 특징(Expanded features)들을 DFC 주의 집중 기법과 결합하여 강화함으로써, GhostNetV2 블록이 지역적 정보와 장거리 정보를 동시에 집계(Aggregate)할 수 있도록 구조를 개선했습니다. 광범위한 실험을 통해 GhostNetV2가 기존의 아키텍처들보다 우수함을 입증합니다. 예를 들어, ImageNet 데이터셋에서 167M FLOPs(부동소수점 연산량) 수준의 연산량으로 75.3%의 Top-1 정확도를 달성하였으며, 이는 유사한 연산 비용을 가진 이전 세대 모델 GhostNetV1(74.5%)의 성능을 크게 뛰어넘는 결과입니다.
1. 한줄 요약 & 3줄 핵심 (Executive Summary)
모바일 기기에서도 빠르게 동작할 수 있도록 주의 집중(Attention) 연산을 가로와 세로 방향으로 분리하여 단순화함으로써, 적은 연산량으로도 이미지 전체의 문맥을 파악하도록 설계된 경량 신경망 아키텍처입니다.
- 기존의 문제점 (Pain point): 스마트폰이나 웨어러블 기기에 탑재되는 경량화된 합성곱 신경망은 이미지의 좁은 영역만 볼 수 있어 전체적인 문맥 파악에 한계가 있었으며, 이를 극복하기 위해 트랜스포머(Transformer)의 주의 집중 기법을 차용할 경우 연산 복잡도와 메모리 접근 비용이 폭증하여 실제 모바일 기기에서 구동이 불가능할 정도로 느려지는 문제가 있었습니다.
- 이 논문의 해결책 (Solution): 주의 집중 연산을 복잡한 2차원 행렬 변환 대신, 하드웨어 최적화가 잘 되어 있는 1차원 합성곱을 이용해 가로 방향과 세로 방향으로 나누어 순차적으로 처리하는 'DFC Attention(분리된 완전 연결 주의 집중)' 기법을 고안하여 기존 GhostNet 블록의 확장 계층에 통합했습니다.
- 달성한 성과 (Key Result): 연산량(FLOPs)과 실제 추론 지연 시간(Latency)의 증가를 최소화하면서도 이미지 분류(ImageNet 75.3% 정확도), 객체 탐지(MS COCO), 의미론적 분할(ADE20K) 등 다양한 컴퓨터 비전 작업에서 기존 모바일 경량 모델들을 압도하는 성능을 달성했습니다.
2. 들어가며: 왜 이 연구가 필요했나? (The "Why")
딥러닝 모델을 현실 세계, 특히 스마트폰, 드론, 사물인터넷(IoT) 센서, 웨어러블 기기 등 엣지(Edge) 디바이스에 적용하기 위해서는 모델의 '가벼움'과 '빠름'이 필수적인 전제 조건입니다. 데이터 센터에 구축된 거대한 그래픽 처리 장치(GPU) 환경과 달리, 모바일 기기는 배터리 용량, 발열 제어, 그리고 메모리 대역폭 측면에서 극도로 제한된 자원을 가지고 있기 때문입니다.
과거 수년 동안 이러한 모바일 환경의 제약을 극복하기 위해 연구자들은 합성곱 연산 자체를 효율적으로 깎아내는 방식을 주로 채택해 왔습니다. AlexNet이나 ResNet과 같은 거대 모델들은 3x3 크기 이상의 필터를 사용해 공간 정보와 채널 정보를 한 번에 계산했지만, 연산량이 너무 많았습니다. 이를 해결하기 위해 등장한 MobileNet 시리즈는 공간을 처리하는 깊이별 합성곱(Depthwise Convolution)과 채널을 섞어주는 점별 합성곱(Pointwise Convolution)을 분리하여 연산량을 획기적으로 줄였습니다.
이어서 등장한 1세대 GhostNet(GhostNetV1) 모델은, 신경망이 만들어내는 특징 맵(Feature map)들 사이에 서로 비슷비슷한 중복 데이터가 많다는 점에 착안했습니다. 즉, 복잡한 1x1 점별 합성곱 연산으로 모든 특징을 새로 계산하는 대신, 절반의 특징만 일반 합성곱으로 만들고 나머지 절반은 연산 비용이 매우 저렴한 선형 연산(Cheap Operation)으로 원본 특징을 살짝 변형하여 생성하는 방식이었습니다. 이 아이디어는 모델의 크기와 연산량을 줄이면서도 정보의 손실을 막는 데 크게 기여했습니다.
하지만 이러한 합성곱 기반 경량화 방식들에는 공통적이고 치명적인 단점이 존재했습니다. 바로 '시야가 좁다(Local Receptive Field)'는 것입니다. 합성곱 연산은 기본적으로 3x3 또는 5x5 크기의 작은 창(Window)을 통해 이미지를 훑고 지나갑니다. 따라서 모델의 얕은 계층에서는 이미지 왼쪽 끝에 있는 사물과 오른쪽 끝에 있는 사물이 서로 어떤 관계를 맺고 있는지, 혹은 떨어져 있는 개체의 머리와 꼬리가 하나의 생명체라는 것을 한 번에 파악하지 못합니다. 신경망의 계층을 깊게 쌓으면 점진적으로 시야가 넓어지긴 하지만, 경량 모델은 연산량 제약 때문에 층을 깊게 쌓을 수 없으므로 전체적인 문맥(Global context)을 이해하는 능력이 근본적으로 떨어질 수밖에 없었습니다.
이러한 국소적 시야의 한계를 극복하기 위해 연구자들은 자연어 처리(NLP) 분야에서 혁신을 일으킨 트랜스포머의 '자가 주의 집중(Self-Attention)' 메커니즘을 시각 정보 처리에 도입하려고 시도했습니다. 주의 집중 기법은 이미지 내의 모든 픽셀들이 서로 얼마나 연관되어 있는지를 행렬 곱셈을 통해 한 번에 계산하므로, 이미지 전체의 문맥을 즉각적으로 파악할 수 있게 해줍니다.
그러나 여기서 두 번째 거대한 장벽에 부딪힙니다. 전통적인 주의 집중 기법은 입력되는 픽셀 개수의 '제곱'에 비례하여 연산량과 메모리 사용량이 폭발적으로 증가하는 구조적 결함을 가지고 있습니다. 예를 들어 해상도가 조금만 커져도 연산량이 기하급수적으로 늘어납니다. 게다가 이 연산을 수행하기 위해 입력 데이터를 일정한 크기의 조각(Patch)으로 쪼개고, 텐서의 차원을 바꾸며(Reshape), 전치(Transpose)하는 과정이 필수적입니다. 이러한 메모리 복사 및 재배치 작업은 이론적인 수학 연산량(FLOPs) 지표에는 잘 나타나지 않지만, 실제 모바일 기기의 메모리 접근 속도에는 심각한 병목 현상을 일으킵니다. 실제로 기존 GhostNet 모델에 일반적인 트랜스포머의 자가 주의 집중(Self-Attention) 기법을 단순히 추가해 보면, 이론적인 연산량(FLOPs)은 약 20% 정도만 증가함에도 불구하고 실제 ARM 아키텍처 기반 모바일 기기(Kirin 980 CPU)에서 구동할 경우 지연 시간이 31.1ms에서 72.3ms로 무려 2배 이상 느려지는 결과를 보여줍니다.
결론적으로 컴퓨터 비전 연구자들은 다음과 같은 깊은 고민과 딜레마에 빠지게 되었습니다. "모바일 기기에서 텐서의 형태를 바꾸는 지연 시간을 발생시키지 않고, 무거운 행렬 곱셈의 늪에 빠지지도 않으면서, 이미지 전체를 한눈에 바라볼 수 있는 넓은 시야(Long-range dependency)를 모델에 부여할 방법은 없을까?" GhostNetV2 논문은 바로 이 모순적인 요구사항들을 동시에 만족시키기 위한 발상의 전환을 다루고 있습니다.
3. 이 논문의 뿌리 (Key Reference)
이 논문은 기존 경량화 네트워크의 한계를 돌파하기 위해 컴퓨터 비전 분야의 뼈대가 되는 핵심 연구들의 철학을 비판적으로 계승하고 상호 보완적으로 융합했습니다. 이 논문이 탄생하는 데 결정적인 영감을 제공한 세 가지 핵심 연구와 그 관계성은 다음과 같습니다.
- MobileNetV2 (2018): 뒤집힌 병목 구조 (Inverted Residual Bottleneck)의 차용 이 논문은 모바일 환경에서 가장 효율적인 데이터 흐름을 정의한 MobileNetV2의 블록 구조를 기본 뼈대로 사용합니다. 기존의 병목 구조는 연산량을 줄이기 위해 채널 수를 먼저 줄였다가 다시 늘렸지만, MobileNetV2는 오히려 중간 계층의 채널 수를 크게 확장(Expand)하여 풍부한 고차원 정보를 추출한 뒤, 다시 얇게 압축하여 다음 계층으로 전달하는 '뒤집힌 병목 구조'를 제안했습니다. GhostNetV2는 이 구조를 채택함과 동시에, 특징이 가장 넓게 확장된 중간 지점이 모델의 표현력(Expressiveness)을 결정짓는 핵심 구역임을 파악하고, 바로 이 지점에 집중적으로 주의 집중 메커니즘을 투입하여 성능 향상을 극대화했습니다.
- GhostNetV1 (2020): 저렴한 연산 (Cheap Operations) 철학의 계승과 비판 본 논문의 직접적인 전신이자 기초가 되는 연구입니다. GhostNetV1은 특징 맵의 채널 절반을 1x1 합성곱으로 만들고, 나머지 절반은 3x3 깊이별 합성곱과 같은 연산 비용이 사실상 0에 가까운 '저렴한 연산'으로 복제 및 변형하여 생성하는 혁신을 이루었습니다. 하지만 GhostNetV2의 저자들은 이전 연구를 계승하면서도 비판적인 시각을 놓지 않았습니다. 저렴한 연산으로 만들어진 절반의 특징들은 근처 픽셀 정보만 담고 있을 뿐, 다른 공간의 픽셀들과는 정보 교환이 전혀 이루어지지 않는다는 점을 지적했습니다. 따라서 본 논문은 특징을 생성하는 기본 철학은 V1을 따르되, 결핍되었던 공간적 상호작용 능력을 새롭게 제안한 DFC 주의 집중 기법으로 보완하여 완성도를 높였습니다.
- Vision Transformer (ViT, 2020) & MobileViT (2021): 전역적 문맥 파악의 목표 설정과 구현 방식의 탈피 멀리 떨어진 픽셀 간의 관계를 파악한다는 아이디어의 원천은 트랜스포머 구조에서 왔습니다. 하지만 GhostNetV2는 ViT나 MobileViT에서 사용하는 '쿼리(Query)와 키(Key) 간의 내적(Dot-product)' 기반 자가 주의 집중 연산을 모바일 생태계의 암적인 존재로 규정하고 과감히 버렸습니다. 대신, 고해상도 이미지를 패치(Patch)로 분할하고 행렬을 곱하는 방식 대신, 고정된 가중치를 학습하는 완전 연결 계층(Fully Connected Layer)만을 이용해 주의 집중 지도를 생성하도록 구조를 전면 재설계했습니다. 즉, 트랜스포머의 '목적'은 수용하되, 모바일 기기에 부적합한 '수단'은 버리는 실용주의적 접근을 취한 것입니다.
4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)
GhostNetV2가 제안한 가장 결정적인 혁신이자 문제 해결의 열쇠는 'DFC Attention (Decoupled Fully Connected Attention)'이라는 새로운 개념의 주의 집중 메커니즘입니다. 복잡한 수식과 기호들을 배제하고 이 구조의 발명 과정을 일상적인 비유를 통해 쉽게 풀어보겠습니다.
이미지에서 특징을 추출할 때, 가장 이상적인 방법은 이미지 내의 '모든 픽셀'이 다른 '모든 픽셀'과 서로 어떻게 연결되어 있고 얼마나 중요한지를 한 번에 묻고 답하는 것입니다. 이를 수학적으로 구현하는 가장 직관적인 방법은 입력 데이터 전체를 커다란 완전 연결 계층(Fully Connected Layer)에 통과시키는 것입니다. 만약 입력 이미지가 $H$(높이) $\times$ $W$(너비) 크기라면, 총 $H \times W$개의 픽셀이 존재합니다. 이 모든 픽셀들이 서로 일대일로 통신하려면 $(H \times W)$ 곱하기 $(H \times W)$, 즉 공간 크기의 제곱에 해당하는 막대한 연산량이 필요합니다. 이는 고성능 서버에서는 가능할지 몰라도 스마트폰에서는 불가능한 작업입니다.
여기서 연구진은 차원 축소라는 획기적인 비유와 발상의 전환을 시도합니다.
수천 명의 학생이 가로와 세로로 줄을 맞춰 커다란 운동장에 서 있다고 상상해 보겠습니다. 기존의 트랜스포머 방식이나 단순 완전 연결 계층 방식은, 교장 선생님이 단상에 서서 모든 학생 개개인에게 일일이 다가가 다른 모든 학생과의 관계를 물어보는 것과 같습니다. 이는 시간이 엄청나게 오래 걸리고 비효율적입니다. 반면, 본 논문이 제안한 DFC Attention 방식은 행(가로)과 열(세로)을 분리하여(Decoupled) 처리합니다. 먼저 각 분단장에게 '자기 분단의 앞뒤(세로) 줄에 있는 학생들'의 정보만 모아서 요약하도록 지시합니다. 그 다음, 학년장에게 '각 분단장들이 모아온 (가로) 줄의 요약 정보'를 다시 한 번 취합하게 합니다. 이렇게 단 두 단계만 거치면, 모든 학생이 직접 대화하지 않아도 전체 전교생의 동향을 간접적으로 파악할 수 있으며 소통하는 횟수(연산량)는 비약적으로 줄어듭니다.
기존 트랜스포머 모델들은 데이터를 연산하기 위해 텐서의 형태를 변경(Reshape 및 Transpose)해야 했습니다. 이러한 데이터 변환 작업은 컴퓨터 하드웨어 구조상 캐시 메모리 실패(Cache miss)를 유발하여 배터리를 크게 소모하고 연산을 지연시킵니다. 하지만 GhostNetV2는 데이터를 억지로 쪼개거나 모양을 바꾸지 않습니다. 기존 CNN 최적화 도구들(예: 안드로이드의 TFLite, ONNX 등)이 가장 잘하고 빠르게 처리할 수 있는 1차원 깊이별 합성곱(Depthwise Convolution) 연산을 세로 방향과 가로 방향으로 연속해서 수행하는 것만으로 이 과정을 완벽하게 대체했습니다.
이전에는 픽셀 수의 제곱($H^2W^2$) 복잡도를 가졌던 무거운 연산이, 이 발상의 전환을 통해 가로와 세로 길이에 비례하는 선형적인 수준($H^2W + HW^2$)으로 대폭 줄어들게 된 것입니다.
5. 작동 원리: 어떻게 돌아가는가? (The "How")
이제 이론적인 DFC Attention 아이디어를 실제 신경망 블록인 GhostNetV2 Bottleneck (병목 구조) 내부에 어떻게 유기적으로 조립했는지 데이터의 흐름(Flow)을 따라가며 단계별로 살펴보겠습니다.
전체적인 구조는 입력 데이터가 들어오면 두 갈래의 평행한 길(Parallel Branch)로 나뉘어 각각 다른 방식으로 처리된 후, 마지막에 다시 합쳐지는 형태를 취하고 있습니다.
Step 1. 데이터의 분기 (Branching)
이전 블록으로부터 전달된 입력 데이터(예: 이미지의 특징을 담고 있는 3차원 블록 형태의 텐서)가 들어오면, 이 데이터는 두 가지 경로로 동시에 복사되어 전달됩니다. 하나는 본래의 정밀한 지역적 특징을 추출하는 'Ghost 갈래(Ghost Branch)'이며, 다른 하나는 이미지의 넓은 문맥을 파악하는 '주의 집중 갈래(Attention Branch)'입니다.
Step 2. Ghost 갈래에서의 지역적 특징 추출 (Local Feature Extraction)
이 갈래에서는 이전 세대인 GhostNetV1의 장기를 그대로 발휘합니다. 먼저 입력 데이터를 1x1 합성곱 필터에 통과시켜 데이터가 가진 핵심적인 특징(Intrinsic feature)을 압축해서 뽑아냅니다. 그 후, 연산량이 매우 적은 저렴한 연산(Cheap operation, 주로 3x3 크기의 깊이별 합성곱)을 통해 압축된 특징을 약간씩 변형시켜 추가적인 특징 맵(Ghost feature)을 만들어 냅니다. 원본 핵심 특징과 새롭게 생성된 추가 특징을 채널 방향으로 이어 붙여(Concatenation), 채널 수가 크게 확장된(Expanded) 뚱뚱한 특징 맵을 완성합니다. 이 과정은 매우 빠르지만 오직 가까운 지역의 픽셀 정보만 담고 있습니다.
Step 3. 주의 집중 갈래에서의 전역적 문맥 추출 (DFC Attention Flow)
- 축소 (Down-sampling): 먼저 최대값 풀링(Max Pooling)이나 평균 풀링(Average Pooling)을 사용해 이미지 특징 맵의 가로와 세로 크기를 각각 절반으로 줄입니다. 가로와 세로가 반으로 줄어들면 면적은 4분의 1이 되므로, 이후 진행될 주의 집중 연산량(FLOPs)이 무려 75%나 감소하는 효과를 얻습니다. 논문의 실험 결과에 따르면 최대값 풀링이 평균 풀링보다 미세하게 더 빠른 추론 속도를 보였습니다.
- 가로 및 세로 방향 연산: 크기가 축소된 데이터에 1x1 합성곱을 거친 후, 앞서 비유로 설명한 세로 방향 1차원 필터와 가로 방향 1차원 필터를 차례로 적용하여 멀리 떨어진 픽셀들의 정보를 십자 형태로 서로 교환하게 만듭니다.
- 활성화 함수 적용 (Sigmoid): 데이터를 0과 1 사이의 값으로 정규화해주는 시그모이드(Sigmoid) 함수를 통과시킵니다. 결과값이 1에 가까울수록 "이 위치의 정보는 모델 판단에 매우 중요해!", 0에 가까울수록 "여기는 배경이거나 노이즈니까 무시해"라는 가중치를 의미하게 됩니다. 특히 이 연산을 데이터 크기가 축소되어 있는 상태에서 미리 수행함으로써 지연 시간을 크게 단축했습니다.
- 복원 (Up-sampling): 크기가 작아진 주의 집중 지도를 다시 원래 입력 데이터 크기에 맞게 이중 선형 보간법(Bilinear interpolation)을 사용하여 부드럽게 확대합니다. 이 갈래는 앞서 설명한 DFC 메커니즘을 이용해 멀리 있는 픽셀 정보를 가져옵니다. 그런데 여기서 실제 모바일 구동 속도를 높이기 위한 아주 똑똑한 최적화 기법이 추가됩니다. 아무리 DFC 연산이 가벼워도 입력 해상도 그대로 진행하면 여전히 부담이 되기 때문입니다.
Step 4. 요소별 곱셈을 통한 정보의 융합 (Multiplication)
가장 중요한 단계입니다. Step 2에서 만들어진 지역적 정보가 풍부한 특징 맵과 Step 3에서 만들어진 전체 문맥의 중요도 지도(Attention Map)를 요소별로 곱합니다(Element-wise multiplication). 이때 주의 집중 지도는 마치 셀로판지 필터처럼 작용합니다. 확장된 특징 맵에서 사물을 판별하는 데 중요한 픽셀의 정보는 1에 가까운 값이 곱해져 그 신호가 더욱 강하게 살아나고, 불필요한 배경 노이즈는 0에 가까운 값이 곱해져 억제됩니다. 즉, 좁은 시야를 가진 특징 맵이 주의 집중 지도의 도움을 받아 멀리 있는 문맥을 이해하게 되는 융합이 일어납니다.
Step 5. 최종 압축 및 출력 (Output)
융합된 특징 맵을 마지막으로 1x1 합성곱 필터에 통과시켜 채널 수를 원래 목표했던 크기로 다시 줄여줍니다(압축). 이렇게 생성된 출력값이 다음 신경망 블록으로 전달됩니다. 이로써 연산량을 지키면서도 강력한 표현력을 가지게 된 GhostNetV2의 병목 블록 1회 사이클이 종료됩니다.
6. 작동 원리: 어떻게 학습하는가? (The "How")
제안된 신경망 아키텍처가 실제 객체를 식별하기 위해서는 데이터 학습 과정이 필요합니다. 본 연구에서는 컴퓨터 비전 분야의 표준 데이터셋을 활용하여 모델을 학습시켰으며, 구체적인 학습 데이터와 환경 설정은 다음과 같습니다.
입력 데이터 (Input Data)
가장 핵심적인 뼈대 학습(Pre-training)은 대규모 이미지 분류 대회 데이터셋의 표준인 ImageNet (ILSVRC 2012) 데이터셋을 통해 이루어집니다.
- 종류 및 포맷: 2차원(2D) 형태의 RGB 색상을 가진 이미지 데이터와, 그 이미지가 무엇인지를 설명하는 정답 텍스트 라벨(Text Label) 쌍으로 구성됩니다. 이 이미지들은 컴퓨터가 연산할 수 있도록 높이 224, 너비 224, 그리고 3개의 색상 채널(빨강, 초록, 파랑)을 가진 숫자 배열 형태인 $224 \times 224 \times 3$ 차원의 텐서(Tensor)로 변환되어 모델에 입력됩니다.
- 수량 및 예시: 약 128만 장의 방대한 학습용 이미지와 모델의 성능을 평가하기 위한 5만 장의 검증용 이미지를 사용합니다. 예를 들어, 모델에 입력되는 한 장의 이미지가 '풀밭 위를 뛰노는 웰시코기의 픽셀 값 배열'이라면, 이에 대한 정답 라벨은 컴퓨터가 인식할 수 있는 고유 클래스 번호인 숫자 '263(웰시코기)'으로 주어집니다.
- 데이터 증강 및 학습 파라미터 (Data Augmentation & Training Settings): 딥러닝 모델은 단순히 원본 이미지만 반복해서 보여주면 해당 이미지에만 암기하듯 과적합(Overfitting)됩니다. 이를 방지하고 모델의 강건함을 높이기 위해 무작위로 이미지의 크기를 조절하거나(Random Resizing), 일부를 잘라내고(Cropping), 좌우로 뒤집는(Flipping) 등의 데이터 증강을 수행합니다. 한 번에 여러 장의 이미지를 묶어서 모델에 보여주는 배치 크기(Batch Size)는 256을 기본으로 사용하며, 경우에 따라 분산 학습을 위해 1024 이상의 큰 배치를 사용하기도 합니다. 학습률(Learning Rate) 최적화의 경우, 일반적으로 0.01 또는 0.05 수준에서 시작하여 점진적으로 부드럽게 줄여나가는 코사인 어닐링(Cosine Annealing) 스케줄을 사용하고, 모멘텀을 가진 확률적 경사 하강법(SGD with Momentum) 최적화 도구를 사용합니다. 흥미로운 점은, V2 이후 연구된 후속 논문(GhostNetV3 등)에서 밝혀진 바에 따르면, 거대 모델에서 흔히 쓰이는 복잡한 이미지 혼합 증강 기법(예: 두 이미지를 반반 섞는 Mixup이나 패치를 잘라 붙이는 CutMix)은 파라미터 수가 적은 경량 모델의 용량 한계로 인해 오히려 학습의 혼란을 가중시킬 수 있으므로 적용을 피하거나 신중해야 한다는 점입니다.
출력 데이터 (Output Data)
- 분류 과제 출력: $224 \times 224 \times 3$ 크기의 이미지가 수많은 GhostNetV2 계층을 차례로 통과하여 최종적으로 나오면, 1000개의 요소를 가진 1차원 숫자 배열(Vector) 형태로 변환되어 출력됩니다. 이 배열의 각 숫자는 입력된 이미지가 1000개의 사물 종류 중 각각 어디에 속할지에 대한 0과 1 사이의 '확률값'을 나타냅니다.
- 예시: 배열의 263번째 값이 '0.95', 264번째 값이 '0.01', 999번째 값이 '0.001' 등으로 나타난다면, 모델은 "이 이미지는 95%의 확률로 웰시코기이고, 1%의 확률로 맬러뮤트입니다"라고 최종 답을 내놓는 것입니다. 이 예측된 확률 분포와 실제 정답 라벨 사이의 오차(Loss)를 수치화하여 계산하고, 이 오차를 줄이기 위해 뒤에서부터 앞 계층으로 거슬러 올라가며 가중치를 미세하게 수정해 나가는 과정(역전파, Backpropagation)이 바로 학습의 본질입니다.
- 하위 과제 (Downstream Tasks) 전이 학습 시 출력: ImageNet 데이터로 사물을 인식하는 기본기를 다진 모델은 이후 목적에 따라 자율주행이나 산업용 드론 등에 필요한 객체 탐지(Object Detection) 데이터셋(예: MS COCO)으로 목적에 맞게 재학습(Fine-tuning)됩니다. 이때는 단순히 물체의 종류에 대한 클래스 확률뿐만 아니라, 사진 속에서 객체가 정확히 어디에 위치해 있는지를 나타내는 공간 좌표 정보(객체를 둘러싼 경계 상자의 중심 x, y 좌표 및 너비, 높이 값)까지 숫자의 배열 형태로 함께 예측하여 출력하게 됩니다.
7. 결과: 얼마나 좋아졌나? (Results)
새로운 아키텍처의 실효성을 검증하기 위해서는 단순한 정확도의 향상뿐만 아니라, 제한된 하드웨어 자원 내에서 연산 비용 대비 성능(Trade-off)을 얼마나 개선했는지 평가하는 것이 중요합니다.
부동소수점 연산량(FLOPs) 대비 최고 수준의 정확도 달성 (ImageNet)
컴퓨터 비전 분야의 절대적인 기준점인 ImageNet 분류 평가에서, GhostNetV2는 당시 존재하던 경량 모델들을 압도하는 효율성을 증명했습니다. 가장 대표적인 지표를 살펴보면, 모델이 1회의 이미지를 추론할 때 필요한 연산 횟수가 167M FLOPs(약 1억 6천 7백만 번의 연산)로 고정된 동일한 환경에서, GhostNetV2는 75.3%의 Top-1 정확도를 기록했습니다. 이와 유사한 연산 비용을 지불할 때 이전 모델인 GhostNetV1은 74.5%에 머물렀으며, 구글이 자랑하던 모바일 SOTA(State-of-the-art) 네트워크인 MobileNetV3 역시 넘어선 수치입니다. 전체 연산량을 무겁게 늘리지 않으면서, 오직 가로 세로 방향의 DFC Attention을 더해 멀리 떨어진 픽셀 간의 연관성을 파악하는 능력을 주입한 것만으로 무려 0.8% 포인트의 놀라운 화질 이해도 상승을 이끌어낸 것입니다.
실제 하드웨어에서의 지연 시간 (Latency) 검증
이론적인 수학 연산량(FLOPs)이 아무리 낮아 보여도, 데이터를 메모리에서 싣고 내리는 구조가 복잡하면 모바일 기기에서는 캐시 메모리 병목으로 인해 앱이 심각하게 느려집니다. 연구진은 가상의 시뮬레이션에 그치지 않고, 실제 안드로이드 스마트폰 하드웨어(Kirin 980 CPU가 탑재된 화웨이 P30)에서 TFLite 툴킷을 이용해 밀리초(ms) 단위의 실제 추론 지연 시간을 정밀하게 측정했습니다.
| 모델명 | 목표 모델군 | 정확도 (Top-1) | 연산량 (FLOPs) | 스마트폰 실제 추론 시간 (Latency) |
| MobileViT | 트랜스포머 기반 경량 모델 | 74.8% | 약 700M | 72.3 ms |
| MobileNetV2 | 합성곱 기반 표준 모델 | 72.8% | 300M | 정보 없음 |
| GhostNetV1 1.1x | 이전 세대 경량 모델 | 74.5% | 168M | 31.1 ms |
| GhostNetV2 1.0x | 본 논문 제안 모델 | 75.3% | 167M | 37.5 ms |
표에서 분명하게 나타나듯, 트랜스포머의 주의 집중을 1차원 시각 정보에 가져다 쓴 MobileViT 모델은 연산량 자체도 높지만, 실제 구동 시간이 무려 72.3ms에 달해 스마트폰 환경에서 실시간 30프레임 구동이 사실상 버겁습니다. 반면 GhostNetV2는 DFC Attention이라는 새로운 돌파구를 통해, V1과 거의 유사한 쾌적한 속도(37.5ms)를 유지하면서도 무거운 트랜스포머 모델보다 오히려 높은 정확도를 달성하는 데 성공했습니다.
객체 탐지 및 의미론적 분할 등 하위 과제에서의 비약적 성장
이미지 중앙에 위치한 큼직한 사물을 분류하는 것을 넘어, 자율 주행의 눈 역할을 하는 객체 탐지 및 분할 과제에서도 장거리 주의 집중의 위력이 입증되었습니다.
- 객체 탐지 (MS COCO 데이터셋 + YOLOv3 결합): 여러 크기의 사물이 섞여 있는 복잡한 거리 사진에서, 기존 모델보다 훨씬 더 넓은 범위를 인식하여 사물을 찾아내는 mAP(평균 정밀도) 지표를 기존 대비 0.5~1.0 포인트 이상 향상시켰습니다.
- 의료 및 의미론적 분할 (ADE20K 데이터셋 + DeepLabV3 결합): 화면 내의 모든 개별 픽셀이 도로인지, 인도인지, 사람인지를 픽셀 단위로 색칠하며 분류하는 의미론적 분할에서는 mIoU(평균 교차 결합 비율)가 기존 34.17%에서 35.52%로 눈에 띄게 상승했습니다. 화면 구석에 있는 자전거 바퀴의 픽셀이, 반대편 구석에 있는 자전거 핸들의 픽셀과 연관되어 있다는 전체 맥락을 DFC Attention이 파악해 낸 덕분입니다.
솔직한 한계점 및 실패 사례 (Ablation Insights)
신뢰도를 높이는 연구답게, 연구진은 실패한 설계 과정도 투명하게 통제 변인(Ablation) 실험을 통해 공개했습니다. 예를 들어 DFC Attention 내에서 가로 세로를 탐색하는 1차원 필터의 크기(Kernel size)가 1x3이나 3x1 정도로 너무 작으면 장거리 픽셀들의 의존성을 충분히 포착하지 못해 오히려 성능이 가장 낮게 나타났습니다. 반대로 필터 크기를 지나치게 키우면 연산량이 폭증하는 한계점이 존재했습니다. 결국 여러 실험 끝에, 모델의 층(Stage)에 따라 커널 크기를 다르게 조합하는 것이 효과적임이 밝혀졌습니다. 논문에 따르면 각 스테이지별 커널 크기를 (9, 7, 5)로 조합했을 때 75.3%로 최적의 성능을 달성했습니다. 또한, 병목(Bottleneck) 블록 설계 시 확장된(Expanded) 층이 아닌, 마지막으로 채널이 압축되어 나가는 출력 특징층에 주의 집중을 적용하려 시도했으나, 이는 블록이 감당할 수 있는 정보 허용량(Capacity) 자체를 혼란스럽게 만들어 모델의 성능 개선 폭이 크게 떨어지는 결과(74.8%)를 가져왔습니다. 이는 모델 설계 시 어느 위치에 주의 집중을 배치하느냐가 얼마나 중요한지를 보여주는 귀중한 실패 사례이자 교훈입니다.
8. 이 논문의 계보와 발전 (Impact & Follow-ups)
GhostNetV2가 2022년에 처음 제안된 이후, 이 구조는 단순히 하나의 논문으로 끝나지 않고 모바일 및 엣지(Edge) 인공지능 연구 커뮤니티에 강력한 파문을 일으켰습니다. 2024년과 2025, 2026년에 이르기까지 다양한 컴퓨터 비전 트렌드와 산업 응용 모델의 든든한 백본(Backbone, 뼈대) 네트워크로 널리 계승 및 발전되고 있습니다.
- GhostNetV3의 탄생과 경량 모델 학습 방법론의 진화 (2024): GhostNetV2의 아키텍처 자체가 아무리 뛰어나더라도, 무거운 일반 신경망의 최신 데이터 학습 기법을 무비판적으로 그대로 가져오면 경량 모델의 한정된 수용력(Capacity) 때문에 오히려 성능이 저하된다는 사실이 후속 연구에서 밝혀졌습니다. 이를 바탕으로 2024년에 발표된 GhostNetV3 논문은 V2의 우수한 DFC Attention 구조적 개념을 그대로 차용하면서, 거대 모델(Teacher)이 지닌 고도의 지식을 경량 모델(Student)에 효율적으로 주입하여 전수하는 지식 증류(Knowledge Distillation, KD) 훈련 기법을 고도화했습니다. 더불어 경량 모델 전용 맞춤형 훈련 레시피를 결합한 결과, 1.3배 모델 기준으로 불과 269M FLOPs만으로 79.1%라는 놀라운 Top-1 정확도를 달성하며 경량 네트워크의 한계를 한 단계 더 끌어올렸습니다.
- 산업 및 농업용 로봇 컴퓨터 비전 응용의 폭발적 증가 (2025-2026):
- 자율 비행 드론의 전력선 회피 (Mamba-GhostNet v2): 가장 최신 연구 동향인 2026년 발표 논문에서는, 시계열 데이터를 선형 시간에 처리하여 텍스트 생성에서 혁신을 일으키고 있는 차세대 구조 'Mamba'를 GhostNetV2와 결합한 'GD-DAMNet' 시스템을 선보였습니다. 도심이나 산악 지대에서 드론 비행 시 생존을 위협하는 미세한 고압 전력선(장거리로 길게 이어진 객체)의 존재 여부를 초당 수십 프레임의 실시간(Real-time)으로 91.4% 이상의 높은 정확도로 인식할 수 있게 만들었으며, 이는 오직 DFC Attention이 제공하는 가볍고 넓은 시야가 있었기에 가능한 응용이었습니다.
- 농업용 자동화 비전 시스템 (GLL-YOLO): 블루베리의 성숙도를 판단하거나 옥수수밭의 잡초를 식별하여 정밀 타격하는 농업용 로봇 기술에서도 GhostNetV2의 입지는 확고합니다. YOLOv8과 같은 최신 객체 탐지 알고리즘의 복잡한 특징 추출 뼈대를 GhostNetV2로 교체 적용함으로써, 기존 무거운 모델 대비 전체 파라미터와 모델 크기를 무려 46.7%나 줄였습니다. 그러면서도 수확기 과일이 나뭇잎에 가려진 열악한 상황을 장거리 문맥으로 추론하여 탐지 mAP 정확도를 오히려 향상시키는 쾌거를 이루었습니다.
- 무겁고 전력 소모가 심한 최신형 GPU를 탑재할 수 없어 연산력이 빈약한 소형 자율 비행 드론(UAV)이나 농업 기계 생태계에서 GhostNetV2는 사실상 구세주 역할을 하고 있습니다.
- 의료 영상 진단 및 정밀 분할 네트워크의 대안 (Medical Image Analysis): 최근 2024년에서 2025년 사이, 대형 병원의 데이터 센터가 아닌 한정된 현장 의료 장비나 엣지 기기에서 즉각적으로 동작해야 하는 폐암 CT 사진 판독 기술이나 흑색종 피부 병변 분할(GA-UNet 등) 연구에서도 GhostNetV2의 병목 구조가 훌륭한 대안으로 속속 채택되고 있습니다. 의료 영상 특성상 미세한 종양 부위(국소적 특징)와 전체 장기의 구조적 분포(전역적 문맥)를 동시에 파악하는 것이 생명인데, 막대한 메모리를 차지하는 트랜스포머 아키텍처 없이도 GhostNetV2의 DFC Attention이 이 두 가지 상반된 정보를 성공적으로 융합시켜 신뢰도 높은 판독 결과를 의료진에게 제공하기 때문입니다.
9. 마무리
컴퓨터 비전 분야의 발전 흐름을 거시적인 전문가적 시각에서 평가할 때, GhostNetV2 논문은 딥러닝 응용 분야, 특히 온디바이스(On-device) AI 및 엣지 컴퓨팅 생태계에 "검증된 합성곱(CNN)의 빠른 효율성 체계 위에서 어떻게 트랜스포머(Transformer)의 거시적인 통찰력을 가장 현실적으로 구현할 것인가?"에 대한 명쾌하고도 실용적인 해답을 제시한 매우 중요한 이정표라고 할 수 있습니다.
단순히 새로운 수학적 수식을 덧붙이거나 복잡한 연산을 나열하는 학술적 유희에 그치지 않고, 스마트폰 및 드론과 같은 실제 엣지 하드웨어 칩셋(CPU, NPU)이 본질적으로 '텐서 재배열 및 메모리 복사'에 취약하고 '순차적인 1차원 합성곱 연산'에는 최적화되어 강하다는 하드웨어 친화적(Hardware-aware) 특성을 아키텍처 설계의 최우선 기준으로 삼은 점이 이 연구가 지닌 가장 빛나는 통찰입니다. DFC Attention은 이러한 물리적 제약을 유연하게 우회하면서도 이미지 전반에 걸친 정보의 연관성을 성공적으로 포착하여, '연산은 싸게(Cheap) 만들고, 시야는 넓게(Long-range) 가져간다'는 궁극적인 목표를 훌륭하게 달성했습니다.
하지만 현업 연구원이나 개발자가 자율 주행 소프트웨어나 모바일 비전 애플리케이션에 본 모델을 당장 적용하고자 할 때는 반드시 유념해야 할 실무적인 주의점과 한계가 존재합니다.
첫째, 연산 효율성의 함정입니다. DFC Attention 메커니즘은 연산량을 줄이기 위해 내부적으로 특징 맵의 가로 세로 크기를 크게 축소(Max Pooling 등)시켰다가 다시 확대로 복원(Up-sampling)하는 방식을 취합니다. 이 다운샘플링 과정에서 미세하고 날카로운 픽셀 단위의 경계선 정보가 불가피하게 유실되거나 흐릿해질 위험이 있습니다. 따라서 의료용 세포 검출이나 산업용 초정밀 결함 탐지처럼 눈금자 수준의 정교한 테두리 추출이 필요한 특수 분야에 적용할 때는, 풀링의 축소 비율을 신중하게 조절하거나 고해상도 특징을 그대로 보존하여 넘겨주는 추가적인 스킵 연결(Skip-connection)을 설계하는 보완 작업이 필수적으로 요구됩니다.
둘째, 모델 이식 과정의 훈련 난이도입니다. 최근의 깃허브 등 개발자 커뮤니티 동향을 살펴보면, 기존 YOLO 시스템 등에 사용자 정의 뼈대로 GhostNetV2를 이식할 때 DFC 구조 내부의 시그모이드 활성화 함수 및 다운샘플링 레이어의 위치에 대한 세밀한 튜닝이 동반되지 않으면, 훈련 시 네트워크의 오차(Loss)가 제대로 감소하지 않고 정체되는 현상도 종종 보고된 바 있습니다. 즉, 모듈의 구조가 일반 합성곱보다 정교해지고 복잡해진 만큼, 초기 하이퍼파라미터 설정과 최적화 도구(Optimizer) 선택에 있어서 이전 세대 단순 모델들보다 훨씬 더 깊은 이해도와 신중함이 필요합니다.