일러두기 (Disclaimer)
본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.
논문 링크 : https://arxiv.org/abs/2301.03580
Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling
We identify and overcome two key obstacles in extending the success of BERT-style pre-training, or the masked image modeling, to convolutional networks (convnets): (i) convolution operation cannot handle irregular, random-masked input images; (ii) the sing
arxiv.org
초록 (Abstract)
이 논문은 자연어 처리 분야에서 성공을 거둔 BERT 스타일의 사전 학습(Pre-training), 즉 마스킹 이미지 모델링(Masked Image Modeling, MIM)을 합성곱 신경망(Convolutional Networks, CNNs)으로 확장하는 데 있어 발생하는 두 가지 핵심적인 장애물을 식별하고 이를 극복합니다. 첫째, 기존의 합성곱 연산은 불규칙하고 무작위로 마스킹된 입력 이미지를 처리할 수 없습니다. 둘째, 단일 해상도(Single-scale)를 사용하는 BERT 사전 학습의 특성은 합성곱 신경망이 가진 다중 해상도 기반의 계층적(Hierarchical) 구조와 모순됩니다.
첫 번째 문제를 해결하기 위해, 본 연구는 마스킹되지 않은 픽셀들을 3차원 포인트 클라우드(3D Point Clouds)의 희소 복셀(Sparse Voxels)처럼 취급하여 희소 합성곱(Sparse Convolution)을 통해 인코딩을 수행합니다. 이는 2차원 마스킹 모델링에 희소 합성곱을 적용한 최초의 사례입니다. 두 번째 문제를 해결하기 위해, 다중 해상도로 인코딩된 특징(Features)으로부터 이미지를 복원하는 계층적 디코더(Hierarchical Decoder)를 개발했습니다.
SparK(Sparse masked modeling)라고 명명된 이 방법론은 범용적이며, 백본(Backbone) 구조의 수정 없이 어떠한 합성곱 모델에도 직접적으로 적용할 수 있습니다. 연구진은 이 방법론을 고전적인 모델인 ResNet과 최신 모델인 ConvNeXt 모두에서 검증했습니다. 3가지 하위 작업(Downstream tasks)에서 평가한 결과, SparK는 최첨단 대조 학습(Contrastive Learning) 및 트랜스포머 기반의 마스킹 모델링 성능을 약 +1.0%의 큰 격차로 능가했습니다. 특히 객체 탐지(Object Detection) 및 인스턴스 분할(Instance Segmentation) 작업에서의 성능 향상은 최대 +3.5%로 더욱 두드러졌으며, 이는 학습된 특징들의 강력한 전이 능력(Transferability)을 입증합니다. 또한, 네트워크의 크기가 커질수록 더 많은 성능 이득을 관찰함으로써 우수한 확장성(Scaling behavior)을 확인했습니다. 이러한 모든 증거는 합성곱 신경망을 활용한 생성적 사전 학습(Generative pre-training)의 밝은 미래를 시사합니다.
1. 한줄 요약 & 3줄 핵심 (Executive Summary)
비전 트랜스포머(ViT)의 전유물로 여겨지던 '마스킹 이미지 모델링(MIM)'을 희소 합성곱(Sparse Convolution)과 계층적 디코더를 활용하여 구조 변경 없이 모든 합성곱 신경망(CNN)에 성공적으로 이식한 범용적 자기 지도 학습 프레임워크입니다.
3줄 핵심
- 기존의 문제점 (Pain point): 합성곱 신경망(CNN)은 입력 이미지의 일부가 마스킹(빈 공간)될 경우 심각한 데이터 분포 왜곡이 발생하며, 트랜스포머와 달리 다중 해상도의 계층적 구조를 지니고 있어 단일 해상도 기반의 마스킹 학습법을 그대로 적용하기 어렵습니다.
- 이 논문의 해결책 (Solution): 가려지지 않고 살아남은 픽셀 조각들만 3차원 점군(Point Cloud)처럼 취급하여 '희소 합성곱'으로 특징을 추출하고, 이후 빈 공간에 마스크 토큰을 채워 넣은 뒤 '계층적 디코더'를 통해 다중 해상도 정보를 결합하여 원본 이미지를 복원합니다.
- 달성한 성과 (Key Result): 아키텍처 수정 없이 ResNet 및 ConvNeXt에 적용 가능하며, 이미지 분류뿐만 아니라 객체 탐지 및 분할 작업에서 기존 최고 수준(SOTA)의 대조 학습 및 트랜스포머 모델 대비 최대 +3.5%의 비약적인 성능 향상과 더불어 메모리 효율성 증대를 달성했습니다.
2. 들어가며: 왜 이 연구가 필요했나? (The "Why")
자기 지도 학습(Self-Supervised Learning)의 부상
과거 딥러닝 모델, 특히 이미지 분류 모델은 사람이 일일이 정답(Label)을 달아준 거대한 데이터셋에 전적으로 의존했습니다. 그러나 정답을 다는 작업은 시간과 비용이 많이 듭니다. 이러한 한계를 극복하기 위해 등장한 것이 바로 자기 지도 학습(Self-Supervised Learning)입니다. 이는 정답 라벨 없이 데이터 그 자체의 내재된 구조와 규칙을 모델 스스로 학습하게 만드는 방법입니다.
컴퓨터 비전 분야에서 초기 자기 지도 학습은 주로 대조 학습(Contrastive Learning)이 지배했습니다. 대조 학습은 "동일한 강아지 사진을 좌우로 뒤집거나 색상을 조금 바꾸더라도, 두 사진은 결국 같은 강아지이므로 특징 공간에서 서로 가깝게 모여야 하고, 고양이 사진과는 멀어져야 한다"는 원리를 이용합니다. 이 방식은 훌륭한 성과를 거두었으나, 모델이 이미지의 세부적인 픽셀 정보보다는 전체적인 윤곽이나 통계적 특성에만 집중하게 된다는 한계가 있었습니다.
비전 트랜스포머(ViT)와 마스킹 이미지 모델링(MIM)의 등장
자연어 처리(NLP) 분야는 이미 BERT라는 모델을 통해 문장 중간의 단어를 빈칸(Mask)으로 만들고 이를 주변 문맥을 통해 예측하는 '마스킹 언어 모델링(Masked Language Modeling)'으로 대혁신을 이룬 상태였습니다.
2020년대 초, 이미지 데이터를 단어의 연속처럼 취급하는 비전 트랜스포머(Vision Transformer, ViT)가 등장하면서 상황이 급변합니다. 연구자들은 이미지를 바둑판 모양의 패치(Patch)로 자른 뒤, 전체 패치의 60~75%를 가리고 나머지 패치만으로 원래 이미지를 복원하도록 학습시키는 마스킹 이미지 모델링(Masked Image Modeling, MIM) 기법(대표적으로 MAE, SimMIM 등)을 고안했습니다. 이 방식은 모델이 이미지의 기하학적 구조와 세밀한 텍스처를 깊이 이해하도록 강제했고, 대조 학습을 가볍게 뛰어넘는 성능을 보여주며 학계의 주류로 자리 잡았습니다.
합성곱 신경망(CNN)의 뼈아픈 소외와 구조적 딜레마
트랜스포머 진영이 마스킹 학습법으로 승승장구하는 동안, 수년간 컴퓨터 비전의 왕좌를 지켜온 합성곱 신경망(CNN)은 침체기를 겪었습니다. CNN에 마스킹 학습을 적용하려는 시도가 없었던 것은 아닙니다. 하지만 번번이 실패하거나 기존 지도 학습보다 못한 결과를 냈습니다. 연구자들은 그 원인이 언어 데이터와 시각 데이터, 그리고 트랜스포머와 CNN의 구조적 차이에 있음을 깨달았습니다.
트랜스포머는 데이터를 독립적인 레고 블록(패치)들의 집합으로 봅니다. 필요 없는 블록은 그냥 빼버리고(Drop) 남은 블록만 조립하면 그만입니다. 입력의 길이가 불규칙해도 아무런 문제가 없습니다.
반면 CNN은 고정된 캔버스(2차원 격자) 위를 돋보기(합성곱 필터)가 일정한 간격으로 미끄러지듯 스캔(Sliding Window)하며 특징을 뽑아냅니다. CNN에 마스킹을 적용하기 위해 가려진 부분을 단순히 검은색 잉크(숫자 0)로 칠해버렸다고 상상해 보십시오.
- 데이터 분포 왜곡 (Data Distribution Shift): 자연계의 사진에 갑자기 검은색 체크무늬가 생기면 이미지의 통계적 분포가 엉망이 됩니다.
- 마스크 패턴 소실 (Mask Pattern Vanishing): 돋보기(필터)가 잉크가 칠해진 경계선을 지나갈 때마다 검은 잉크가 주변으로 번지기 시작합니다. 필터가 여러 층을 통과할수록 잉크는 겉잡을 수 없이 번져, 결국 네트워크 깊은 곳에서는 어디가 원래 가려졌던 부분인지 형체조차 알 수 없게 됩니다.
게다가 컴퓨터 비전의 정수라 불리는 CNN은 이미지를 여러 해상도(크고 거칠게 한 번, 작고 세밀하게 한 번)로 다루는 계층적(Hierarchical) 구조를 가지고 있습니다. 그러나 트랜스포머의 마스킹 학습은 처음부터 끝까지 동일한 크기의 패치를 다루는 단일 해상도(Single-scale) 방식입니다.
연구자들은 딜레마에 빠졌습니다. "어떻게 하면 CNN의 위대한 유산인 다중 해상도 계층 구조를 망가뜨리지 않으면서, 트랜스포머가 누리고 있는 마스킹 사전 학습의 혜택을 온전히 이식할 수 있을까?" 이 깊은 고민이 바로 SparK 논문의 출발점입니다.
3. 이 논문의 뿌리 (Key Reference)
SparK 프레임워크가 탄생하기 위해 가장 큰 영감을 제공하고 비판적으로 계승한 핵심 연구들의 관계를 살펴보겠습니다.
- BERT (2018) & MAE (2021): 마스킹을 통한 문맥 학습의 철학 SparK의 철학적 기반입니다. 데이터를 일부 가리고 복원하는 과정에서 데이터 내부에 숨겨진 강력한 문맥(Context)을 스스로 학습한다는 아이디어를 제공했습니다. 특히 Kaiming He 연구팀의 MAE(Masked Autoencoders)는 이미지 패치의 75%를 지우는 극단적인 마스킹이 비전 영역에서 오히려 효과적임을 입증했습니다. SparK는 이 개념을 전폭적으로 수용하되, 이를 트랜스포머가 아닌 CNN에 적용하기 위한 기술적 우회로를 고민했습니다.
- Minkowski Engine & Sparse Convolution (2019): 불규칙한 데이터의 구원자 이 논문에서 가장 결정적인 '해결의 열쇠' 역할을 한 기술입니다. 원래 희소 합성곱(Sparse Convolution)은 자율주행 자동차의 라이다(LiDAR) 센서가 수집하는 3차원 포인트 클라우드 데이터를 처리하기 위해 발전했습니다. 3차원 공간은 대부분이 허공이고 물체가 있는 점(Point)은 매우 드물기(Sparse) 때문에, 데이터가 존재하는 곳에서만 연산을 수행하여 효율성을 극대화하는 방식입니다. SparK는 마스킹된 2D 이미지의 '가려지지 않고 살아남은 부분'을 3D 공간의 점들처럼 희소 데이터로 바라보는 발상의 전환을 통해, 이 기술을 2D 이미지 마스킹 학습에 최초로 차용했습니다.
- ResNet (2016) & ConvNeXt (2022): 실험의 도화지가 된 위대한 백본들 SparK는 자신들의 방법론이 얼마나 범용적인지 증명하기 위해 컴퓨터 비전 역사상 가장 널리 쓰이는 두 모델을 선택했습니다. ResNet은 잔차 연결(Residual Connection)이라는 개념으로 깊은 신경망 학습의 표준을 세운 고전 명작입니다. ConvNeXt는 트랜스포머의 설계 기법을 분석하고 이를 CNN에 역도입하여 CNN의 한계를 다시 한번 끌어올린 최신 아키텍처입니다. SparK는 이 모델들의 코드를 단 한 줄도 수정하지 않고 자신들의 방법을 적용하는 데 성공했습니다.
4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)
가장 큰 난관이었던 "CNN은 가려진 빈 공간을 어떻게 처리해야 하는가?"라는 질문에 대해, 본 연구진은 매우 직관적이고 우아한 비유를 현실로 구현했습니다.
앞서 배경에서 설명했듯, 기존의 1차원적인 접근법은 가려진 픽셀을 강제로 0으로 채우는(Zero-outing) 방식이었습니다. 비유하자면, 글자가 듬성듬성 지워진 오래된 양피지를 돋보기(합성곱 필터)로 훑으며 읽는 것과 같습니다. 돋보기가 지워진 잉크 자국을 지나갈 때마다 잉크가 사방으로 번져버려, 결국 문서 전체가 잿빛으로 흐려지는 현상(마스크 패턴 소실)이 발생합니다.
이 논문의 아이디어는 마스킹된 2D 이미지를 3D 포인트 클라우드(Point Cloud) 데이터로 취급한다는 발상의 전환에 있습니다.
밤하늘의 별을 생각해 보겠습니다. 우주 공간의 99%는 비어있는 암흑이고, 빛나는 별(데이터)은 매우 드물게 존재합니다. 천문학자가 우주를 관찰할 때 암흑 공간까지 일일이 계산하는 것은 엄청난 낭비입니다. 별이 있는 위치만 찾아내어 계산하는 것이 효율적입니다. 이것이 바로 3D 비전에서 쓰이는 희소 합성곱(Sparse Convolution)의 원리입니다.
연구진은 입력 이미지의 60%를 가린 뒤, 가려지지 않고 살아남은 40%의 이미지 패치들을 우주 공간에 떠 있는 별들처럼 취급했습니다. 그리고 이 별들 위에서만 징검다리를 건너듯 연산을 수행하도록 CNN의 합성곱 층을 일시적으로 희소 합성곱으로 대체했습니다.
- 이전의 방식 (Zero-filling): 가려진 공간을 강제로 0이라는 데이터로 채워 연산하여 잉크가 번지고 왜곡됨.
- SparK의 방식: 가려진 공간은 아예 '존재하지 않는 차원'으로 무시하고, 살아남은 픽셀 정보들만 모아 희소 연산을 수행함.
이 기발한 아이디어를 통해, 잉크가 번지는 마스크 패턴 소실 문제를 완벽하게 차단했습니다. 돋보기(필터)는 오직 유효한 정보가 있는 곳에서만 반응하므로, 패치가 가려진 정확한 위치와 비율이 네트워크의 가장 깊은 층까지 훼손 없이 그대로 유지됩니다. 더욱 놀라운 점은, 빈 공간을 계산하지 않기 때문에 연산량과 메모리 사용량도 획기적으로 줄어드는 일석이조의 효과를 거두었다는 것입니다.
5. 작동 원리: 어떻게 돌아가는가? (The "How")
복잡한 수식을 배제하고 데이터가 모델에 입력되어 최종적으로 출력되기까지의 흐름(Flow)을 단계별로 자세히 살펴보겠습니다. 전체 구조는 크게 ① 패치 분할 및 마스킹 $\rightarrow$ ② 희소 인코딩 $\rightarrow$ ③ 덴시파잉(밀집화) $\rightarrow$ ④ 계층적 디코딩의 4단계로 작동합니다.
- Step 1. 패치 분할 및 무작위 마스킹 (Patch-wise Masking)
- 모델은 2D 원본 이미지를 바둑판처럼 겹치지 않는 사각형 패치(예: 32x32 픽셀 묶음)로 잘게 나눕니다. 그 후, 전체 패치의 60%를 무작위로 선택하여 완전히 지워버립니다(Masking). 살아남은 40%의 패치 정보만이 다음 단계로 넘어갈 자격을 얻습니다.
- Step 2. 희소 인코딩 (Sparse Encoding)
- 가려지지 않은 40%의 패치들을 모아 '희소 이미지(Sparse Image)' 형태로 구성합니다. 이 데이터는 기존의 CNN 백본(예: ResNet-50)에 입력됩니다. 단, 이때 네트워크 내부의 모든 일반 합성곱 연산은 값이 존재하는 곳에서만 계산을 수행하는 '희소 합성곱(Submanifold Sparse Convolution)'으로 임시 변환되어 작동합니다. 데이터가 여러 층을 통과하며 해상도가 점차 절반씩 줄어들고 특징이 응축되는 다중 해상도(Multi-scale) 특징 맵들이 생성됩니다.
- Step 3. 덴시파잉 및 마스크 삽입 (Densifying)
- 추출된 다중 해상도의 특징 맵들은 여전히 60%의 구멍이 뚫려 있는 불완전한 상태입니다. 이미지를 온전하게 복원하려면 이 빈 공간을 다시 메워주어야 합니다. 모델은 비워두었던 60%의 공간을 찾아내어, 학습 가능한 특수한 벡터 값인 '마스크 임베딩(Mask Embedding)'을 삽입합니다. 이를 통해 구멍이 숭숭 뚫려있던 데이터가 빈틈없이 꽉 채워진 밀집(Dense) 특징 맵으로 변환됩니다. 각 해상도 단계마다 크기에 맞는 임베딩을 삽입합니다.
- Step 4. 계층적 디코딩 (Hierarchical Decoding)
- 꽉 채워진 특징 맵들은 최종적으로 UNet이라는 모델과 유사한 가벼운 계층적 디코더에 입력됩니다. 디코더는 가장 깊은 층에서 추출된 작고 추상적인 정보와, 얕은 층에서 추출된 크고 세밀한 정보를 순차적으로 끌어올려 결합(Up-sampling & Skip-connection)합니다. 이 과정을 통해 잃어버렸던 60%의 픽셀 정보를 추론해 내며 원본 이미지와 동일한 크기의 이미지를 복원해 냅니다.
이 아키텍처의 핵심 철학은 "인코더는 오직 확실한 정보만 집중해서 보고(Sparse), 디코더는 빈 공간을 포함한 전체 숲을 보며 상상하여 복원(Dense)한다"는 역할 분담에 있습니다. 미세 조정(Fine-tuning) 단계에서는 훈련된 인코더만 떼어내어 일반적인 CNN처럼 사용하면 되므로, 구조의 호환성이 완벽하게 유지됩니다.
6. 작동 원리: 어떻게 학습하는가? (The "How")
모델이 유의미한 시각적 지능을 획득하기 위해서는 실제로 어떤 데이터가 들어가고 모델이 어떻게 채점받는지 구체적인 학습(Training) 환경을 이해해야 합니다.
입력 데이터 (Input Data)
사전 학습(Pre-training) 단계는 정답지(Label)가 필요 없는 자기 지도 학습입니다.
- 데이터 종류 및 수량: 모델에게 정답이 없는 순수한 2D 원본 이미지 데이터를 제공합니다. 본 연구에서는 인공지능 컴퓨터 비전의 가장 표준적인 벤치마크인 ImageNet-1K 데이터셋을 사용했습니다. 이 데이터셋에는 약 128만 장의 고해상도 이미지가 포함되어 있습니다.
- 포맷 및 예시: 예를 들어, '골든 리트리버가 잔디밭을 달리는 사진'이 224x224 해상도의 RGB 포맷으로 모델에 입력됩니다. 입력 직전 데이터 증강(Data Augmentation) 기법은 이미지의 일부분을 무작위로 자르고 크기를 맞추는 기본 기법(Random Resized Crop)과 좌우 반전만 최소한으로 적용됩니다. 이후 패치 크기(32x32)로 쪼개져 60%가 무작위로 날아간 '구멍 난 퍼즐' 형태로 모델에 들어갑니다.
출력 데이터 및 목적 함수 (Output Data & Optimization)
- 출력 포맷: 모델의 계층적 디코더를 통과하여 나오는 최종 결과물은 입력된 원본 이미지와 동일한 224x224 해상도를 가진 예측된 픽셀 이미지입니다.
- 학습 목표와 채점 방식 (Loss Function): 모델의 임무는 지워진 60%의 퍼즐 조각에 원래 어떤 그림이 있었을지 상상하여 색칠하는 것입니다. 이때 중요한 점은, 전체 이미지에 대해 오차를 계산하는 것이 아니라 오직 가려졌던(Masked) 위치의 픽셀에 대해서만 채점한다는 것입니다. 원본 이미지의 픽셀 값(정답)과 모델이 상상해서 칠한 픽셀 값(예측) 사이의 평균 제곱 오차(L2 Loss)를 계산하여 모델의 가중치를 업데이트합니다.
- 장기 학습: 옵티마이저는 LAMB을 사용하며, 무려 1600 에폭(Epoch)이라는 매우 긴 시간 동안 전체 데이터를 반복 학습시켜 모델이 이미지의 질감, 윤곽, 공간적 맥락을 깊이 이해하도록 가혹하게 훈련시킵니다.
7. 결과: 얼마나 좋아졌나? (Results)
사전 학습이 성공적으로 완료되면, 디코더는 버리고 지능을 갖춘 CNN 인코더 부분만 떼어냅니다. 이후 이 인코더를 다양한 실전 하위 작업(이미지 분류, 객체 탐지 등)에 적용하여 미세 조정(Fine-tuning)을 거칩니다. SparK의 적용 결과는 학계의 판도를 뒤흔들 만큼 압도적이었습니다.
1. 트랜스포머 및 기존 대조 학습 기법의 압도 (SOTA 달성)
ImageNet 데이터셋을 활용한 이미지 분류 작업에서, SparK로 사전 학습된 합성곱 모델은 당시 유행하던 비전 트랜스포머 기반의 자기 지도 학습 모델들을 훌쩍 뛰어넘었습니다.
| 사전 학습 방법론 (Pre-training) | 사전 학습 타겟 | 뼈대 모델 (Backbone) | 분류 정확도 (ImageNet Top-1 Acc.) |
| MoCoV3 [Chen et al., 2021] | 대조 학습 (Contrastive) | ViT-Base | 83.2% |
| MAE [He et al., 2021] | 마스킹 복원 (MIM) | ViT-Base | 83.6% |
| SimMIM [Xie et al., 2021] | 마스킹 복원 (MIM) | Swin-Base | 84.0% |
| SparK (본 연구 제안) | 마스킹 복원 (MIM) | ConvNeXt-Base | 84.8% |
트랜스포머 진영에서 가장 성능이 뛰어나다고 평가받던 SimMIM(Swin-B 모델 사용)조차도, 동일한 체급의 CNN 모델(ConvNeXt-B)을 활용한 SparK의 성능을 넘지 못했습니다. 이는 "CNN 모델 자체가 트랜스포머보다 시각적 표현 능력이 뒤떨어지는 것이 아니라, CNN에 맞는 강력한 학습 알고리즘을 찾지 못했을 뿐임"을 극적으로 증명한 결과입니다.
2. 하위 작업으로의 강력한 전이 능력 (객체 탐지 및 분할)
이미지가 고양이인지 개인지 맞추는 단순 분류를 넘어, 이미지 내에서 고양이의 정확한 위치 좌표를 찾고 픽셀 단위로 테두리를 따내는 COCO 데이터셋 기반의 '객체 탐지(Object Detection)'와 '인스턴스 분할(Instance Segmentation)' 작업에서 SparK의 진가가 폭발합니다.
기존의 대조 학습 방법론들은 이 복잡한 작업에서 정답 라벨을 처음부터 주고 훈련한 지도 학습(Supervised Learning) 베이스라인을 거의 넘지 못했습니다. 그러나 SparK는 지도 학습 베이스라인 대비 평균 정밀도(AP)를 최대 +3.5%나 비약적으로 끌어올렸습니다. COCO 데이터셋은 ImageNet보다 해상도가 높고 한 이미지에 여러 물체가 복잡하게 얽혀 있습니다. CNN 고유의 다중 해상도 특성을 그대로 보존한 SparK의 디코딩 방식이 이러한 세밀한 위치 파악 작업에서 결정적인 위력을 발휘한 것입니다.
3. 연산 효율성 확보 및 모델 확장성 (Scaling Up)
속도와 효율성 측면에서도 큰 진전이 있었습니다. 대조 학습 기반의 알고리즘(예: DINO, iBOT)은 데이터 증강을 위해 이미지를 여러 번 자르고 네트워크에 다중으로 통과시켜야 하므로 인코딩 비용이 단일 이미지 대비 3.8배에서 9.5배까지 치솟습니다. 반면, SparK는 입력 이미지의 60%를 가린 후 살아남은 40%의 영역에 대해서만 희소 합성곱을 수행하므로, 실제 이론상 연산 오버헤드의 40%만 소모합니다. 실제로 ResNet-50 모델 훈련 시 메모리 사용량을 34.5GB에서 26.4GB로 약 23% 절감하여, 일반적인 사양의 GPU(Tesla V100 32GB) 환경에서도 거대한 모델의 훈련이 가능하도록 숨통을 틔워 주었습니다. 더불어, 모델의 파라미터 수가 커질수록 획득하는 성능 향상 폭이 더 커지는 긍정적인 확장성(Favorable Scaling Behavior)을 확인했습니다.
솔직한 한계점과 실패 케이스 (Limitations)
논문은 신뢰도를 높이기 위해 여러 절제 연구(Ablation Study)를 통해 자신들의 방법론이 실패하는 케이스를 솔직하게 언급했습니다.
- 희소 연산 없는 단순 0 채우기의 한계: 만약 희소 합성곱(Sparse Convolution) 없이, 가려진 공간을 단순히 0으로 채우는(Zero-outing) 방식으로 훈련을 시도하면 분류 정확도가 지도학습 수준으로 급격히 추락합니다(-0.9%). 이는 논문이 제기한 분포 왜곡 문제가 실재하며, 제안된 희소 연산 메커니즘이 필수 불가결함을 반증합니다.
- 절대적 위치 임베딩의 무용성: 트랜스포머 아키텍처에서는 토큰의 순서를 알기 위해 절대적 위치 임베딩(APE)이 필수적입니다. 연구진이 이를 CNN에 억지로 추가해 보았으나, CNN은 이미 합성곱 연산 과정 자체에 위치 정보와 지역성(Locality)을 내포하고 있어 성능 향상에 전혀 도움이 되지 않았습니다.
- 소규모 모델의 한계: ResNet-50과 같이 파라미터 수가 상대적으로 적은 소형 모델에서는 대규모 데이터셋(128만 장)을 압축하고 빈 공간을 완벽히 복원할 수 있는 수용력(Capacity)이 부족하여 대형 모델에 비해 극적인 성능 도약을 이루지는 못했습니다.
8. 이 논문의 계보와 발전 (Impact & Follow-ups)
SparK는 2023년 ICLR에 스포트라이트(상위 25%) 논문으로 발표된 직후, "비전 분야에서 CNN은 끝났다"는 학계의 섣부른 판단을 부수고 침체되어 있던 CNN 기반 자기 지도 학습 연구에 강력한 불씨를 지폈습니다. 이후 컴퓨터 비전 학계는 이 아이디어를 어떻게 다각도로 발전시켜 왔을까요?
- ConvNeXt V2 (CVPR 2023): 구조의 최적화를 통한 시너지 창출 SparK가 기존 CNN의 코드를 단 한 줄도 고치지 않고 훈련 방법(희소 합성곱)을 혁신했다면, 거의 같은 시기 Meta AI에서 발표한 ConvNeXt V2는 모델 아키텍처 자체를 마스킹 학습에 최적화하여 개조하는 길을 택했습니다. 마스킹을 거친 이미지를 복원하려다 보면 특정 채널의 특징이 붕괴되는 현상(Feature Collapse)이 발생하는데, 이를 막기 위해 GRN(Global Response Normalization)이라는 새로운 정규화 계층을 추가했습니다. FCMAE 프레임워크와 결합된 이 모델은 거대 모델에서 88.9%라는 놀라운 정확도를 달성하며 SparK와 함께 CNN 부활의 양대 산맥이 되었습니다.
- A2MIM (ICML 2023): 구조에 얽매이지 않는 범용 이론의 정립 SparK와 ConvNeXt V2가 "CNN을 위한 마스킹 기법"에 집중했다면, A2MIM(Architecture-Agnostic Masked Image Modeling)은 한 걸음 더 나아가 트랜스포머든 CNN이든 상관없이 작동하는 범용 프레임워크를 제안했습니다. 이 연구는 마스킹 기법이 본질적으로 인공지능에게 이미지 패치들 간의 '중간 수준의 상호작용(Middle-order interactions)'을 강제로 학습시키는 원리임을 이론적으로 규명하여 SparK의 통찰을 학문적으로 뒷받침했습니다.
- HySparK (MICCAI 2024): 3D 의료 인공지능으로의 확장 가장 보수적이고 정밀함이 요구되는 의료 영상(Medical Imaging) 분석 분야에서 SparK의 철학이 만개했습니다. CT 스캔과 같은 3D 의료 데이터는 전문의가 일일이 라벨링해야 하므로 데이터 확보 비용이 천문학적입니다. HySparK 연구진은 상단에는 희소 연산을 하는 CNN을 배치하여 국소적 특징(Local)을 잡고, 하단에는 트랜스포머를 배치하여 전체적 맥락(Global)을 잡는 하이브리드 구조를 설계했습니다. 여기에 SparK의 마스킹 재건 기법을 도입하여, 뇌종양 및 장기 분할과 같은 생명이 직결된 과제에서 최고 수준의 사전 학습 효율을 입증해 냈습니다.
- 시계열 데이터 및 기타 응용 분야 (2024~2025): 최근에는 2D 이미지를 넘어 심박수, 기상 예측 데이터와 같은 다변량 시계열 분석(Time-series classification)이나 SAR(합성개구레이더) 기반의 위성 원격 탐사 데이터 처리에도 SparK 기반의 마스킹 재건 기법을 차용하여 성능을 비약적으로 끌어올리는 연구들이 지속적으로 쏟아지고 있습니다.
9. 마무리
"트랜스포머의 파도 속에서, 구관(CNN)이 명관이 될 수 있는 우아한 방법을 증명하다."
과거 수년간 새로운 트랜스포머 아키텍처들이 벤치마크 순위표를 갈아치우며 CNN의 시대가 저물었다는 평가가 지배적이었습니다. 하지만 본 연구는 "CNN 아키텍처 자체가 낡아서 한계에 부딪힌 것이 아니라, 혁신적인 학습 방법론(MIM)을 CNN의 특성에 맞게 조율해 주지 못한 연구자들의 방법론적 한계가 문제였음"을 명쾌하게 규명했습니다. 마스킹된 이미지의 빈 공간을 억지로 채워 넣지 않고, 살아남은 정보들만을 3차원 포인트 클라우드처럼 다루어 '희소 합성곱'을 적용한다는 발상은, 알고리즘의 본질을 이해한 연구자만이 낼 수 있는 직관적이면서도 아름다운 공학적 통찰입니다.
실무 적용 시의 주의점 (Practical Insights)
비록 논문에서는 환상적인 결과를 보여주었으나, 실제 산업 현장이나 실무 프로젝트에 이 방법론을 적용하고자 할 때는 몇 가지 현실적인 허들을 반드시 고려해야 합니다.
- 소프트웨어 라이브러리 및 하드웨어 의존성: 일반적인 파이토치(PyTorch) 기본 함수만으로는 다차원 희소 합성곱(Submanifold Sparse Convolution) 연산을 효율적으로 처리하기 매우 어렵습니다. 구현을 위해서는 Minkowski Engine이나 SpConv와 같은 C++/CUDA 기반의 희소 연산 전용 외부 라이브러리에 크게 의존해야 합니다. 만약 학습이 끝난 모델을 경량화하여 스마트폰이나 자율주행 엣지 디바이스(Edge Device)에 배포하고자 할 때, 해당 기기의 NPU나 칩셋이 이러한 희소 연산 커널을 완벽하게 가속 지원하는지 사전에 철저한 검토가 필수적입니다.
- 막대한 컴퓨팅 자원의 요구 (Data Hunger): 희소 연산을 통해 이론적인 연산 오버헤드를 약 40% 수준으로 줄여 메모리를 절감(+23%)했다고는 하나, 마스킹 이미지 모델링(MIM)의 본질은 여전히 데이터에 굶주려 있습니다. ImageNet 규모의 128만 장 데이터를 1,600 에폭(Epoch) 동안 훈련시키는 것은 웬만한 중소기업이나 대학 연구실의 GPU 자원으로는 엄두를 내기 힘든 막대한 컴퓨팅 파워를 요구합니다. 실무 환경에서는 처음부터 자체 데이터를 사전 학습시키기보다는, 저자들이 공개한 사전 학습된 가중치(Pre-trained weights)를 불러와 미세 조정(Fine-tuning)하는 방식이 훨씬 경제적입니다.
- 데이터 도메인의 특성 파악: MIM 기법은 데이터의 다양성이 방대하고 일반적인 객체의 구조(Context)를 파악해야 할 때 진가를 발휘합니다. 만약 수백~수천 장 단위의 협소한 데이터셋(예: 특정 공정의 미세한 스크래치 결함 탐지)만을 가지고 있다면, 굳이 이런 복잡한 마스킹 사전 학습을 도입하는 것이 기존의 일반적인 지도 학습이나 단순 전이 학습 대비 투자 가치(ROI)가 떨어질 수 있습니다.
발전 방향 및 맺음말
CNN은 본질적으로 컴퓨터 구조에 친화적이며(Hardware-friendly), 크기 변환에 유연하고 지역적 패턴(Locality)을 포착하는 데 천부적인 재능을 지니고 있습니다. SparK가 열어젖힌 'CNN 기반 생성적 사전 학습'의 문은, 향후 차세대 모바일 온디바이스 AI, 드론의 실시간 객체 인식, 고해상도 병리학 의료 영상 판독과 같이 절대적인 추론 속도와 메모리 효율성이 생명인 분야에서 무거운 트랜스포머를 대체하거나 보완할 수 있는 가장 강력한 대안이 될 것입니다.
구조적 혁신(ConvNeXt V2)과 학습 방법론의 혁신(SparK)이 완벽하게 맞물리기 시작한 현재, 우리는 당분간 CNN과 트랜스포머가 끊임없이 서로의 장점을 모방하고 흡수하며 진화하는 역동적이고 흥미로운 딥러닝 기술 경쟁의 최전선을 목격하게 될 것입니다.