본문 바로가기

딥러닝

CAN (Contrastive Masked Autoencoder) - 구글은 어떻게 대조 학습과 마스크 오토인코더를 결합하여 시각 지능의 효율성을 극대화했나?

반응형

 

일러두기 (Disclaimer)

본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.

 

 

논문 링크 : https://arxiv.org/abs/2210.16870

 

A simple, efficient and scalable contrastive masked autoencoder for learning visual representations

We introduce CAN, a simple, efficient and scalable method for self-supervised learning of visual representations. Our framework is a minimal and conceptually clean synthesis of (C) contrastive learning, (A) masked autoencoders, and (N) the noise prediction

arxiv.org

 

초록 (Abstract)

우리는 시각적 표현의 자기지도 학습(Self-supervised learning)을 위한 단순하고 효율적이며 확장 가능한 방법인 CAN을 소개합니다. 우리의 프레임워크는 (C) 대조 학습(Contrastive learning), (A) 마스크 오토인코더(Masked autoencoders), 그리고 (N) 확산 모델(Diffusion models)에서 사용되는 노이즈 예측(Noise prediction) 접근법을 개념적으로 깔끔하게 종합한 결과물입니다. 이 학습 메커니즘들은 서로를 상호 보완합니다. 대조 학습은 이미지 샘플 배치를 가로질러 임베딩 공간(Embedding space)을 형성하고, 마스크 오토인코더는 단일 이미지 샘플 내에서 저주파(Low-frequency) 공간 상관관계의 복원에 집중하며, 노이즈 예측은 이미지의 고주파(High-frequency) 성분 복원을 장려합니다. 결합된 접근 방식은 강력하고 확장 가능하며 구현하기 단순한 알고리즘을 도출합니다.

학습 과정은 대칭적(Symmetric)이며, 두 개의 뷰(View) 모두에서 패치의 50%가 무작위로 마스킹 처리되어 기존 대조 학습 방법들보다 상당한 효율성 향상을 제공합니다. 광범위한 경험적 연구에 따르면 CAN은 전이 학습(Transfer learning) 및 강건성(Robustness) 작업에 대한 선형 평가(Linear probe)와 미세 조정(Finetuning) 평가 모두에서 강력한 다운스트림 성능을 달성합니다. CAN은 ImageNet 사전 학습 시 MAE와 SimCLR을 능가하지만, 특히 JFT-300M과 같이 정제되지 않은 대규모 데이터셋(Uncurated datasets)을 사전 학습할 때 유용합니다. ImageNet에 대한 선형 평가에서 CAN은 75.4%를 달성하여 SimCLR의 73.4%와 MAE의 64.1%와 비교되는 성과를 보였습니다. ViT-L 모델의 ImageNet 미세 조정 성능은 86.1%로, SimCLR의 85.5%, MAE의 85.4%와 비교됩니다. ViT-L 모델을 기준으로 SimCLR의 전체 연산량(FLOPs) 부하는 CAN보다 70% 더 높습니다.

 

1. 한줄 요약 & 3줄 핵심 (Executive Summary)

이 논문은 대조 학습(Contrastive Learning), 마스크 오토인코더(MAE), 노이즈 예측(Noise Prediction)이라는 세 가지 이질적인 학습 방식을 가장 단순하고 효율적인 형태로 융합하여, 거대하고 정제되지 않은 데이터셋에서도 최고의 성능과 연산 효율을 발휘하는 시각 표현 학습 모델을 제안합니다.

  1. 기존의 문제점 (Pain point): 기존 대조 학습 모델(SimCLR 등)은 전체 이미지를 반복 연산해야 하므로 컴퓨팅 비용이 너무 높았으며, 마스크 오토인코더(MAE)는 개별 이미지의 지엽적인 픽셀 복원에만 집중하여 이미지 전체의 전역적 의미(Global Semantic)를 파악하는 능력이 부족했습니다. 더불어 웹에서 무작위로 수집된 정제되지 않은 데이터(Uncurated data) 환경에서는 성능이 크게 하락하는 한계가 있었습니다.
  2. 이 논문의 해결책 (Solution): 두 개의 증강된 이미지 뷰(View)에 모두 50%의 대칭적 마스킹(Symmetric masking)을 적용해 연산량을 대폭 줄였습니다. 동시에 인코더에서는 대조 학습을 수행하여 전역적인 의미를 학습하고, 디코더에서는 가려진 패치를 복원함과 동시에 가려지지 않은 패치에 부여된 노이즈를 예측하게 하여 미세한 디테일(고주파 성분)까지 학습하도록 설계했습니다.
  3. 달성한 성과 (Key Result): 기존 SimCLR 대비 연산량(FLOPs)을 41%~70%가량 절감하면서도, 3억 장의 거대 데이터셋(JFT-300M) 사전 학습 후 ImageNet 선형 평가에서 75.4%라는 높은 정확도를 달성했습니다. 더불어 모델이 처음 보는 분포 변화 환경(Distribution shift)에서도 기존 모델들을 상회하는 강력한 강건성(Robustness)을 입증했습니다.

 

2. 들어가며: 왜 이 연구가 필요했나? (The "Why")

딥러닝을 활용한 컴퓨터 비전 분야는 정답(Label)이 주어진 데이터를 바탕으로 학습하는 '지도 학습(Supervised Learning)'을 통해 비약적인 발전을 이루었습니다. 하지만 인간이 직접 모든 이미지에 정답을 달아주는 작업은 막대한 시간과 비용을 요구합니다. 이러한 병목 현상을 극복하기 위해, 학계는 정답이 없는 수백만 장의 이미지 자체로부터 시각적 특징을 스스로 깨우치는 자기지도 학습(Self-supervised Learning, SSL)에 주목하기 시작했습니다.

 

자기지도 학습은 크게 두 가지 패러다임으로 나뉘어 발전해 왔습니다.

 

첫 번째 패러다임은 대조 학습(Contrastive Learning)입니다. 대조 학습은 원본 이미지 하나에 자르기(Crop), 색상 변경(Color Jittering) 등의 데이터 증강(Augmentation)을 적용하여 두 개의 서로 다른 뷰(View)를 만듭니다. 그리고 신경망에게 "형태나 색상이 조금 변형되었지만, 이 둘은 사실 같은 이미지에서 파생된 것이니 서로 가깝게 배치해(Positive pair). 반면 다른 이미지에서 파생된 것들과는 멀리 떨어뜨려 놔(Negative pair)"라고 지시합니다. 이 방식은 이미지의 거시적인 의미(Global semantics)를 파악하는 데 탁월한 성능을 발휘합니다. 하지만 치명적인 단점이 있습니다. 모델이 한 번 학습할 때 전체 해상도의 이미지를 최소 두 번 이상 연산해야 하며, 수많은 이미지 쌍을 한 번에 비교해야 하므로 막대한 컴퓨팅 자원과 메모리를 요구합니다.

 

두 번째 패러다임은 자연어 처리(NLP) 분야의 BERT 모델에서 영감을 받은 마스크 오토인코더(Masked Autoencoder, MAE)입니다. 이 방식은 이미지를 여러 개의 작은 패치(Patch)로 나눈 뒤, 그중 75%에 달하는 영역을 무작위로 가려버립니다(Masking). 그리고 모델에게 "남은 패치들을 보고 가려진 부분이 무엇이었는지 픽셀 단위로 복원해 봐"라고 문제를 냅니다. MAE는 가려진 영역은 아예 인코더(Encoder)에 입력하지 않기 때문에 연산 속도가 비약적으로 빠르고 효율적입니다. 하지만 단점 또한 명확합니다. 모델이 픽셀의 색상이나 주변부 패턴을 흉내 내어 복원하는 데만 집착한 나머지, 정작 이미지가 전체적으로 무엇을 의미하는지에 대한 이해도는 떨어집니다. 또한, 큼직한 형상 위주의 저주파 공간 상관관계(Low-frequency spatial correlations)를 복원하는 데 치중하여 사물의 날카로운 경계선이나 미세한 질감(High-frequency)을 놓치는 경향이 있습니다.

 

연구자들은 여기서 한계에 봉착합니다. 최근의 딥러닝 트렌드는 정제된 ImageNet 수준(약 128만 장)을 넘어, 웹에서 무작위로 수집한 3억 장 규모의 데이터셋(JFT-300M 등)을 학습하는 방향으로 나아가고 있습니다. 이러한 거친 데이터 환경에서는 이미지가 매우 이질적이며 워터마크나 복잡한 배경 노이즈가 포함되어 있습니다. MAE처럼 단순히 픽셀을 복원하는 것만으로는 훌륭한 시각 표현을 얻을 수 없으며, 그렇다고 대조 학습을 사용하자니 감당할 수 없는 연산 비용이 발생합니다.

 

따라서 연구자들은 질문을 던졌습니다. "대조 학습의 전역적 의미 파악 능력과 MAE의 압도적인 연산 효율성을 하나의 단순한 모델에서 동시에 얻을 수는 없을까?" 그리고 "MAE가 가려진 패치를 복원할 때, 인코더를 그대로 통과한 멀쩡한 패치들의 연산 결과는 디코더 단계에서 버려지는데, 이 버려지는 연산량을 재활용하여 고주파 디테일을 학습시킬 방법은 없을까?" 본 논문은 이 두 가지의 실무적인 필요성과 근원적인 호기심에서 출발했습니다.

 

3. 이 논문의 뿌리 (Key Reference)

CAN 프레임워크는 컴퓨터 비전과 생성 모델 분야의 판도를 바꾼 핵심적인 선행 연구들의 철학적 장점만을 취사선택하여 비판적으로 계승했습니다.

  • SimCLR (Chen et al., 2020b): 이 논문은 현대 대조 학습(Contrastive Learning)의 표준을 정립한 연구입니다. 데이터 증강 기법을 통해 긍정적 쌍(Positive pairs)과 부정적 쌍(Negative pairs)을 만들고, InfoNCE라는 손실 함수를 통해 이들 간의 거리를 조절하는 방법론을 제안했습니다. CAN 프레임워크는 SimCLR의 이 대조 학습 구조를 베이스로 차용했습니다. 하지만 SimCLR이 전체 이미지를 그대로 입력하여 막대한 연산량을 요구했던 단점을 보완하기 위해, 입력 이미지의 50%를 제거(Masking)하는 발상의 전환을 추가했습니다.
  • MAE: Masked Autoencoders Are Scalable Vision Learners (He et al., 2022): 비전 트랜스포머(ViT) 구조를 활용하여 패치 단위로 이미지를 가리고 복원하는 아이디어를 제공한 핵심 논문입니다. 이 논문은 가려진 패치를 인코더에서 완전히 제외하여 연산 효율성을 극대화하는 방식을 증명했습니다. CAN은 MAE의 압도적인 연산 효율성을 그대로 계승했습니다. 다만 MAE가 픽셀 간의 저주파 공간 상관관계에만 집중하여 선형 평가(Linear probing) 성능이 하락하는 약점을 보완하기 위해 대조 학습 뼈대를 결합했습니다.
  • DDPM: Denoising Diffusion Probabilistic Models (Ho et al., 2020): 최근 이미지 생성 인공지능의 표준이 된 확산 모델(Diffusion)의 기반이 되는 논문입니다. 원본 데이터에 인위적으로 노이즈를 추가하고 이를 다시 제거(Denoising)하는 과정을 학습하면, 데이터의 미세한 구조와 고주파(High-frequency) 성분을 정밀하게 파악할 수 있다는 원리를 제시했습니다. CAN은 확산 모델의 복잡한 생성 과정 전체를 가져오지 않고, 오직 '노이즈 예측(Noise Prediction)'이라는 개념만을 차용하여 디코더 학습에 활용했습니다.

이 세 가지 뿌리 연구들은 각각 '의미적 불변성(Invariance)', '공간적 맥락(Spatial context)', '미세한 디테일(High-frequency details)'을 학습하는 데 특화되어 있습니다. CAN은 이들이 서로 충돌하지 않고 단일 모델 내에서 유기적으로 시너지를 낼 수 있도록 설계된 최초의 최소주의적(Minimal) 프레임워크입니다.

 

4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)

CAN 논문이 제시한 혁신적인 해결책은 복잡한 수학적 증명이 아니라, 기존 패러다임을 비트는 몇 가지 영리한 직관에서 비롯되었습니다.

 

첫 번째 발상의 전환: 비대칭에서 '대칭적 마스킹(Symmetric Masking)'으로

기존에 MAE와 대조 학습을 결합하려던 동시대의 다른 시도들(예: CMAE, Assran et al. 등)은 대부분 비대칭 구조(Asymmetric design)를 사용했습니다. 한쪽 눈으로는 가려진 이미지를 보게 하고, 다른 쪽 눈(Momentum encoder)으로는 가려지지 않은 100% 온전한 이미지를 보게 하여 둘을 비교하는 방식이었습니다. 이 방식은 성능은 준수했으나 여전히 한쪽 네트워크는 전체 이미지를 연산해야 하므로 계산량이 무거웠습니다.

 

CAN 모델은 "양쪽 눈을 모두 절반씩 가려버리자"라는 과감한 발상의 전환을 시도합니다. 동일한 원본 이미지에서 증강된 두 개의 뷰(View 1, View 2)를 만들고, 둘 다 무작위로 50%의 패치를 마스킹해 버립니다. 두 이미지 모두 형태가 크게 훼손되어 불완전한 상태가 되지만, 모델은 두 불완전한 조각들 사이에서도 "이 둘은 근본적으로 같은 사물이다"라는 공통의 의미를 찾아내도록 강제됩니다. 이 대칭적 마스킹 덕분에 인코더가 처리해야 할 데이터 량은 대폭 줄어들었고, SimCLR과 같은 기존 대조 학습 모델 대비 연산 효율성이 극적으로 상승했습니다.

 

두 번째 발상의 전환: 버려지는 연산의 재활용과 노이즈 예측(Noise Prediction)

이 논문의 가장 돋보이는 직관은 MAE 아키텍처의 내재적인 낭비를 해결한 방식입니다. 일반적인 MAE는 오직 '가려진(Masked) 패치'를 복원하기 위해 존재합니다. 디코더(Decoder)는 가려진 패치뿐만 아니라 입력으로 들어왔던 온전한 패치(Unmasked)들도 함께 처리하여 최종 이미지를 출력하지만, 학습 손실(Loss)을 계산할 때는 오직 '가려졌던 부분'이 얼마나 잘 복원되었는지만 평가합니다. 즉, 온전한 패치를 처리하기 위해 수행했던 디코더의 수많은 연산 결과는 아무 쓸모 없이 버려졌습니다.

연구진은 이 버려지는 연산을 영리하게 재활용합니다. 인코더에 들어가기 전, 살아남은 50%의 온전한 패치들에 미세한 가우시안 노이즈(Gaussian Noise)를 섞어 넣습니다. 그리고 디코더가 결과물을 내놓았을 때, 모델을 두 갈래로 엄격하게 평가합니다.

  • 가려졌던 패치에 대해서는 원래 픽셀 값을 칠해 넣게 합니다(Reconstruction).
  • 온전했던 패치에 대해서는, 처음에 인위적으로 주입했던 '노이즈'가 무엇이었는지를 정확히 분리해 내어 예측(Denoising)하게 만듭니다.

비유하자면, 오래된 명화를 복원하는 미술가의 작업과 같습니다. 명화 복원가는 그림의 크게 찢어진 부분(가려진 패치)을 보고 주변의 전반적인 색감과 구도를 바탕으로 큼직하게 배경을 칠해 넣습니다. 이는 사물의 전반적인 형태(저주파 성분)를 학습하는 과정입니다. 동시에, 찢어지지 않았지만 곰팡이와 얼룩이 묻은 부분(노이즈가 낀 온전한 패치)을 보고, 돋보기를 끼고 미세한 붓 터치와 질감을 파악해 얼룩만을 정밀하게 긁어냅니다. 이는 사물의 날카로운 경계와 미세한 디테일(고주파 성분)을 파악하는 학습 과정입니다.

 

대조 학습(전역적 의미 파악) + 마스크 복원(전반적 형태 파악) + 노이즈 예측(미세 질감 파악). 이 세 가지 학습 메커니즘이 하나의 단순한 네트워크 안에서 충돌 없이 상호 보완적으로 작동하도록 설계한 것이 바로 CAN의 핵심입니다.

 

5. 작동 원리: 어떻게 돌아가는가? (The "How")

이제 데이터가 처음 입력되어 모델 내부를 거쳐 최종적으로 세 가지 목적을 달성하기까지의 구체적인 데이터 흐름(Flow)을 단계별로 추적해 보겠습니다. 복잡한 수식은 배제하고, 직관적인 흐름에 집중합니다.

 

Step 1: 데이터 증강 및 뷰 생성 (Augmentation) $n$개의 이미지로 구성된 배치가 주어지면, 각 이미지에 대해 색상을 미세하게 바꾸거나 무작위 영역을 자르는 등의 데이터 증강(Data Augmentation) 기법을 적용합니다. 이를 통해 원본 이미지 하나당 서로 다른 두 개의 뷰(View 1, View 2)를 생성합니다. 이는 대조 학습을 위한 준비 단계입니다.

 

Step 2: 패치 분할 및 50% 마스킹 (Patch Splitting & Masking) 생성된 이미지를 가로세로 일정한 크기(예: 16x16 픽셀)의 격자 모양 패치(Patch)들로 잘게 쪼갭니다. 이후 View 1과 View 2 각각에 대해 독립적으로 패치의 50%를 무작위로 선택하여 가립니다(Masking). 즉, 두 뷰는 동일한 원본에서 나왔지만 서로 가려진 부위가 다르게 됩니다.

 

Step 3: 가우시안 노이즈 주입 (Adding Gaussian Noise) 마스킹되지 않고 살아남은 50%의 패치들(Unmasked patches)에 각기 다른 무작위 수준의 가우시안 노이즈를 더합니다. 어떤 패치에는 노이즈가 강하게 덮이고, 어떤 패치에는 약하게 덮입니다. 모델은 각 패치에 어떤 수준의 노이즈가 부여되었는지($\sigma$)를 기억해 둡니다.

 

Step 4: 비전 트랜스포머 인코더 통과 (ViT Encoder Processing) 노이즈가 섞인 채로 살아남은 50%의 패치들만 비전 트랜스포머(Vision Transformer, ViT) 인코더에 입력됩니다. 입력되지 않은 50%의 빈 공간은 연산하지 않으므로, 이 단계에서 메모리와 연산 속도가 두 배가량 향상됩니다. 인코더 내부에서 패치들은 서로 집중(Self-attention)하며 정보를 교환하고, 최종적으로 각 패치별로 고차원적인 특징 벡터(Embedding)를 추출해 냅니다.

 

Step 5: 대조 학습 손실 계산 (Contrastive Loss - InfoNCE) 인코더를 통과해 나온 패치들의 특징 벡터를 평균 내어 하나의 압축된 이미지 벡터를 만듭니다. 이 벡터들을 프로젝션 헤드(Projection MLP)에 통과시킨 뒤 비교합니다. 목표는 View 1과 View 2 사이의 거리는 가깝게 끌어당기고(Positive pair), 배치 내에 존재하는 다른 수많은 이미지들과의 거리는 멀어지게 밀어내는(Negative pairs) 것입니다. 이를 위해 InfoNCE라는 손실 함수를 계산하여 네트워크에 전달합니다.

 

Step 6: 디코더 입력을 위한 재조립 (Preparation for Decoder) 이제 픽셀 단위의 복원을 수행할 차례입니다. 인코더에서 나온 결과물 사이에, Step 2에서 제외했던 50%의 가려진 위치를 나타내는 빈 토큰(Learnable [M] token)을 끼워 넣어 원래의 이미지 형태(100% 패치 수)로 재조립합니다. 여기서 중요한 디테일이 추가됩니다. Step 3에서 각 패치에 주입했던 노이즈의 강도 정보($\sigma$)를 위치 인코딩(Positional encoding)처럼 변환하여 덧붙여 줍니다. 이는 디코더가 나중에 노이즈를 예측할 때 "아, 이 패치에는 노이즈가 짙게 깔려있었으니 더 강하게 필터링해야겠구나"라고 인지할 수 있는 필수적인 힌트가 됩니다.

 

Step 7: 비전 트랜스포머 디코더 통과 (ViT Decoder Processing)

재조립된 정보가 인코더보다 훨씬 가벼운 구조를 가진 ViT 디코더를 통과합니다. 디코더는 주어진 문맥 정보를 바탕으로 모든 패치의 원래 픽셀 값이나 섞여 있던 노이즈 값을 추론해 냅니다.

 

Step 8: 복원 및 노이즈 예측 손실 계산 (Reconstruction & Denoising Loss)

디코더의 최종 출력 텐서를 두 갈래로 나누어 평가합니다.

  • 복원 손실 (Reconstruction Loss): 처음에 가려졌던(Masked) 패치들에 대해서만, 원래 이미지의 픽셀 색상 값과 디코더가 예측한 값이 얼마나 비슷한지를 평균 제곱 오차(MSE)로 계산합니다.
  • 노이즈 예측 손실 (Denoising Loss): 살아남았던(Unmasked) 패치들에 대해서만, 픽셀 값이 아닌 처음에 주입했던 '가우시안 노이즈 벡터' 자체를 디코더가 얼마나 정확히 솎아내어 예측했는지를 MSE로 계산합니다.

최종적으로 모델은 이 세 가지 손실(대조, 복원, 노이즈 예측)을 단순 합산하여, 세 가지 목표를 동시에 달성하는 방향으로 스스로 가중치를 업데이트해 나갑니다.

 

6. 작동 원리: 어떻게 학습하는가? (The "How")

CAN 모델이 위와 같은 과정을 통해 성공적인 시각적 지능을 확보하기 위해, 실제로 어떤 형태의 데이터를 주고받으며 학습을 진행하는지 구체적인 스펙을 살펴보겠습니다.

 

입력 데이터 (Input Data)

  • 데이터의 종류 및 포맷: 사전 학습(Pre-training) 단계에서는 인간이 부여한 정답 라벨(Text Label)이 전혀 없는 순수한 2D RGB 이미지만을 입력으로 사용합니다. 포맷은 해상도와 채널로 구성된 텐서 형태($H \times W \times 3$)입니다.
  • 데이터의 수량 및 특성:
    1. ImageNet-1K: 약 128만 장의 고해상도 이미지가 포함된 학계의 표준 데이터셋입니다. 주로 하나의 객체(예: 화면 중앙에 뚜렷하게 배치된 새, 자동차 등)가 명확하게 촬영되어 있어 비교적 정제되어 있습니다.
    2. JFT-300M: 구글 내부에서 사용하는 약 3억 장의 초거대 데이터셋입니다. 인터넷 웹 페이지에서 무작위로 긁어온 정제되지 않은(Uncurated) 데이터이므로 극도로 이질적(Heterogeneous)입니다. 한 사진 안에 여러 객체가 어지럽게 섞여 있거나, 조명이 어둡거나, 디지털 워터마크가 찍혀 있는 등 실세계의 거친 특성을 그대로 담고 있습니다.
  • 논문에서는 모델의 확장성을 검증하기 위해 성격이 다른 두 가지 대규모 데이터셋을 활용했습니다.
  • 구체적인 처리 예시: 웹에서 수집된 "숲 속에서 뛰노는 골든 리트리버와 주인의 뒷모습이 찍힌 저해상도 사진"이 입력으로 들어온다고 가정합니다. 시스템은 이 사진을 $224 \times 224$ 해상도로 맞춘 뒤, 가로세로 16픽셀 크기의 정사각형 타일 196개로 자릅니다. 이 중 98개의 타일은 컴퓨터의 메모리에서 완전히 지워버립니다. 남은 98개의 타일에는 오래된 아날로그 TV의 지지직거리는 화면과 같은 무작위 가우시안 픽셀 노이즈를 덧씌운 뒤, 이 절반의 타일만을 트랜스포머 인코더에 밀어 넣습니다. 한 번의 학습 단계(Iteration)에서 이러한 이미지를 무려 4,096장(Batch Size)이나 동시에 처리합니다.

출력 데이터 (Output Data)

학습 중인 네트워크가 내부적으로 뱉어내는 출력 데이터는 최종 사용자가 보는 분류 확률값이 아닙니다.

  • 출력 데이터의 종류 및 포맷:
    1. 임베딩 벡터 (Embedding Vector): 인코더를 통과한 특징을 압축하고 다층 퍼셉트론(MLP) 헤드를 거쳐 출력된 저차원(예: 128차원)의 실수형 벡터입니다. (예: [0.12, -0.45, 0.88,... ]). 이 벡터는 이미지가 담고 있는 본질적인 의미를 추상적으로 응축하고 있으며, 다른 이미지 벡터들과의 공간적 거리를 계산(유사도 판별)하는 데 직접적으로 사용됩니다.
    2. 복원된 픽셀 맵 (Reconstructed Pixels): 디코더가 내놓는 원본 이미지 해상도의 텐서입니다. 마스킹되어 검게 칠해졌던 98개의 빈 타일에 대해, 모델이 "여기에는 나뭇잎과 개의 꼬리 픽셀이 있었을 것이다"라고 예측하여 생성한 픽셀 색상 값들의 집합입니다.
    3. 예측된 노이즈 맵 (Predicted Noise): 노이즈가 추가되었던 나머지 98개의 타일에 대해, 모델이 "이 타일에는 이만큼의 수학적 잡음이 끼어있었다"고 역으로 추정한 노이즈 벡터의 집합입니다. 이 노이즈 맵을 정확히 출력해 낸다는 것은, 모델이 사물의 원래 형태와 외부에서 낀 잡음을 명확히 분리할 수 있는 세밀한 분별력을 갖추었음을 증명합니다.

사전 학습이 성공적으로 끝나면, 무거운 디코더 부분은 미련 없이 버리고 오직 강력한 시각 특징 추출기로 훈련된 '인코더'만을 떼어내어 실무에 사용합니다. 이후 질병 진단, 객체 탐지, 이미지 검색 등 목적에 맞는 새로운 출력층(Head)을 달아 소량의 정답 데이터를 주고 미세 조정(Finetuning)을 수행하게 됩니다.

 

7. 결과: 얼마나 좋아졌나? (Results)

CAN의 탁월한 성과는 단순히 벤치마크 점수를 1~2% 올린 것을 넘어, 대규모 연산이 필요한 거친 데이터 환경에서 모델이 구조적으로 어떻게 진화해야 하는지를 명확히 보여줍니다.

사전 학습 데이터 평가 방식  모델 아키텍처 SimCLR MAE CAN (제안 모델)
JFT-300M 선형 평가 (Linear Probe) ViT-L 73.4% 64.1% 75.4%
JFT-300M 미세 조정 (Finetuning) ViT-L 85.5% 85.4% 86.1%
ImageNet-1K 선형 평가 (Linear Probe) ViT-B 73.9% 68.0% 74.8%

 

1. SOTA 달성 및 전역적 이해력의 증명

모델이 사전 학습을 통해 이미지의 특징을 얼마나 훌륭하게 추출해 냈는지를 평가하는 가장 가혹한 시험대는 선형 평가(Linear Probe)입니다. 이는 학습된 인코더의 가중치를 단단하게 고정(Freeze)한 채, 마지막에 단순한 선형 분류기 하나만 달아서 이미지를 분류하게 하는 방식입니다. 위 표에서 볼 수 있듯, 3억 장의 JFT-300M 데이터로 학습한 후 ImageNet 분류를 수행했을 때 CAN은 75.4%를 달성하여 MAE의 64.1%를 압도적으로 앞섰습니다. MAE는 픽셀의 지엽적인 부분에 매몰되어 이미지가 전체적으로 무엇을 의미하는지 파악하지 못했지만, 대조 학습을 결합한 CAN은 전역적 의미를 완벽하게 추출해 냈음을 증명합니다. 모델 전체의 가중치를 업데이트하는 미세 조정(Finetuning)에서도 86.1%를 기록하여 기존 모델들을 능가했습니다.

 

2. 속도 및 연산 효율성 (Efficiency & FLOPs)

CAN의 진정한 가치는 속도와 비용의 획기적인 절감에 있습니다. 대조 학습은 본질적으로 배치 내의 수많은 이미지 쌍을 비교해야 하므로 연산량이 엄청납니다. 하지만 CAN은 입력 단계에서부터 50%의 패치를 과감히 버리기 때문에 전체 이미지를 모두 처리해야 하는 SimCLR과 구조적으로 엄청난 차이를 보입니다. 논문의 분석에 따르면 ViT-L 모델을 기준으로 SimCLR의 전체 FLOPs(부동소수점 연산량) 부하는 CAN보다 무려 70%나 더 높습니다. 바꿔 말하면 CAN은 SimCLR 대비 절반 수준의 컴퓨팅 자원과 전력만으로도 더 높은 성능의 시각 지능을 달성할 수 있다는 의미입니다.

 

3. 소량 데이터 학습(Few-Shot) 및 분포 변화에 대한 강건성(Robustness)

새로운 환경에 대한 적응력 또한 탁월합니다. 클래스당 단 10장, 25장 등 극히 적은 데이터만으로 새로운 카테고리를 분류해야 하는 Few-Shot Learning 벤치마크(CIFAR100, Pets, Caltech 등)에서 CAN은 다른 모델들을 제치고 1위를 차지했습니다. 더욱 놀라운 것은 강건성(Robustness)입니다. 학습 데이터와 형태가 이질적인 까다로운 평가 환경, 예를 들어 스케치로 대충 그려진 이미지(ImageNet-Sketch), 의도적으로 배경과 물체를 분리하여 속임수를 쓴 이미지(ObjectNet), 3D로 렌더링 된 이미지(ImageNet-R) 등에서 CAN은 MAE나 SimCLR 대비 훨씬 안정적인 예측력을 유지했습니다. 이는 대조 학습을 통한 본질적 의미 파악과, 노이즈 예측을 통한 디테일 파악이 결합하여 모델이 엉뚱한 배경 노이즈에 과적합(Overfitting)되지 않도록 방어했기 때문입니다.

 

4. 한계점과 실패 케이스 (Limitations)

물론 본 논문이 제안한 방법론에도 실무적인 한계는 존재합니다.

  • 순수 MAE 대비 약간의 오버헤드: MAE 단일 모델이 보여주었던 극단적인 연산 속도(예: 입력 패치의 75%를 통째로 지우고 25%만 연산)와 비교하면, CAN은 마스킹 비율이 50%이며 대조 학습을 위한 글로벌 풀링 연산 및 노이즈 예측 손실 계산이 추가되므로 순수 MAE보다는 학습 런타임이 미세하게 증가합니다.
  • 초거대 데이터셋 최적화의 민감도: 논문의 부록에 따르면, 정제되지 않은 초거대 데이터셋(JFT-300M)을 학습할 때 기존 ImageNet과 동일한 세팅을 사용하면 학습이 매우 불안정해지는 현상이 발생했습니다. 이를 억제하기 위해 기본 학습률(Learning Rate)을 4분의 1로 낮추고 가중치 감쇠(Weight Decay)를 조정하는 등 세밀한 하이퍼파라미터 튜닝이 요구되었습니다. 데이터의 스케일과 노이즈가 커짐에 따라 나타나는 불안정성 통제는 여전히 연구자들이 주의 깊게 다루어야 할 과제임을 보여줍니다.

 

8. 이 논문의 계보와 발전 (Impact & Follow-ups)

CAN 논문이 발표된 2022년 하반기를 기점으로, 시각 표현 학습 분야에서는 마스크 이미지 모델링(MIM)과 대조 학습을 융합하려는 시도가 폭발적인 트렌드로 자리 잡았습니다. CAN은 이 흐름 속에서 설계의 '단순성(Simplicity)'을 무기로 후속 연구들에 굵직한 영감을 제공했습니다.

  • CMAE (Contrastive Masked Autoencoders, 2022): CAN과 거의 같은 시기에 텐센트와 바이트댄스 연구진에 의해 발표된 연구로, 융합이라는 철학적 목표는 완벽히 같으나 접근 방식이 달랐습니다. CMAE는 인코더를 비대칭(Asymmetric)으로 설계하여, 한쪽 네트워크는 마스킹된 뷰를 처리하고 다른 쪽 네트워크(Momentum encoder)는 가려지지 않은 온전한 뷰를 통과시켜 두 특징을 대조하는 복잡한 방식을 택했습니다. 강력한 성능을 내긴 했으나 구조가 다소 무거웠습니다. 반면 CAN은 대칭 구조와 단일 네트워크를 유지하여 단순함과 연산 확장성을 증명함으로써, 학계가 하드웨어 친화적인 설계를 지향하도록 유도했습니다.
  • MAGE (MAsked Generative Encoder, 2023): CAN을 개발한 구글 및 MIT의 연구진들이 연이어 발표한 후속작입니다. 이들은 CAN에서 엿본 융합의 가능성을 '이미지 생성(Generation)' 영역으로까지 확장했습니다. MAGE 모델은 학습 중에 마스킹 비율을 동적으로 변화시킵니다. 마스킹 비율을 극단적으로 높이면 모델이 빈 공간을 상상하여 그려내는 '생성 모델'로 작동하고, 마스킹 비율을 낮추면 시각적 특징을 이해하는 '표현 학습 모델'로 작동합니다. 이해와 생성이 분리되어 있던 기존 컴퓨터 비전의 경계를 허문 혁신적인 사례입니다.
  • V-JEPA (2024) 및 DINOv2 (2023): 이후 얀 르쿤(Yann LeCun)이 주도하는 메타(Meta) AI의 연구진들은 픽셀 단위의 복원을 아예 배제하고 추상적인 특징 공간 내에서만 예측을 수행하는 V-JEPA 등을 선보였으며, 패치 단위와 이미지 단위의 학습을 대규모로 결합한 DINOv2 모델을 출시했습니다. 이들은 CAN이 제안했던 다중 목표 최적화와 시각적 의미 파악의 방향성을 계승하며 현재 비전 파운데이션 모델의 양대 산맥으로 기능하고 있습니다.
  • 멀티모달 및 3D로의 확장 (2023-2025): CAN이 정립한 마스킹 기반 대조 학습의 아이디어는 이미지를 넘어 완전히 다른 차원의 데이터 도메인으로 전이되었습니다. 예를 들어 오디오-비디오 모델인 CAV-MAE (2023)는 동영상에서 영상과 소리 정보를 동시에 가리고 대조하여 양방향 동기화를 극대화했습니다. 또한 자율주행 및 로보틱스에 핵심적인 3D 포인트 클라우드(Point Cloud) 분야에서도 Point-CMAE (2024)가 등장하여 3D 공간 상의 마스킹 복원과 대조 학습을 결합하는 방법론을 확립했습니다. 나아가 단일 세포의 RNA 시퀀싱 데이터를 분석하는 생물정보학(scCMA)에까지 그 원리가 이식되어, 현재 이 아키텍처는 보편적인 표현 학습의 템플릿으로 광범위하게 활용되고 있습니다.

 

9. 마무리

CAN (Contrastive Masked Autoencoder)은 서로 다른 철학을 지닌 세 가지 학습 기법(대조 학습, 마스크 복원, 확산 모델의 노이즈 예측)이 그저 억지로 기워 맞춰진 것을 넘어, 서로의 약점을 매끄럽게 보완하며 시너지를 낼 수 있음을 완벽하게 증명한 우수한 연구입니다. 특히, 모델 구조에서 어쩔 수 없이 버려지던 온전한 패치의 연산 결과물에 노이즈를 덧씌워 고주파 디테일을 학습하는 지렛대로 활용한 아이디어는, 향후 딥러닝 아키텍처 설계에 있어 자원의 효율적 재활용이라는 측면에서 깊은 통찰을 제공합니다.

 

이 논문이 딥러닝 분야에 끼칠 영향

이 연구는 수억 장 규모의 노이즈 낀 웹 데이터를 처리해야 하는 현대 비전 모델이 나아가야 할 길을 명확히 제시했습니다. 단순히 파라미터 크기를 키우거나 연산량을 쏟아붓는 무리한 방식 대신, 입력 정보의 의도적 손실(Masking), 인위적 왜곡(Noise prediction), 그리고 의미적 불변성(Contrastive alignment)을 복합적으로 모델에 강제했습니다. 이로 인해 모델은 시각적 세계의 겉껍질이 아닌 본질적 구조를 깨우치게 되었습니다. 이는 자율주행, 의료 영상 분석, 위성 데이터 분석과 같이 사소한 노이즈와 분포 변화(Distribution shift) 앞에서도 한 치의 오차가 허용되지 않는 미션 크리티컬(Mission-critical) 분야의 시각 지능을 구축하는 데 단단한 뼈대가 될 것입니다.

 

실무 적용 시 주의할 점 (인사이트):

  1. 배치 사이즈와 GPU 메모리의 압박: CAN이 입력 패치의 절반을 잘라내어 FLOPs 연산량을 SimCLR 대비 크게 줄인 것은 맞지만, 대조 학습(InfoNCE Loss)의 근본적인 수리적 특성상 다양한 Negative 샘플 확보를 위해 배치 사이즈(Batch size)를 상당히 크게 유지해야 합니다 (본 논문의 기본 설정은 4096입니다). 이는 다수의 고성능 병렬 GPU(A100 등)나 TPU 클러스터 환경이 구축되어 있지 않다면 일반적인 랩실 환경에서 사전 학습을 수행하기가 현실적으로 어렵다는 것을 의미합니다. 실무 도입 시 분산 학습 인프라가 필수적입니다.
  2. 데이터 도메인에 따른 민감한 하이퍼파라미터 조율: 논문에서도 드러났듯, 상대적으로 깨끗한 ImageNet과 정제되지 않은 JFT-300M을 학습할 때 요구되는 학습률(Learning rate)과 가중치 감쇠(Weight decay) 설정은 크게 달랐습니다. 의료 영상이나 제조업 결함 데이터 등 특정 도메인의 이미지를 이 구조로 학습시킬 때, 무작정 기존의 세팅을 사용하면 학습 붕괴(Collapse)가 일어날 수 있습니다. 노이즈 주입 수준($\sigma$), 마스킹 비율, 그리고 대조-복원-노이즈 예측 손실 간의 가중치 비율($\lambda$)을 데이터의 복잡도에 맞게 새롭게 튜닝하는 끈기가 요구됩니다.
  3. 선형 평가와 실제 성능 간의 괴리 인지: MAE를 차용한 아키텍처 특성상, 인코더의 특징을 단순히 뽑아보는 선형 평가(Linear Probe)의 점수가 실무 파이프라인의 최종 성능을 100% 대변하지 못할 수 있습니다. 모델을 도입할 때는 반드시 실제 서비스하고자 하는 작업(분류, 객체 탐지, 분할 등)에 전체 가중치를 열어두고 미세 조정(Finetuning)을 거친 후의 ROI를 기준으로 모델의 효용성을 판단해야 합니다.

결론적으로 CAN 프레임워크는 이론적 우수성과 컴퓨팅 효율성이라는 두 마리 토끼를 영리하게 낚아챈 자기지도 학습의 모범 답안입니다. 앞으로 이 최소주의적 융합 철학이 시계열, 언어-시각 멀티모달 등 AI의 전 영역으로 어떻게 확장되며 새로운 모델들을 파생시켜 나갈지 지켜보는 것은 실무자와 연구자 모두에게 매우 흥미로운 관전 포인트가 될 것입니다.

 

반응형