본문 바로가기

딥러닝

DINO (Self-Distillation with No Labels) - 트랜스포머는 어떻게 정답 없이도 스스로 이미지의 의미를 깨우쳤을까?

반응형


일러두기 (Disclaimer)

본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.

 

 

논문 링크 : https://arxiv.org/abs/2104.14294

 

Emerging Properties in Self-Supervised Vision Transformers

In this paper, we question if self-supervised learning provides new properties to Vision Transformer (ViT) that stand out compared to convolutional networks (convnets). Beyond the fact that adapting self-supervised methods to this architecture works partic

arxiv.org

 

 

초록 (Abstract)

이 논문에서 연구진은 자기 지도 학습(Self-supervised learning)이 합성곱 신경망(convnets)과 비교하여 비전 트랜스포머(Vision Transformer, ViT)에 두드러지는 새로운 특성을 부여하는지 질문합니다. 자기 지도 학습 방법을 이 아키텍처에 적용하는 것이 특별히 잘 작동한다는 사실을 넘어, 연구진은 다음과 같은 관찰 결과를 제시합니다. 첫째, 자기 지도 학습을 거친 ViT의 특징(feature)은 이미지의 의미론적 분할(semantic segmentation)에 대한 명시적인 정보를 포함하고 있으며, 이는 지도 학습 기반의 ViT나 합성곱 신경망에서는 명확하게 나타나지 않는 특성입니다. 둘째, 이러한 특징들은 훌륭한 k-최근접 이웃(k-NN) 분류기로도 기능하며, 소형 ViT 모델만으로도 ImageNet 데이터셋에서 78.3%의 Top-1 정확도를 달성합니다.

연구진의 연구는 또한 모멘텀 인코더(momentum encoder), 다중 크롭(multi-crop) 학습, 그리고 ViT와 함께 작은 패치(patch)를 사용하는 것의 중요성을 강조합니다. 연구진은 이러한 발견들을 종합하여 레이블이 없는 형태의 자체 증류(self-distillation)로 해석할 수 있는 간단한 자기 지도 학습 방법론인 DINO를 구현했습니다. 연구진은 DINO와 ViT의 시너지를 통해, ViT-Base 모델을 사용한 선형 평가(linear evaluation)에서 ImageNet Top-1 정확도 80.1%를 달성함을 보여줍니다.

 

1. 한줄 요약 & 3줄 핵심 (Executive Summary)

정답(Label)이 없는 이미지들을 활용하여 학생 모델이 과거의 자신인 교사 모델의 출력을 모방하도록 학습(Self-Distillation)시킴으로써, 트랜스포머가 이미지 내부의 객체 윤곽선과 의미를 스스로 이해하게 만든 방법론입니다.

  1. 기존의 문제점 (Pain point): 비전 트랜스포머(ViT)는 방대한 파라미터를 바탕으로 높은 잠재력을 가졌지만, 인간이 일일이 정답을 매긴 대규모 데이터에 의존해야 했습니다. 또한 하나의 이미지에 하나의 레이블만 부여하는 지도 학습 방식은 이미지가 가진 풍부한 픽셀 단위의 정보나 객체의 경계선 정보를 모델이 온전히 파악하지 못하게 만드는 병목으로 작용했습니다.
  2. 이 논문의 해결책 (Solution): 정답 레이블 없이 이미지의 다양한 해상도 조각(Multi-crop)을 생성한 뒤, 이를 학생 모델과 모멘텀(Momentum)으로 천천히 업데이트되는 교사 모델에 각각 입력합니다. 그리고 두 모델의 출력 확률 분포가 동일해지도록 교차 엔트로피(Cross-Entropy)를 최소화하는 자체 증류(Self-Distillation) 방식을 도입했습니다.
  3. 달성한 성과 (Key Result): 정답 없이 학습했음에도 불구하고 모델의 자기 주의(Self-Attention) 맵이 객체의 형태를 정확히 분할(Segmentation)해내는 특성을 자발적으로 획득했습니다. 별도의 미세 조정(Fine-tuning) 없이 단순한 k-NN 분류기만으로도 기존 지도 학습 모델에 필적하는 높은 정확도(ImageNet 78.3%)를 달성했습니다.

 

2. 들어가며: 왜 이 연구가 필요했나? (The "Why")

딥러닝을 활용한 컴퓨터 비전 분야는 오랜 기간 동안 ResNet으로 대표되는 합성곱 신경망(Convolutional Neural Networks, CNN)을 중심으로 발전해 왔습니다. CNN은 이미지의 특징을 추출하는 데 탁월한 성능을 보였지만, 자연어 처리(NLP) 분야에서 대성공을 거둔 트랜스포머(Transformer) 아키텍처가 시각 분야에 도입되면서 상황이 변하기 시작했습니다. 2020년 발표된 비전 트랜스포머(ViT)는 이미지를 16x16 픽셀 크기의 여러 작은 조각(Patch)으로 나누어 처리하며, 전체적인 문맥을 동시에 파악하는 데 강점을 보였습니다. 하지만 ViT가 산업계와 학계에 온전히 정착하기에는 큰 장벽이 존재했습니다. 바로 훈련을 위해 사람이 직접 레이블링한 데이터가 CNN보다 훨씬 더 많이 필요하다는 점이었습니다.

 

연구진은 비전 트랜스포머가 직면한 한계의 원인을 자연어 처리 분야의 성공 사례와 비교하며 분석했습니다. 자연어 처리 분야에서 트랜스포머가 세상을 바꿀 수 있었던 이면에는 BERT나 GPT와 같은 자기 지도 학습(Self-supervised pretraining)이 있었습니다. 이 모델들은 사람이 정답을 알려주지 않아도, 인터넷에 존재하는 방대한 텍스트를 읽으며 문장의 빈칸을 채우거나 다음 단어를 예측하는 과정에서 언어의 내재적인 패턴을 스스로 학습했습니다.

 

반면, 비전 분야에서는 여전히 ImageNet 데이터셋처럼 "이 이미지는 강아지입니다", "저 이미지는 자동차입니다"라고 인간이 정해준 단일 레이블을 맞추는 지도 학습(Supervised learning) 방식에 크게 의존하고 있었습니다. 이러한 지도 학습 방식은 치명적인 단점을 내포하고 있습니다. 하나의 이미지 안에는 주된 객체뿐만 아니라 객체의 질감, 배경의 분위기, 다른 사물들과의 공간적 관계 등 수많은 시각적 정보가 복합적으로 존재합니다. 그러나 모델에게 "강아지"라는 단 하나의 정답을 맞추도록 강제하면, 모델은 정답을 맞추는 데 필요한 최소한의 힌트(예: 강아지의 코 모양이나 귀의 형태)만 찾고 나머지 풍부한 시각적 정보를 무시하게 됩니다.

 

연구자들은 다음과 같은 고민을 시작했습니다. "자연어 처리에서 성공했던 것처럼, 비전 트랜스포머 역시 지도 학습의 굴레를 벗어나 자기 지도 학습을 적용한다면 이미지의 본질적인 구조를 훨씬 더 깊이 이해할 수 있지 않을까?" 만약 모델이 인간의 개입 없이 수많은 이미지를 관찰하며 픽셀과 패치 사이의 연관성을 스스로 학습하게 된다면, 굳이 사람이 윤곽선을 그려주지 않아도 객체와 배경을 분리할 수 있을 것이라는 가설이 도출되었습니다. 이러한 배경 속에서, 합성곱 신경망이나 기존의 지도 학습 방식에서는 볼 수 없었던 트랜스포머만의 '새로운 특성(Emerging Properties)'을 발현시키고자 한 연구가 바로 DINO입니다.

 

3. 이 논문의 뿌리 (Key Reference)

컴퓨터 과학의 많은 혁신이 그러하듯, DINO 역시 무에서 유를 창조한 것이 아니라 기존에 존재하던 강력한 아이디어들을 비판적으로 계승하고 결합하여 탄생했습니다. 이 논문이 설계되는 데 있어 가장 큰 영감을 준 핵심 논문들과 그 관계성은 다음과 같습니다.

  • Vision Transformer (ViT, Dosovitskiy et al., 2020): 이 연구의 근간이 되는 기본 백본(Backbone) 네트워크입니다. 기존 CNN이 이미지를 픽셀 단위로 스캔하듯 처리했다면, ViT는 이미지를 일정 크기(예: 16x16 픽셀)의 격자로 잘라 문장의 단어(Token)처럼 취급합니다. DINO는 이 ViT 구조를 그대로 가져오되, 모델을 학습시키는 패러다임을 지도 학습에서 자기 지도 학습으로 완전히 전환했습니다.
  • BYOL (Bootstrap Your Own Latent, Grill et al., 2020): 자기 지도 학습의 한 갈래인 대조 학습(Contrastive Learning)은 통상적으로 "같은 이미지는 가깝게, 다른 이미지는 멀게" 배치하는 방식으로 학습합니다. 하지만 다른 이미지(Negative sample)를 비교하는 과정은 계산 비용이 높습니다. BYOL은 부정적 샘플 없이도, 학생 모델이 모멘텀(Momentum)으로 업데이트되는 교사 모델의 출력을 따라가도록 학습하는 구조를 제안했습니다. DINO는 BYOL의 '모멘텀 교사 모델' 개념을 핵심 아이디어로 차용했습니다. 다만, BYOL에서 모델의 붕괴를 막기 위해 필수적이었던 예측기(Predictor) 모듈을 과감히 제거하고 더 단순한 구조를 채택하여 한계를 보완했습니다.
  • SwAV (Caron et al., 2020): 이미지의 크기를 다르게 잘라내는 다중 크롭(Multi-crop) 데이터 증강 방식을 제안한 논문입니다. 큰 해상도로 자른 이미지를 통해 전체적인 문맥(Global view)을 학습하고, 작게 자른 이미지를 통해 세부적인 디테일(Local view)을 학습하는 전략입니다. DINO는 SwAV의 다중 크롭 전략과 출력의 중심화(Centering) 기법을 흡수하여, 트랜스포머의 어텐션 메커니즘이 이미지의 국소적 특징과 전역적 특징을 모두 연결하여 파악하도록 만들었습니다.
  • Mean Teacher (Tarvainen et al., 2017): 교사 모델의 가중치를 학생 모델 가중치의 지수 이동 평균(EMA, Exponential Moving Average)으로 업데이트하는 기법을 제안했습니다. DINO는 이 개념을 도입하여, 학습 과정 내내 교사 모델이 학생 모델보다 지속적으로 우수한 성능을 유지하며 안정적인 정답지(Target) 역할을 하도록 만들었습니다.

 

4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)

DINO의 가장 핵심적인 발상의 전환은 "정답(Label)이 없는 상황에서, 과거의 나(Teacher)를 정답으로 삼아 현재의 나(Student)를 가르친다"는 것입니다. 이를 지식 증류(Knowledge Distillation) 기법의 변형인 자체 증류(Self-Distillation)라고 부릅니다.

 

복잡한 퍼즐 그림을 맞추려는 두 명의 학생을 비유로 들어 보겠습니다. 한 명은 이제 막 퍼즐을 맞추기 시작한 '현재의 학생 모델'이고, 다른 한 명은 그동안의 경험이 누적되어 조금 더 현명해진 '교사 모델'입니다. 이 방에는 퍼즐의 정답(완성본)을 알려주는 사람이 없습니다.

 

대신, 시스템은 교사 모델에게 퍼즐의 전체적인 큰 그림(Global view)을 보여줍니다. 반면 학생 모델에게는 퍼즐의 아주 작은 일부 조각들(Local view)만 보여줍니다. 그리고 학생 모델에게 지시합니다. "네가 가진 작은 조각들을 보고, 교사 모델이 전체 그림에서 어떤 특징을 도출해내고 있는지 예측해 봐."

 

학생 모델은 작은 픽셀 조각(예: 강아지의 털 질감이나 눈동자)만 보고도 교사 모델이 보고 있는 전체 그림(예: 강아지의 전신이 있는 풍경)의 맥락을 유추해야 합니다. 처음에는 틀린 예측을 반복하겠지만, 이 과정을 수백만 번 반복하면 학생 모델은 작은 픽셀 조각 하나가 전체 이미지에서 어떤 의미를 가지는지 스스로 깨우치게 됩니다. 이것이 DINO가 인간의 레이블링 없이도 이미지 내부의 구조를 파악하는 근본적인 원리입니다.

 

붕괴(Collapse) 현상과 발상의 전환

이러한 자체 증류 기반의 자기 지도 학습에는 항상 따라다니는 치명적인 문제가 있습니다. 바로 붕괴(Collapse) 현상입니다. 학생과 교사가 정답 없이 서로의 출력만 맞추려다 보니, 학습을 쉽게 끝내기 위해 모든 입력 이미지에 대해 "이건 모두 다 똑같은 이미지야"라고 동일한 상수 값을 내뱉도록 담합해 버리는 현상입니다.

기존의 연구들은 이 붕괴를 막기 위해 구조를 복잡하게 만들거나 배치 정규화(Batch Normalization)를 겹겹이 쌓았습니다. 그러나 DINO는 매우 단순명료한 두 가지 수학적 조작의 균형을 통해 이 문제를 해결했습니다.

  1. 중심화 (Centering): 교사 모델이 특정 특징(Feature) 값에만 과도하게 집중하여 예측하는 것을 막습니다. 출력값의 평균을 빼주어 분포를 평평하게 만듭니다. 비유하자면, 선생님이 학생에게 질문을 낼 때 "항상 1번 정답만 찍지 말고, 다양한 가능성을 고려해서 골고루 대답해라"라고 강제하는 것과 같습니다.
  2. 선명화 (Sharpening): 반대로 중심화만 적용하면 모델이 모든 예측을 너무 평범하고 흐릿하게 해버리는 또 다른 붕괴가 발생합니다. 따라서 온도 파라미터(Temperature scaling)를 조절하여, 가장 확률이 높은 값의 비중을 확 끌어올립니다. 이는 "다양하게 대답하되, 어느 정도 확신이 섰다면 애매하게 말하지 말고 하나를 확실하게 골라라"라고 지시하는 것입니다.

중심화는 모델이 하나의 정답에 고착되는 것을 막고, 선명화는 모델이 균등한 분포로 퍼지는 것을 막습니다. DINO는 이 두 가지 상반된 힘을 동시에 적용함으로써, 추가적인 신경망 모듈 없이도 모델이 무의미한 출력으로 붕괴하는 것을 완벽하게 방지했습니다.

 

5. 작동 원리: 어떻게 돌아가는가? (The "How")

DINO 아키텍처 내부에서 데이터가 입력되어 처리되고 모델이 스스로를 업데이트하는 흐름(Flow)은 다음과 같이 단계적으로 진행됩니다.

  1. 다중 크롭(Multi-crop)을 통한 데이터 증강: 하나의 원본 이미지가 모델에 들어오면, 시스템은 이 이미지를 임의로 자르고 색상을 변형하여 여러 장의 새로운 이미지를 만듭니다. 이때 이미지의 큰 부분을 차지하는 해상도가 높은 글로벌 뷰(Global view, 예: 224x224 픽셀) 2장과, 이미지의 좁은 구역만 잘라내어 확대한 로컬 뷰(Local view, 예: 96x96 픽셀) 여러 장(일반적으로 6장)을 생성합니다.
  2. 네트워크 입력 분리: 준비된 이미지 조각들은 학생 네트워크와 교사 네트워크에 나뉘어 들어갑니다. 학생 네트워크에는 글로벌 뷰와 로컬 뷰가 모두 입력됩니다. 반면, 교사 네트워크에는 글로벌 뷰 2장만 입력됩니다. 즉, 교사는 항상 넓은 시야를 유지하고, 학생은 좁은 시야를 바탕으로 넓은 시야의 결과를 유추하도록 강제하는 구조입니다.
  3. 비전 트랜스포머(ViT)를 통한 특징 추출: 입력된 이미지들은 ViT 내부에서 작은 패치(예: 16x16 픽셀) 단위로 분할됩니다. 이 패치들은 위치 정보(Position Embedding)가 더해진 뒤, 여러 층의 트랜스포머 인코더 블록을 통과합니다. 자기 주의(Self-attention) 메커니즘을 통해 각 패치들은 서로의 연관성을 계산합니다. 이 과정의 마지막에는 패치들의 정보를 하나로 모은 요약본 역할을 하는 특별한 토큰이 출력됩니다.
  4. 프로젝션 헤드와 분포 변환: 출력된 토큰은 여러 층으로 이루어진 신경망(MLP)인 프로젝션 헤드를 거쳐 K차원(논문 기준 65,536차원)의 벡터로 변환됩니다. 이후 소프트맥스(Softmax) 정규화 함수를 거치면, 이 벡터는 K개의 각 차원에 대한 확률 분포 값으로 변환됩니다.
  5. 손실(Loss) 계산: 교사 모델이 글로벌 뷰를 보고 내놓은 확률 분포와, 학생 모델이 로컬 뷰를 보고 내놓은 확률 분포 사이의 차이를 구합니다. 두 분포가 얼마나 비슷한지를 측정하기 위해 교차 엔트로피(Cross-Entropy) 손실 함수를 사용합니다. 시스템의 목표는 학생의 출력이 교사의 출력을 최대한 똑같이 모방하도록 이 손실 값을 최소화하는 것입니다.
  6. 가중치 업데이트 (오차역전파): 계산된 오차를 바탕으로 신경망을 수정하는 오차역전파(Backpropagation)를 수행합니다. 이때 매우 중요한 점은 학생 네트워크의 가중치만 업데이트한다는 것입니다. 교사 네트워크 방향으로는 기울기(Gradient)가 흘러가지 못하도록 차단(Stop-gradient)합니다.
  7. 교사 네트워크의 진화 (EMA): 학생만 훈련된다면 교사 모델은 어떻게 업데이트될까요? 바로 학생 모델의 가중치를 복사하여 가져옵니다. 단, 한 번에 가져오는 것이 아니라 지수 이동 평균(Exponential Moving Average, EMA)이라는 방식을 사용합니다. 매 훈련 스텝마다 업데이트된 학생 네트워크의 가중치 아주 일부분(예: 0.4%)을 기존 교사 네트워크의 가중치에 부드럽게 섞어줍니다. 결과적으로 교사 모델은 '과거부터 현재까지 학생이 학습한 지식의 안정적인 평균치'를 유지하게 되며, 요동치는 학생 모델보다 항상 더 높은 품질의 가이드라인을 제공하게 됩니다.

 

6. 작동 원리: 어떻게 학습하는가? (The "How")

자기 지도 학습의 본질에 따라, DINO 모델을 학습하기 위해 사람이 일일이 라벨링한 정답 데이터는 전혀 필요하지 않습니다. 필요한 것은 오직 방대한 양의 순수한 이미지뿐입니다.

  • 입력 데이터 (Input Data):
    • 종류 및 포맷: 순수한 2D RGB 이미지 데이터입니다. (텍스트 레이블, 바운딩 박스, 마스크 등의 메타데이터는 전혀 포함되지 않습니다).
    • 수량: 논문에서는 주로 ImageNet 데이터셋의 120만 장의 이미지를 활용했습니다.
    • 구체적 예시 및 포맷 변환: 예를 들어, 해변에서 뛰어노는 강아지 사진 원본 1장이 있다고 가정해 봅시다. 훈련 시 이 1장의 이미지는 실시간 데이터 증강 파이프라인을 거쳐 다수의 이미지 텐서 묶음으로 변환됩니다.
      • $224 \times 224$ 픽셀 크기로 원본 이미지의 상당 부분을 포함하는 글로벌 뷰 2장 (예: 해변과 강아지가 모두 보이는 사진, 색상이 약간 왜곡된 사진).
      • $96 \times 96$ 픽셀 크기로 원본 이미지의 50% 미만 좁은 영역만 확대한 로컬 뷰 6장 (예: 강아지의 꼬리만 확대된 사진, 모래사장만 확대된 사진). 이 8장의 이미지 텐서 묶음이 네트워크의 입력으로 공급됩니다.
  • 출력 데이터 (Output Data):
    • 종류 및 포맷: 모델의 최종 출력은 "강아지"나 "해변" 같은 객체의 종류를 나타내는 텍스트나 확률이 아닙니다. 대신, 임의로 설정한 K차원(논문 기준 65,536차원)의 확률 분포 벡터(Float Array)가 출력됩니다.
    • 구체적 예시: 출력 데이터는 [0.0001, 0.003, 0.05, 0.0002,... , 0.012] 형태의 실수 배열입니다. 이 배열의 각 인덱스는 특정 사물을 의미하지 않습니다. 단지 이미지가 투영된 잠재 공간(Latent Space)에서의 임의의 군집(Cluster) 특성을 나타낼 뿐입니다. 학생 모델은 교사 모델이 내뱉는 이 수치 배열과 최대한 동일한 배열을 출력하도록 강제되며, 이 과정을 통해 모델 내부에 시각적 특징의 군집화가 자연스럽게 형성됩니다.

 

7. 결과: 얼마나 좋아졌나? (Results)

DINO는 기존의 자기 지도 학습 및 지도 학습 모델들의 한계를 돌파하며 놀라운 시각적 결과를 입증했습니다. 단순히 분류 성능이 올라간 것을 넘어, 트랜스포머의 잠재력을 해방시켰다는 평가를 받습니다.

 

뛰어난 k-NN 분류 성능 (SOTA 달성)

가장 수치적으로 임팩트 있는 성과는 별도의 선형 분류기나 네트워크 미세 조정(Fine-tuning) 없이, 단순히 특징 벡터 간의 거리를 비교하는 k-최근접 이웃(k-NN) 분류만으로 ImageNet 데이터셋에서 높은 성능을 기록했다는 점입니다.

모델 구조 패치 크기 추론 속도 (im/s) Linear 분류 정확도 k-NN 분류 정확도
DINO (ViT-Small) 16x16 1007 77.0% 74.5%
DINO (ViT-Small) 8x8 180 79.7% 78.3%
DINO (ViT-Base) 8x8 63 80.1% 77.4%

 

기존 대조 학습 기반의 자기 지도 학습 모델들(SimCLR, SwAV 등)이 선형 평가에서는 높은 성능을 내더라도 구조가 단순한 k-NN에서는 성능이 급격히 하락했던 반면, DINO의 특징 벡터는 그 자체로 시각적 의미가 완벽하게 정렬되어 있음을 증명했습니다. 패치 크기를 8x8로 줄였을 때(ViT-S/8), k-NN 정확도는 무려 78.3%에 달했습니다.

 

레이블 없이 창발(Emergence)한 의미론적 분할(Semantic Segmentation)

연구진을 가장 놀라게 한 정성적인 결과는 모델 내부의 자기 주의(Self-attention) 맵이었습니다. 모델은 이미지를 배경과 전경(객체)으로 구분하거나 윤곽선을 찾으라고 배운 적이 단 한 번도 없습니다. 오직 서로 다른 이미지 조각들의 특징을 맞추려고 노력했을 뿐입니다.

 

그러나 마지막 트랜스포머 블록의 어텐션 맵을 시각화한 결과, 모델이 이미지 내의 주된 객체(예: 개, 자동차, 새)의 픽셀 윤곽선을 매우 정교하게 분리해내고 있었습니다. 지도 학습으로 훈련된 ViT나 CNN 모델들에서는 어텐션이 배경에 분산되거나 객체의 형태가 뭉개지는 반면, DINO는 명확한 형태적 이해를 스스로 발현(Emergence)했습니다.

 

비디오 인스턴스 분할 및 복사본 탐지

DINO에서 추출된 특징은 정지 이미지뿐만 아니라 동영상 프레임 환경에서도 강력한 성능을 보입니다. DAVIS 2017 비디오 인스턴스 추적 벤치마크에서, DINO 모델은 시계열 훈련을 거치지 않았음에도 불구하고 프레임 간의 특징 유사도 매칭만으로 객체의 움직임을 훌륭하게 추적해냈습니다. 또한, 이미지의 불법 복제나 악의적인 변형(크롭, 필터 등)을 찾아내는 복사본 탐지(Copy Detection) 테스트에서도 기존 지도 학습 모델들을 뛰어넘는 정확도를 보였습니다.

 

[실패 케이스 및 한계점]

연구진은 논문에서 솔직한 한계점과 트레이드오프(Trade-off)도 언급합니다.

  • 계산 비용과 속도의 반비례: DINO 아키텍처는 고해상도 이미지를 사용하거나 패치 크기를 줄일수록(예: 16x16 픽셀에서 8x8 픽셀로) 세부 픽셀 파악 능력이 극적으로 상승하지만, 그에 비례해 계산량 연산이 급격히 증가합니다. ViT-S/16 모델은 초당 1007장의 이미지를 처리하지만, ViT-S/8 모델은 초당 180장으로 처리 속도가 대폭 하락합니다.
  • 의미론적 혼동 (Confusion): 동일한 옷을 입은 여러 사람이 겹쳐 있거나 텍스처(재질)가 완전히 동일한 물체들이 복잡하게 얽혀 있는 환경에서는 모델이 의미를 제대로 분리하지 못하고 전체를 하나의 덩어리로 묶어버리는 오분할 현상이 발생할 수 있습니다.

 

8. 이 논문의 계보와 발전 (Impact & Follow-ups)

DINO 논문이 2021년에 제시한 비전 트랜스포머의 자기 지도 학습 패러다임은 컴퓨터 비전 생태계에 엄청난 파장을 일으켰습니다. 이는 단발성 연구로 끝나지 않고, 시각 분야의 범용 인공지능 기초가 되는 파운데이션 모델(Foundation Model) 시대를 여는 결정적인 계보를 형성했습니다.

  • iBOT (2021): DINO가 토큰을 통해 이미지 전체의 맥락(Image-level)을 파악하는 데 집중했다면, iBOT은 자연어 처리의 마스크 언어 모델링(MLM, 예: BERT)에서 영감을 받아 마스크 이미지 모델링(Masked Image Modeling, MIM) 기법을 비전 트랜스포머에 도입했습니다. 입력 이미지의 패치 일부를 인위적으로 가린 뒤(Masking) 모델이 이를 예측하게 함으로써, 모델이 개별 패치 수준(Patch-level)의 세세한 픽셀 이해력을 갖추도록 DINO의 기능을 보완했습니다.
  • DINOv2 (Meta AI, 2023): Meta AI는 기존 DINO의 아키텍처에 iBOT의 패치 손실 함수(Patch-level loss)를 통합하고, 모델의 스케일과 데이터 품질을 극한으로 끌어올린 DINOv2를 발표했습니다. 과거 인터넷의 정제되지 않은 데이터에 의존했던 것과 달리, 12억 장의 웹 이미지 중 고품질 이미지 1억 4,200만 장(LVD-142M)을 필터링하는 데이터 큐레이션 파이프라인을 독자적으로 구축했습니다. 또한 KoLeo 정규화(Regularizer) 기법과 레지스터(Register) 토큰을 도입해 대규모 훈련 안정성을 높였습니다. 그 결과 DINOv2는 단안 깊이 추정(Monocular depth estimation)이나 픽셀 분할과 같은 밀집 예측(Dense prediction) 작업에서 별도의 미세 조정 없이도 최고의 성능을 내는 진정한 범용 비전 백본으로 진화했습니다.
  • DINOv3 (Meta FAIR, 2025): 가장 최근 발표된 DINOv3는 모델 매개변수를 70억(7B) 개로 늘리고 17억 장의 정제된 이미지를 학습한 초대형 파운데이션 모델입니다. 모델 규모가 커짐에 따라 전역적인 정보 학습은 잘 되지만 패치 수준의 세부적인 특징 맵이 무너지는 현상을 극복하기 위해 그람 앵커링(Gram Anchoring)이라는 새로운 손실 함수 기법을 도입했습니다. 이를 통해 DINOv3는 고해상도(예: 4096x4096 픽셀) 환경에서도 극도로 정밀한 시각적 특징을 잃지 않으며, 현재 3D 비전 및 로보틱스, 자율주행 환경 등 산업 전반에 걸쳐 활용 범위를 넓히고 있습니다.

 

9. 마무리

DINO는 컴퓨터 비전 연구의 방향타를 '정답을 외우게 하는 지도 학습'에서 '스스로 패턴과 질서를 탐구하는 자기 지도 학습'으로 완전히 돌려놓은 이정표 같은 연구입니다. 모델에게 "이것은 개다", "이것은 고양이다"라는 수많은 제약을 가해 강제로 정답을 암기시키는 대신, '다중 크롭''자체 증류'라는 올바른 환경만 조성해주면 비전 트랜스포머가 스스로 이미지 내부의 객체 경계선과 의미론적 클러스터를 훌륭하게 형성한다는 사실을 증명했습니다.

 

이는 인공지능이 인간의 세세하고 비용 집약적인 라벨링 개입 없이도, 세상을 시각적으로 분절하고 이해할 수 있음을 보여주는 중요한 단서입니다.

 

실무 적용 시의 주의점 (Insights for Practitioners)

이러한 혁신적인 성과와 아름다운 어텐션 맵에도 불구하고, 현업 엔지니어나 데이터 과학자가 DINO 구조를 실무 제품에 도입할 때는 몇 가지 현실적인 한계를 반드시 고려해야 합니다.

  1. 막대한 GPU 메모리 요구량 (OOM 위험): DINO 계열 모델, 특히 트랜스포머 백본을 다중 크롭 형태로 처리하는 아키텍처는 극단적으로 많은 GPU VRAM을 소모합니다. 1장의 이미지가 들어와도 글로벌 뷰와 로컬 뷰를 합쳐 최소 8장 이상의 텐서를 한 번에 순전파 연산해야 하므로, 작은 배치 사이즈(Batch size)로도 메모리 초과(Out Of Memory) 현상이 발생하기 쉽습니다. 실무 환경에서는 PyTorch의 FSDP(Fully Sharded Data Parallel) 분산 훈련 기법이나 16비트 정밀도 혼합(Mixed-precision) 훈련을 적극 도입하여 메모리를 병렬로 최적화해야만 현실적인 시간 내에 학습이 가능합니다.
  2. 하이퍼파라미터 튜닝의 민감도: 중심화(Centering)와 선명화(Sharpening)는 모델 붕괴를 막아주는 훌륭한 수학적 안전장치지만, 온도 스케일링 파라미터나 모멘텀 지수(EMA rate)를 여러분이 가진 커스텀 데이터셋의 성격에 맞게 섬세하게 튜닝하지 않으면 모델이 학습을 포기하는 현상에 빠질 수 있습니다. 특히 교사 모델의 온도 스케일링 값을 훈련 초기에 부드럽게 감소시키는 웜업(Warm-up) 전략을 필수적으로 적용해야 안정적인 수렴을 보장할 수 있습니다.
  3. 특수 도메인에서의 제로샷 추론 한계: 의료 데이터(CT, MRI, 세포 현미경 사진)나 위성 이미지, 결함 검출 이미지처럼 일반적인 일상 사진(ImageNet)의 데이터 분포를 완전히 벗어나는 도메인의 경우, 사전 학습된 DINO의 특징 벡터를 그대로 k-NN 분류기에 밀어 넣으면 생각보다 오류율이 높게 나타날 수 있습니다. 이러한 특수 도메인에서는 원본 도메인 데이터를 활용해 DINO 방식으로 추가적인 연속 사전 학습(Continual Pretraining)을 진행하거나, DINOv2 기반의 어댑터(Adapter) 모듈을 덧붙여 미세 조정을 수행하는 접근 방식이 권장됩니다.

결론적으로, DINO 논문은 단순히 벤치마크 정확도 1~2%를 높인 공학적 개선이 아닙니다. 비전 트랜스포머의 억눌려 있던 잠재력을 완전히 해방시켜, 향후 멀티모달(Multi-modal) 및 인공일반지능(AGI)으로 나아가는 컴퓨터 비전 파운데이션 모델의 튼튼한 토대를 세웠다는 점에서 딥러닝 역사에 깊은 발자취를 남긴 연구라 확신합니다.

 

반응형