본문 바로가기

딥러닝/딥러닝 역사 시리즈 - 이미지 분류

Transformer와 대규모 학습의 시대 (2020–2023): 세상을 이해하는 범용 시각지능 — 딥러닝 이미지 분류 시리즈 3부

반응형

 

“Convolution 이후, 시각의 언어가 바뀌다”

 

2010년대 후반까지,
이미지 분류의 거의 모든 흐름은 CNN을 중심으로 돌아갔습니다.

 

하지만 2020년 이후,
비전 모델의 핵심 구조는 완전히 다른 패러다임으로 옮겨갑니다.

“이미지를 더 이상 ‘필터와 피처맵’으로만 보지 말고,
토큰과 시퀀스로 보자.”

 

Vision Transformer(ViT)의 등장은
이미지를 문장처럼 다루는 시대의 시작이었습니다.

 

픽셀은 패치(patch) 단위의 토큰이 되고,
Convolution 대신 Self-Attention이 중심 연산이 됩니다.

 

여기서부터 비전은 더 이상
“이미지 전용 모듈”이 아니라,
언어·멀티모달 모델과 공유되는 공통 인프라가 되어갑니다.


픽셀에서 토큰으로 — ViT가 연 문지방

 

이 시기의 출발점은 단연 ViT(2021) 입니다.

  • 이미지를 고정 크기 패치로 잘라 토큰 시퀀스로 취급하고
  • 순수 Transformer 인코더만으로 이미지를 분류합니다.

“Conv 없이도 SOTA에 도달할 수 있다”는 이 실험은,
“비전 = Conv”라는 암묵적 규칙을 깨뜨렸습니다.

 

하지만 ViT는 막대한 데이터와 연산 자원을 전제로 했습니다.
그래서 곧이어 등장한 DeiT
“일반 연구자들도 쓸 수 있는 ViT”를 목표로,
데이터 효율과 지식 증류에 집중합니다.

 

한편, Swin Transformer
Transformer 구조를 CNN처럼 계층적·지역적으로 재배치하면서
“Conv의 장점과 Transformer의 장점을 섞는”
새로운 설계 철학을 제시합니다.


라벨이 필요 없는 학습 — Self-supervised & Pretraining

 

Transformer로 구조가 바뀐 것만큼 중요한 변화는,
“어떻게 학습하느냐”에 대한 관점 전환입니다.

 

라벨이 촘촘히 달린 데이터셋 대신,
거대한 비라벨 이미지 집합을 활용해
자기지도(self-supervised) / 사전학습(pretraining)이 폭발적으로 발전합니다.

  • BEiT는 BERT에서 영감을 받아,
    이미지를 토큰 단위로 마스킹하고
    “가려진 조각을 맞히는” 방식으로 Masked Image Modeling을 수행합니다.
  • DINO는 라벨 없이도
    교사–학생 구조(Online distillation) 를 통해
    의미 있는 표현을 학습할 수 있음을 보여줍니다.
  • MAE는 극단적으로 많은 패치를 가리고
    남은 일부만으로 전체 이미지를 복원하게 하면서,
    효율적이고 강력한 비전 인코더 사전학습 패러다임을 제시합니다.

이 흐름의 핵심 메시지는 단순합니다.

“좋은 표현은 꼭 라벨에서만 오는 게 아니다.
이미지 자체가 데이터셋이자 교과서다.”


멀티모달 & Foundation Model — ‘분류’에서 ‘이해’로

 

2020–2023년의 또 다른 축은
“이미지 + 언어 + 대규모 사전학습”이 만나는 지점입니다.

  • CLIP은 대규모 웹 이미지–텍스트 쌍을 이용해
    이미지와 문장을 같은 임베딩 공간에 올려놓습니다.
    이로 인해, 학습해보지 않은 카테고리에 대해서도
    텍스트 프롬프트만으로 분류하는 Zero-shot 분류가 가능해집니다.

  • BLIP는 이미지 캡셔닝, VQA 등
    다양한 비전–언어 태스크를 하나의 프레임워크 안에서 다루며,
    멀티모달 사전학습의 실용적 형태를 보여줍니다.

  • EVA는 ViT 기반 사전학습을 극단적인 규모로 확장하며,
    규모와 데이터가 Foundation Model의 핵심 자산”임을 다시 한 번 증명합니다.

그리고 이 흐름의 한 끝에서
SAM(Segment Anything Model) 이 등장합니다.

 

SAM은 이미지를 ‘무엇이냐’가 아니라 ‘어디에 있느냐’로 이해하는
범용 시각 모델로,


프롬프트 하나로 이미지 속 거의 모든 객체를 분할해냅니다.

이 시점에서 비전 모델은
단순 분류기를 넘어
“세상을 조각내어 이해하는 범용 시각지능”으로 진화하기 시작합니다.


본편의 논문 목록

 

순서  논문  핵심 키워드 주요 기여
21 ViT (2021) Vision Transformer, Patch Token 이미지를 토큰 시퀀스로 보고, 순수 Transformer로 분류에 성공한 첫 대표 모델
22 DeiT (2021) Data-efficient, Distillation 대규모 프리트레이닝 없이도, 데이터 효율과 증류로 ViT를 실용 수준으로 끌어올린 모델
23 Swin Transformer (2021) Hierarchical, Window Attention 로컬 윈도우와 계층적 구조로, Transformer를 CNN처럼 다양한 해상도 비전 태스크에 확장
24 BEiT (2021) Masked Image Modeling BERT식 마스킹 아이디어를 이미지에 도입해, 토큰 단위 자기지도 학습을 정교하게 구현
25 CLIP (2021) Contrastive, Vision-Language 이미지–텍스트 대조 학습으로, Zero-shot 분류와 멀티모달 표현 학습의 시대를 개막
26 DINO (2021) Self-supervised, Teacher–Student 라벨 없이도 교사–학생 구조로 강력한 표현을 얻을 수 있음을 보여준 자기지도 학습 모델
27 MAE (2022) Masked Autoencoder 대부분의 패치를 가린 뒤 복원하는 효율적 프리텍스트 태스크로, 비전 인코더 사전학습의 표준 중 하나가 된 방식
28 BLIP (2022) Vision-Language Pretraining 캡셔닝, VQA 등 다양한 비전–언어 태스크를 하나의 멀티모달 프레임워크로 통합
29 EVA (2023) Large-scale ViT, Foundation 초대규모 사전학습으로 ViT 표현의 한계를 밀어붙인, Foundation Model 지향 비전 연구
30 SAM (2023) Segment Anything, Promptable 프롬프트 기반 범용 세그멘테이션 모델로, “어떤 이미지든, 무엇이든 나눠 볼 수 있는” 시각 인프라 제시

 


내부 포스트 구성 (총 11편)

 

시리즈 3부는 다음과 같은 10편의 본편 + 1편의 마무리로 구성됩니다.

 

구분 제목
21 ViT — Transformer, 이미지를 읽다
22 DeiT — 데이터 효율을 높인 비전 트랜스포머
23 Swin Transformer — 윈도우 속의 계층적 시각
24 BEiT — 마스크를 통한 자가학습
25 CLIP — 언어와 시각의 만남
26 DINO — 라벨 없는 학습의 가능성
27 MAE — 비전 인코더의 사전학습 혁신
28 BLIP — 멀티모달의 확장
29 EVA — 대규모 사전학습의 정점
30 SAM — 모든 것을 분할하는 범용 시각 모델
마무리 — Transformer와 대규모 학습의 시대를 돌아보며

 


마무리하며,

 

3부는 딥러닝 이미지 분류가

  • “CNN의 시대”를 지나
  • “효율화와 자동화의 시대”를 건너
  • 마침내 “Transformer와 Foundation Model의 시대”에 도달하는 마지막 구간입니다.

이제 모델은 더 이상
“이 이미지가 무엇인지”만 맞히는 분류기를 넘어서,

언어와 연결되고,
라벨 없이 세상을 학습하며,
어떤 태스크에도 전이 가능한 범용 시각지능을 지향합니다.

 

다음 10편에서는
ViT에서 SAM까지,
이 격변의 4년 동안 비전 딥러닝이
어떻게 “분류기”에서 “세계 모델의 한 축”으로 자리 잡게 되었는지
차근차근 따라가 보겠습니다.


 

이전 글: 효율화와 자동화의 시대를 돌아보며 (딥러닝 이미지 분류 시리즈 2부 — 에필로그)

 

효율화와 자동화의 시대를 돌아보며 (딥러닝 이미지 분류 시리즈 2부 — 에필로그)

실험실에서 서비스로, 딥러닝이 내려오다 1부의 마지막에서 우리는 이런 질문으로 끝을 맺었습니다.“어떻게 더 적은 자원으로 더 똑똑해질 것인가?” 2부는 바로 이 질문에 정면으로 답하려 했

bitwizx.tistory.com

 

다음 글: ViT (Vision Transformer), 2021 — Transformer, 이미지를 읽다 (딥러닝 이미지 분류 시리즈 3부 ①)

 

ViT (Vision Transformer), 2021 — Transformer, 이미지를 읽다 (딥러닝 이미지 분류 시리즈 3부 ①)

Convolution 이후, 시각의 언어가 완전히 바뀌다 2010년대 후반, 딥러닝 이미지 분류의 역사는 CNN(Convolutional Neural Network)이 전부였습니다. ResNet, MobileNet, EfficientNet에 이르기까지, 모든 발전은 'Convolutio

bitwizx.tistory.com

 

반응형