“Convolution 이후, 시각의 언어가 바뀌다”
2010년대 후반까지,
이미지 분류의 거의 모든 흐름은 CNN을 중심으로 돌아갔습니다.
하지만 2020년 이후,
비전 모델의 핵심 구조는 완전히 다른 패러다임으로 옮겨갑니다.
“이미지를 더 이상 ‘필터와 피처맵’으로만 보지 말고,
토큰과 시퀀스로 보자.”
Vision Transformer(ViT)의 등장은
이미지를 문장처럼 다루는 시대의 시작이었습니다.
픽셀은 패치(patch) 단위의 토큰이 되고,
Convolution 대신 Self-Attention이 중심 연산이 됩니다.
여기서부터 비전은 더 이상
“이미지 전용 모듈”이 아니라,
언어·멀티모달 모델과 공유되는 공통 인프라가 되어갑니다.
픽셀에서 토큰으로 — ViT가 연 문지방
이 시기의 출발점은 단연 ViT(2021) 입니다.
- 이미지를 고정 크기 패치로 잘라 토큰 시퀀스로 취급하고
- 순수 Transformer 인코더만으로 이미지를 분류합니다.
“Conv 없이도 SOTA에 도달할 수 있다”는 이 실험은,
“비전 = Conv”라는 암묵적 규칙을 깨뜨렸습니다.
하지만 ViT는 막대한 데이터와 연산 자원을 전제로 했습니다.
그래서 곧이어 등장한 DeiT는
“일반 연구자들도 쓸 수 있는 ViT”를 목표로,
데이터 효율과 지식 증류에 집중합니다.
한편, Swin Transformer는
Transformer 구조를 CNN처럼 계층적·지역적으로 재배치하면서
“Conv의 장점과 Transformer의 장점을 섞는”
새로운 설계 철학을 제시합니다.
라벨이 필요 없는 학습 — Self-supervised & Pretraining
Transformer로 구조가 바뀐 것만큼 중요한 변화는,
“어떻게 학습하느냐”에 대한 관점 전환입니다.
라벨이 촘촘히 달린 데이터셋 대신,
거대한 비라벨 이미지 집합을 활용해
자기지도(self-supervised) / 사전학습(pretraining)이 폭발적으로 발전합니다.
- BEiT는 BERT에서 영감을 받아,
이미지를 토큰 단위로 마스킹하고
“가려진 조각을 맞히는” 방식으로 Masked Image Modeling을 수행합니다. - DINO는 라벨 없이도
교사–학생 구조(Online distillation) 를 통해
의미 있는 표현을 학습할 수 있음을 보여줍니다. - MAE는 극단적으로 많은 패치를 가리고
남은 일부만으로 전체 이미지를 복원하게 하면서,
효율적이고 강력한 비전 인코더 사전학습 패러다임을 제시합니다.
이 흐름의 핵심 메시지는 단순합니다.
“좋은 표현은 꼭 라벨에서만 오는 게 아니다.
이미지 자체가 데이터셋이자 교과서다.”
멀티모달 & Foundation Model — ‘분류’에서 ‘이해’로
2020–2023년의 또 다른 축은
“이미지 + 언어 + 대규모 사전학습”이 만나는 지점입니다.
- CLIP은 대규모 웹 이미지–텍스트 쌍을 이용해
이미지와 문장을 같은 임베딩 공간에 올려놓습니다.
이로 인해, 학습해보지 않은 카테고리에 대해서도
텍스트 프롬프트만으로 분류하는 Zero-shot 분류가 가능해집니다. - BLIP는 이미지 캡셔닝, VQA 등
다양한 비전–언어 태스크를 하나의 프레임워크 안에서 다루며,
멀티모달 사전학습의 실용적 형태를 보여줍니다. - EVA는 ViT 기반 사전학습을 극단적인 규모로 확장하며,
“규모와 데이터가 Foundation Model의 핵심 자산”임을 다시 한 번 증명합니다.
그리고 이 흐름의 한 끝에서
SAM(Segment Anything Model) 이 등장합니다.
SAM은 이미지를 ‘무엇이냐’가 아니라 ‘어디에 있느냐’로 이해하는
범용 시각 모델로,
프롬프트 하나로 이미지 속 거의 모든 객체를 분할해냅니다.
이 시점에서 비전 모델은
단순 분류기를 넘어
“세상을 조각내어 이해하는 범용 시각지능”으로 진화하기 시작합니다.
본편의 논문 목록
| 순서 | 논문 | 핵심 키워드 | 주요 기여 |
| 21 | ViT (2021) | Vision Transformer, Patch Token | 이미지를 토큰 시퀀스로 보고, 순수 Transformer로 분류에 성공한 첫 대표 모델 |
| 22 | DeiT (2021) | Data-efficient, Distillation | 대규모 프리트레이닝 없이도, 데이터 효율과 증류로 ViT를 실용 수준으로 끌어올린 모델 |
| 23 | Swin Transformer (2021) | Hierarchical, Window Attention | 로컬 윈도우와 계층적 구조로, Transformer를 CNN처럼 다양한 해상도 비전 태스크에 확장 |
| 24 | BEiT (2021) | Masked Image Modeling | BERT식 마스킹 아이디어를 이미지에 도입해, 토큰 단위 자기지도 학습을 정교하게 구현 |
| 25 | CLIP (2021) | Contrastive, Vision-Language | 이미지–텍스트 대조 학습으로, Zero-shot 분류와 멀티모달 표현 학습의 시대를 개막 |
| 26 | DINO (2021) | Self-supervised, Teacher–Student | 라벨 없이도 교사–학생 구조로 강력한 표현을 얻을 수 있음을 보여준 자기지도 학습 모델 |
| 27 | MAE (2022) | Masked Autoencoder | 대부분의 패치를 가린 뒤 복원하는 효율적 프리텍스트 태스크로, 비전 인코더 사전학습의 표준 중 하나가 된 방식 |
| 28 | BLIP (2022) | Vision-Language Pretraining | 캡셔닝, VQA 등 다양한 비전–언어 태스크를 하나의 멀티모달 프레임워크로 통합 |
| 29 | EVA (2023) | Large-scale ViT, Foundation | 초대규모 사전학습으로 ViT 표현의 한계를 밀어붙인, Foundation Model 지향 비전 연구 |
| 30 | SAM (2023) | Segment Anything, Promptable | 프롬프트 기반 범용 세그멘테이션 모델로, “어떤 이미지든, 무엇이든 나눠 볼 수 있는” 시각 인프라 제시 |
내부 포스트 구성 (총 11편)
시리즈 3부는 다음과 같은 10편의 본편 + 1편의 마무리로 구성됩니다.
| 구분 | 제목 |
| 21 | ViT — Transformer, 이미지를 읽다 |
| 22 | DeiT — 데이터 효율을 높인 비전 트랜스포머 |
| 23 | Swin Transformer — 윈도우 속의 계층적 시각 |
| 24 | BEiT — 마스크를 통한 자가학습 |
| 25 | CLIP — 언어와 시각의 만남 |
| 26 | DINO — 라벨 없는 학습의 가능성 |
| 27 | MAE — 비전 인코더의 사전학습 혁신 |
| 28 | BLIP — 멀티모달의 확장 |
| 29 | EVA — 대규모 사전학습의 정점 |
| 30 | SAM — 모든 것을 분할하는 범용 시각 모델 |
| ⟡ | 마무리 — Transformer와 대규모 학습의 시대를 돌아보며 |
마무리하며,
3부는 딥러닝 이미지 분류가
- “CNN의 시대”를 지나
- “효율화와 자동화의 시대”를 건너
- 마침내 “Transformer와 Foundation Model의 시대”에 도달하는 마지막 구간입니다.
이제 모델은 더 이상
“이 이미지가 무엇인지”만 맞히는 분류기를 넘어서,
언어와 연결되고,
라벨 없이 세상을 학습하며,
어떤 태스크에도 전이 가능한 범용 시각지능을 지향합니다.
다음 10편에서는
ViT에서 SAM까지,
이 격변의 4년 동안 비전 딥러닝이
어떻게 “분류기”에서 “세계 모델의 한 축”으로 자리 잡게 되었는지
차근차근 따라가 보겠습니다.
이전 글: 효율화와 자동화의 시대를 돌아보며 (딥러닝 이미지 분류 시리즈 2부 — 에필로그)
효율화와 자동화의 시대를 돌아보며 (딥러닝 이미지 분류 시리즈 2부 — 에필로그)
실험실에서 서비스로, 딥러닝이 내려오다 1부의 마지막에서 우리는 이런 질문으로 끝을 맺었습니다.“어떻게 더 적은 자원으로 더 똑똑해질 것인가?” 2부는 바로 이 질문에 정면으로 답하려 했
bitwizx.tistory.com
다음 글: ViT (Vision Transformer), 2021 — Transformer, 이미지를 읽다 (딥러닝 이미지 분류 시리즈 3부 ①)
ViT (Vision Transformer), 2021 — Transformer, 이미지를 읽다 (딥러닝 이미지 분류 시리즈 3부 ①)
Convolution 이후, 시각의 언어가 완전히 바뀌다 2010년대 후반, 딥러닝 이미지 분류의 역사는 CNN(Convolutional Neural Network)이 전부였습니다. ResNet, MobileNet, EfficientNet에 이르기까지, 모든 발전은 'Convolutio
bitwizx.tistory.com
'딥러닝 > 딥러닝 역사 시리즈 - 이미지 분류' 카테고리의 다른 글
| DeiT (Data-efficient Image Transformers), 2021 — 데이터 효율을 높인 비전 트랜스포머 (딥러닝 이미지 분류 시리즈 3부 ②) (0) | 2025.11.19 |
|---|---|
| ViT (Vision Transformer), 2021 — Transformer, 이미지를 읽다 (딥러닝 이미지 분류 시리즈 3부 ①) (0) | 2025.11.19 |
| 효율화와 자동화의 시대를 돌아보며 (딥러닝 이미지 분류 시리즈 2부 — 에필로그) (0) | 2025.11.17 |
| EfficientNet, 2019 — 균형 잡힌 확장의 완성 (딥러닝 이미지 분류 시리즈 2부 ⑩) (0) | 2025.11.14 |
| RegNet, 2019 — 구조적 일관성을 찾아서 (딥러닝 이미지 분류 시리즈 2부 ⑨) (0) | 2025.11.14 |