MIM (Masked Image Modeling)의 시작
ViT가 이미지를 토큰 시퀀스로 다루는 문을 열자, 비전 연구는 곧바로 자연어 처리(NLP)의 가장 성공적인 방법론을 차용하기 시작했습니다. NLP에서 BERT가 혁명을 일으킨 방법은 문장의 일부 단어를 가리고(Masking) 예측하는 Masked Language Modeling (MLM)이었습니다.
BEiT (Bidirectional Encoder Representation from Image Transformers)는 이 BERT의 아이디어를 이미지에 직접 적용하며 Masked Image Modeling (MIM) 분야의 효시가 되었습니다.
"이미지의 일부를 가린 뒤, 그 가려진 부분이 어떤 의미를 가지고 있었는지 예측하도록 ViT를 훈련시키자."
BEiT는 이 자가학습(Self-supervised Learning) 방식을 통해 대규모 라벨 데이터 없이도 ViT의 강력한 표현력(Representation)을 끌어올렸습니다.
핵심 혁신: 픽셀이 아닌 '이산 토큰' 예측
BEiT가 단순한 이미지 복원 모델을 넘어 혁신적이었던 이유는, 가려진 패치의 픽셀 값을 복원하는 대신, 그 패치의 의미를 압축한 이산적인 '시각 토큰(Visual Token)'을 예측하도록 설계했기 때문입니다.
1. 시각적 토큰화 (Visual Tokenization)
학습을 시작하기에 앞서, BEiT는 이미지 패치를 이산적인 시각적 코드(Discrete Visual Code)로 변환하는 사전 작업을 수행합니다.
- 코드북 구축: VQ-VAE와 같은 별도의 모델을 사용하여 이미지의 특징들을 이산적인 '시각적 코드북(Visual Codebook)'으로 정리합니다.
- 시각 토큰 ID: 이미지의 각 패치는 이 코드북에 속하는 고유한 '시각 토큰 ID'로 매핑됩니다. 이 ID는 이미지 패치의 의미적 개념을 나타냅니다.
2. 마스킹된 토큰 예측 (Masked Token Prediction)
BEiT의 ViT 인코더는 이 시각 토큰 ID를 예측하는 태스크를 수행합니다.
- 입력: 이미지 패치의 약 40%를 마스킹(가리기) 처리합니다.
- 인코딩: 마스킹된 이미지 패치 시퀀스를 ViT 인코더에 입력합니다.
- 예측: ViT 인코더는 마스킹된 위치에서 해당 패치에 해당하는 원본 시각 토큰 ID를 분류 문제처럼 예측하도록 학습됩니다.
이산 토큰의 이점: 깊이 있는 의미 학습
BEiT가 픽셀 복원 대신 이산 토큰 예측 방식을 선택한 이유는 다음과 같습니다.
- 의미론적 학습 (Semantic Learning): 픽셀 값은 노이즈나 사소한 색상 변화에 민감합니다. 하지만 시각 토큰 ID를 예측하도록 하면, 모델은 이미지의 고수준 특징과 의미적 일관성을 학습하도록 강제됩니다. 이는 모델이 이미지의 디테일보다는 핵심 개념을 파악하는 데 집중하게 만듭니다.
- 분류 문제로 전환: 연속적인 픽셀 값 복원(회귀)보다 이산적인 토큰 ID 예측(분류)이 학습 태스크를 더 안정적이고 빠르게 수렴하도록 돕습니다.
- 멀티모달 통합 기반: 비전 학습을 언어 학습(BERT의 MLM)과 동일한 '토큰 예측' 형태로 통일시킴으로써, 향후 이미지와 텍스트를 결합하는 멀티모달 모델의 구조적 토대를 마련했습니다.
BEiT의 의의: MIM 시대의 개척자
BEiT는 ViT의 효율적인 사전 학습을 위한 MIM(Masked Image Modeling) 방법론의 가능성을 입증한 모델입니다.
- 성능 우위: BEiT는 지도 학습 없이도 ImageNet에서 기존의 지도 학습 기반 ViT 모델을 능가하는 강력한 성능을 보여주었습니다.
- 새로운 패러다임 확립: BEiT는 '이미지 학습 = 픽셀 처리'라는 오랜 공식을 깨고, '이미지 학습 = 시각적 언어 처리'라는 새로운 패러다임을 확립했습니다.
BEiT의 성공은 이후 MAE와 같은 후속 연구들이 Masked Image Modeling을 비전 인코더 사전 학습의 표준으로 채택하는 데 결정적인 역할을 했습니다.
참고 문헌
Bao, H., Dong, L., & Wei, F. (2021). BEiT: BERT Pre-Training of Image Transformers. arXiv:2106.08254. (ICLR 2022)
이전 글: Swin Transformer (Shifted Window Transformer), 2021 — 윈도우 속의 계층 구조 (딥러닝 이미지 분류 시리즈 3부 ③)
Swin Transformer (Shifted Window Transformer), 2021 — 윈도우 속의 계층 구조 (딥러닝 이미지 분류 시리즈 3
ViT의 한계: 전체를 한 번에 보는 부담 ViT와 DeiT가 Transformer 시대를 열었지만, 그들이 가진 근본적인 제약은 여전히 남아있었습니다. 바로 Self-Attention의 특성에서 비롯되는 계산 복잡도 문제였습
bitwizx.tistory.com
다음 글: CLIP (Contrastive Language–Image Pre-training), 2021 — 언어와 시각의 만남 (딥러닝 이미지 분류 시리즈 3부 ⑤)
CLIP (Contrastive Language–Image Pre-training), 2021 — 언어와 시각의 만남 (딥러닝 이미지 분류 시리즈 3부
시각 지능, 언어의 날개를 달다 ViT의 등장으로 이미지는 '토큰'이 되어 언어 모델과 동일한 Transformer 구조로 처리되기 시작했습니다. 이로써 비전 딥러닝은 새로운 차원의 질문을 던질 수 있게
bitwizx.tistory.com