일러두기 (Disclaimer)
본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.
논문 링크 : https://arxiv.org/abs/2105.01601
MLP-Mixer: An all-MLP Architecture for Vision
Convolutional Neural Networks (CNNs) are the go-to model for computer vision. Recently, attention-based networks, such as the Vision Transformer, have also become popular. In this paper we show that while convolutions and attention are both sufficient for
arxiv.org
초록 (Abstract)
합성곱 신경망(Convolutional Neural Networks, CNNs)은 컴퓨터 비전 분야를 위한 기본적인 표준 모델입니다. 최근에는 비전 트랜스포머(Vision Transformer)와 같은 어텐션 기반의 네트워크 또한 큰 인기를 얻고 있습니다. 본 논문에서는 우수한 성능을 달성하기 위해 합성곱과 어텐션이 모두 충분조건이기는 하나, 어느 것도 필수조건은 아님을 보여줍니다. 연구진은 오직 다층 퍼셉트론(Multi-Layer Perceptrons, MLPs)에만 전적으로 기반을 둔 아키텍처인 MLP-Mixer를 제안합니다.
MLP-Mixer는 두 가지 유형의 계층을 포함합니다. 하나는 이미지 패치들에 독립적으로 적용되는 MLP(즉, 위치별 특징을 "혼합(mixing)"하는 역할)이며, 다른 하나는 패치들을 가로질러 적용되는 MLP(즉, 공간 정보를 "혼합"하는 역할)입니다. 대규모 데이터셋으로 학습하거나 최신 정규화(regularization) 기법을 적용했을 때, MLP-Mixer는 최첨단 모델들과 비교할 만한 사전 학습 및 추론 비용만으로 이미지 분류 벤치마크에서 경쟁력 있는 점수를 달성합니다. 연구진은 이러한 결과가 널리 확립된 CNN과 트랜스포머의 영역을 넘어선 추가적인 연구를 촉발하기를 희망합니다.
1. 한줄 요약 & 3줄 핵심 (Executive Summary)
복잡한 합성곱 연산이나 어텐션 메커니즘을 완전히 배제하고, 입력 이미지를 패치 단위로 나누어 공간 정보와 채널 정보를 각각 독립적인 다층 퍼셉트론(MLP)으로 교차 학습함으로써 최상위 수준의 성능과 효율성을 달성한 새로운 비전 아키텍처입니다.
- 기존의 문제점 (Pain point): 전통적인 CNN은 제한적인 수용 영역(Receptive field)으로 인해 이미지의 전역적 문맥을 파악하기 어렵고, 이를 극복한 비전 트랜스포머(ViT)는 어텐션 연산의 특성상 이미지 해상도가 커질수록 연산량과 메모리 요구량이 기하급수적으로 폭증하는 한계가 존재했습니다.
- 이 논문의 해결책 (Solution): 입력 데이터를 행렬 형태의 표로 구성한 뒤, 패치 내부의 채널 특징을 섞는 연산(Channel-mixing)과 패치 간의 공간 정보를 섞는 연산(Token-mixing)을 엄격하게 분리하여 오직 단순한 선형 행렬 곱셈(MLP)만으로 네트워크를 구성했습니다.
- 달성한 성과 (Key Result): 초거대 데이터셋인 JFT-300M 사전 학습을 통해 ImageNet 벤치마크에서 87.94%의 정확도를 기록했으며, 이는 기존 최첨단 모델인 ViT-H/14와 거의 대등한 성능이면서도 데이터 처리 속도(Throughput)는 최대 2.5배 빠른 압도적인 효율성을 증명했습니다.
2. 들어가며: 왜 이 연구가 필요했나? (The "Why")
현대 컴퓨터 비전 모델의 발전 역사는 데이터 규모의 확장과 연산 하드웨어의 발전이 맞물려 새로운 신경망 패러다임을 만들어내는 과정의 연속이었습니다. 오랜 기간 동안 컴퓨터 비전 분야의 사실상 표준(De-facto standard)은 합성곱 신경망(CNN)이었습니다. CNN은 이미지를 구성하는 인접한 픽셀들이 서로 강한 연관성을 가진다는 강력한 귀납적 편향(Inductive bias)을 바탕으로 작동합니다. 작은 크기의 필터를 이미지 전체에 슬라이딩하며 특징을 추출하는 방식은 한정된 데이터 환경에서 매우 효율적이고 안정적인 학습을 가능하게 했습니다. 하지만 이 방식은 모델이 이미지 전체의 맥락을 한 번에 조망하기 어렵게 만들며, 수용 영역을 넓히기 위해 신경망을 깊게 쌓아야만 하는 구조적 단점을 수반했습니다.
이러한 지역성 편향을 극복하기 위해 자연어 처리(NLP) 분야를 평정한 트랜스포머(Transformer) 아키텍처가 비전 분야에 도입되었습니다. 2020년에 등장한 비전 트랜스포머(ViT)는 이미지를 언어의 단어처럼 작은 패치(Patch) 단위로 분할한 뒤, 모든 패치 간의 관계를 동시에 계산하는 자기 주의(Self-attention) 메커니즘을 적용했습니다. ViT는 CNN이 가진 수작업 기반의 지역성 편향을 걷어내고, 원시 데이터 내부에 숨겨진 패턴을 스스로 학습하여 컴퓨터 비전 벤치마크의 최고 기록을 모두 갈아치웠습니다.
하지만 트랜스포머 역시 완벽한 해결책은 아니었습니다. 어텐션 연산은 입력되는 토큰(패치)의 수에 비례하여 연산량과 메모리 사용량이 이차 함수 형태($O(N^2)$)로 증가하는 치명적인 단점을 지닙니다. 자율주행이나 의료 영상 분석처럼 고해상도 이미지를 실시간으로 처리해야 하는 환경에서 트랜스포머의 무거운 연산 비용은 실무 적용을 가로막는 가장 큰 장벽이 되었습니다.
구글 리서치(Google Research) 팀은 이러한 상황에서 컴퓨터 비전 모델의 본질에 대한 근본적인 질문을 던졌습니다. "이미지를 잘 이해하기 위해 복잡한 합성곱 필터나 무거운 어텐션 메커니즘이 필수적인가?" 연구진은 딥러닝 모델에서 가장 기본적이고 오래된 구조인 다층 퍼셉트론(MLP)만으로도, 데이터가 충분하고 정규화 기법이 뒷받침된다면 최첨단 성능을 달성할 수 있을 것이라는 가설을 세웠습니다. 이 연구는 모델의 아키텍처를 극단적으로 단순화하여 연산 효율성을 하드웨어 한계치까지 끌어올리고, 복잡한 메커니즘 없이도 데이터 자체의 힘으로 공간과 특징을 학습할 수 있음을 증명하기 위해 시작되었습니다.
3. 이 논문의 뿌리 (Key Reference)
MLP-Mixer는 컴퓨터 비전 역사에 획을 그은 핵심 논문들의 철학을 비판적으로 수용하고 계승하여 탄생했습니다. 이 논문이 구조적 영감을 받거나 기능적 한계를 보완하기 위해 참고한 핵심 연구들은 다음과 같습니다.
첫 번째로, 이 논문은 Vision Transformer (ViT, 2020)의 데이터 전처리 및 입력 구조를 기본 뼈대로 사용했습니다. ViT는 2차원 이미지를 중복되지 않는 고정된 크기의 패치 배열로 분할하고, 이를 1차원 벡터로 투영하여 모델에 입력하는 혁신을 보여주었습니다. MLP-Mixer는 이 패치 기반의 토큰화 방식을 완벽하게 동일하게 가져옵니다. 단, 패치 간의 정보를 교환할 때 ViT가 사용했던 복잡하고 무거운 자기 주의(Self-attention) 메커니즘을 과감하게 떼어내고, 그 자리를 단순한 선형 계층(MLP)으로 대체함으로써 계산 복잡도를 낮추는 데 성공했습니다.
두 번째로, ResNet (2015)과 Layer Normalization (2016) 논문의 개념을 적극적으로 차용했습니다. 단순한 선형 연산(MLP)을 여러 층으로 깊게 쌓을 경우, 학습 과정에서 기울기가 사라지거나 폭발하는 문제가 필연적으로 발생합니다. MLP-Mixer는 이를 방지하기 위해 잔차 연결(Skip-connection) 구조를 도입하여 입력 정보가 출력으로 직접 전달될 수 있는 고속도로를 뚫어주었습니다. 또한, 각 계층을 통과하기 전 데이터의 분포를 균일하게 맞춰주는 층 정규화(LayerNorm)를 적용하여 학습의 안정성을 극대화했습니다. 이는 현대적인 딥러닝 블록 설계의 표준을 따른 것입니다.
세 번째로, 이 논문의 개념적 뿌리는 Xception (2017)과 MobileNet (2017)에서 제안된 깊이별 분리 합성곱(Depthwise Separable Convolution) 구조에 닿아 있습니다. 일반적인 합성곱은 필터 하나가 공간적 정보(주변 픽셀)와 채널 정보(색상, 특징 등)를 동시에 섞어서 연산합니다. 반면 분리 합성곱은 공간 차원에서의 연산과 채널 차원에서의 연산을 두 단계로 쪼개어 모델의 효율성을 높였습니다. MLP-Mixer는 이러한 '공간과 채널의 역할 분리'라는 철학을 계승하여, 공간 정보를 섞는 계층과 채널 정보를 섞는 계층을 완전히 독립적인 두 개의 MLP로 구현하는 극단적인 분리 방식을 채택했습니다.
4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)
현대 딥러닝에서 비전 아키텍처의 핵심 역할은 결국 이미지에서 추출한 다양한 특징(Feature)들을 의미 있게 '혼합(Mixing)'하는 과정입니다. 이 혼합 과정은 크게 두 가지 차원에서 일어납니다. 첫째는 단일 공간 위치 내에서 서로 다른 채널들의 정보를 섞어 특징을 추출하는 과정이고, 둘째는 공간적으로 떨어져 있는 여러 위치의 정보를 섞어 전체적인 맥락을 파악하는 과정입니다.
기존의 방식들과 MLP-Mixer의 접근법을 비교해보면 이 논문의 발상의 전환이 명확해집니다.
- CNN의 방식: $3 \times 3$ 크기의 합성곱 필터를 사용하여, 주변 픽셀들의 '공간 정보'와 여러 특성 맵의 '채널 정보'를 하나의 필터 안에서 동시에 뭉뚱그려 혼합합니다.
- ViT의 방식: 패치 단위로 나눈 후, '공간 정보'는 어텐션 메커니즘을 통해 모든 패치가 서로를 참조하며 섞고, '채널 정보'는 내부의 다층 퍼셉트론(MLP)을 통해 섞습니다.
MLP-Mixer는 공간 정보와 채널 정보를 처리하기 위해 복잡한 수학적 연산 체계를 동원하는 대신, 데이터를 단순한 '2차원 표'로 바라보고 행과 열에 각각 선형 연산을 가한다는 직관적인 컨셉을 제시합니다.
이해를 돕기 위해, 입력된 이미지 데이터를 수백 개의 행과 열로 이루어진 거대한 '엑셀 스프레드시트'라고 비유해 보겠습니다. 이 스프레드시트의 각 행(Row)은 이미지를 조각낸 각각의 패치(공간 위치)를 의미하고, 각 열(Column)은 그 패치가 가진 특징 차원(채널)을 의미합니다.
- 발상의 전환 1: 토큰 혼합 (Token-Mixing) 먼저 모델은 특정 열(단일 특징 채널)을 하나 고정합니다. 그런 다음 위에서 아래로 모든 행(전체 공간 패치)을 한 번에 읽어 들이며 가중치를 곱해 섞습니다. 비유하자면, 이미지의 상단 구석에 있는 패치와 하단 구석에 있는 패치가 서로 어떤 관계인지를 한 번의 선형 변환으로 파악하는 과정입니다. 기존 CNN이 제한된 시야를 가지고 여러 번 거쳐야 알 수 있었던 전역적 구조를, 이 계층은 단번에 파악해냅니다.
- 발상의 전환 2: 채널 혼합 (Channel-Mixing) 이번에는 특정 행(단일 공간 패치)을 하나 고정합니다. 그리고 좌측에서 우측으로 모든 열(전체 채널)을 읽어 들이며 섞습니다. 이는 특정 위치에 존재하는 정보가 질감인지, 선분인지, 색상인지를 독립적으로 심도 있게 파악하는 과정입니다.
이전 모델들이 공간과 채널을 어떻게든 엮어서 똑똑하게 처리하려 노력했다면, MLP-Mixer는 "표를 가로로 한 번 처리하고, 뒤집어서 세로로 한 번 처리하는 과정을 무식할 정도로 단순하게 반복하면 어떨까?"라는 접근을 취한 것입니다. 이러한 발상은 복잡한 어텐션 연산을 없애면서도, 공간과 특징을 효율적으로 상호작용하게 만들어 모델이 전역적 정보와 지역적 정보를 모두 학습할 수 있게 합니다.
5. 작동 원리: 어떻게 돌아가는가? (The "How")
MLP-Mixer의 아키텍처는 데이터가 입력되어 최종 예측 결과가 나올 때까지 형태를 일정하게 유지하며 단순한 데이터 흐름(Flow)을 따릅니다. 세부적인 하이퍼파라미터나 복잡한 수학 증명을 제외하고, 이미지 텐서가 신경망을 통과하는 과정을 단계별로 설명합니다.
1단계: 패치 분할 및 선형 임베딩 (Patch Embedding)
네트워크의 첫 관문은 원본 2D 이미지를 신경망이 소화할 수 있는 2차원 표 형태로 변환하는 것입니다. 만약 해상도가 $H \times W$인 원본 이미지가 들어오면, 이를 겹치지 않는 $P \times P$ 크기의 작은 타일 형태 패치(Patch)들로 균일하게 자릅니다. 예를 들어, $224 \times 224$ 해상도 이미지를 $16 \times 16$ 크기의 패치로 자르면 총 196개의 패치 조각이 생성됩니다. 이 개수를 시퀀스 길이 $S$라고 부릅니다. 각 패치 조각은 일차원 배열로 길게 펼쳐진 후, 동일한 가중치를 가진 선형 투영(Linear Projection) 행렬을 거쳐 우리가 지정한 $C$ 차원의 길이를 가진 잠재 벡터(Hidden feature)로 변환됩니다. 결과적으로 데이터는 모델 내부에서 2차원 실수 테이블 행렬($X$) 형태를 갖추게 됩니다. 이 차원의 크기는 신경망의 시작부터 끝까지 일관되게 유지됩니다.
2단계: 믹서 계층 (Mixer Layer) 반복 통과
생성된 $S \times C$ 형태의 데이터 테이블은 동일한 구조를 가진 믹서 계층(Mixer Layer)을 여러 번 반복해서 통과합니다. 깊이가 깊어지더라도 해상도(차원)를 줄이거나 늘리지 않는 이러한 구조를 등방성(Isotropic) 디자인이라고 부릅니다. 하나의 믹서 계층은 내부적으로 토큰 혼합(Token-mixing) 블록과 채널 혼합(Channel-mixing) 블록으로 구성됩니다.
| 연산 블록 종류 | 처리 방향 | 연산 대상 차원 | 고정되는 차원 | 기능 요약 |
| 토큰 혼합 (Token-mixing) | 열 단위(Columns) | 공간 위치 ($S$ 차원) | 특징 채널 ($C$) | 서로 다른 공간 패치 간의 전역적 문맥 파악 |
| 채널 혼합 (Channel-mixing) | 행 단위(Rows) | 특징 채널 ($C$ 차원) | 공간 위치 ($S$) | 단일 패치 내의 다양한 특징(색, 질감 등) 혼합 |
- 토큰 혼합 연산 과정: 먼저 안정적인 학습을 위해 층 정규화(LayerNorm)를 수행합니다. 그 다음 데이터 테이블의 행과 열을 서로 맞바꿉니다(전치, Transpose). 이제 데이터는 $C \times S$ 형태가 됩니다. 이 상태에서 각 행에 다층 퍼셉트론(MLP)을 독립적으로 통과시킵니다. 즉, 특정 특징 채널에 대해 이미지 전체의 공간 정보를 융합하는 것입니다. 연산이 완료되면 테이블을 원래의 $S \times C$ 형태로 다시 뒤집어 복구하고, 원본 데이터를 더해주는 잔차 연결(Skip-connection) 연산을 수행합니다.
- 채널 혼합 연산 과정: 다시 한번 층 정규화를 거친 후, 이번에는 행과 열을 뒤집지 않고 $S \times C$ 형태 그대로 각 행(단일 패치)을 독립적으로 MLP에 통과시킵니다. 여기서는 위치 정보는 고정된 채 채널 간의 상호작용만 일어납니다. 이 연산 후에도 잔차 연결을 통해 원본 데이터를 더해줍니다.
모든 MLP 내부는 선형 계층(Linear layer) $\rightarrow$ 비선형 활성화 함수(GELU) $\rightarrow$ 선형 계층(Linear layer) 순서로 구성되어 있습니다. 흥미로운 점은 토큰 혼합 과정에서 모든 채널이 동일한 MLP 가중치를 공유하고, 채널 혼합 과정에서 모든 패치가 동일한 MLP 가중치를 공유한다는 점입니다. 이를 통해 모델의 파라미터 수를 획기적으로 줄이고 메모리 낭비를 방지합니다.
3단계: 전역 평균 풀링과 분류기 (Classifier Head)
원하는 횟수만큼 믹서 계층을 모두 통과한 데이터는 여전히 $S \times C$ 크기를 유지하고 있습니다. 이제 최종 분류를 수행하기 위해, 모델은 각 채널(열)을 기준으로 전체 패치(행)가 가진 값들의 평균을 구합니다. 이를 전역 평균 풀링(Global Average Pooling)이라고 합니다. 그 결과 공간 차원($S$)은 사라지고 $C$ 크기의 1차원 특징 벡터만 남게 됩니다. 마지막으로 이 벡터를 단순한 완전 연결 계층(Fully-connected layer)에 통과시키면, 입력 이미지가 수천 개의 정답 클래스(예: 자동차, 비행기, 고양이 등) 중 어디에 속하는지를 확률 분포 형태로 출력하게 됩니다.
6. 작동 원리: 어떻게 학습하는가? (The "How")
MLP-Mixer는 CNN이 본질적으로 가지고 있는 '지역성(Locality)'에 대한 귀납적 편향이 사실상 제거된 아키텍처입니다. 모델 자체가 이미지의 구조적 특성에 대한 힌트를 가지고 있지 않기 때문에, 높은 성능을 끌어내기 위해서는 막대한 양의 훈련 데이터와 가혹할 정도의 강력한 학습 규제(Regularization) 기법이 동원되어야 합니다.
입력 및 출력 데이터 구조
학습을 위해서는 방대한 양의 입력 이미지 텐서와 그에 대응하는 정답 레이블(Label)이 필요합니다.
- 입력 데이터 포맷: 전처리 과정을 거친 3채널(RGB)의 2차원 이미지 데이터입니다. 통상적으로 $224 \times 224$ 크기의 해상도를 가진 다차원 실수 행렬 형태로 네트워크에 공급됩니다.
- 출력 데이터 포맷: 해당 이미지가 전체 클래스 분류 집합 내에서 각각 어느 클래스에 속할 확률이 높은지를 나타내는 1차원 확률 벡터(예: Softmax 결과값)입니다. 만약 분류할 클래스가 1,000개라면 크기가 1,000인 벡터가 출력됩니다.
대규모 사전 학습 (Pre-training) 데이터셋
연구진은 데이터 규모에 따른 모델의 흡수 능력을 평가하기 위해 세 가지 등급의 데이터셋을 활용했습니다.
- ImageNet (ILSVRC2012): 약 130만 장의 학습 이미지와 1,000개의 클래스로 구성된 가장 일반적인 벤치마크 데이터셋입니다.
- ImageNet-21k: 약 1,400만 장의 이미지와 21,000개의 클래스를 포함하는 중간 규모 이상의 데이터셋입니다.
- JFT-300M: 구글 내부에서 사용하는 초거대 독점 데이터셋으로, 무려 3억 장의 원시 이미지와 18,000개 이상의 클래스를 포함합니다. 모델의 잠재력을 한계까지 끌어올리기 위해 사용되었습니다.
과적합을 막기 위한 극한의 정규화 (Regularization)
사전 지식이 없는 MLP-Mixer가 ImageNet(130만 장)과 같은 상대적으로 '작은' 데이터셋에서 학습할 때는 과적합(Overfitting)에 극도로 취약합니다. 이를 억제하기 위해 최신 학습 기술들이 총동원되었습니다.
- 데이터 증강 기법 (Data Augmentation): 주어진 이미지의 색상이나 형태를 무작위로 변형하는 RandAugment 기법과 더불어, 전혀 다른 두 이미지를 투명도를 조절해 겹쳐 새로운 가상의 데이터를 합성하는 믹스업(Mixup) 알고리즘을 사용합니다.
- 신경망 가지치기 (Dropout & Stochastic Depth): 전문가들이 너무 확신에 찬 결론을 내리지 않게 유도하기 위해, 학습 도중 임의로 다층 퍼셉트론 내부의 노드 일부를 끄거나(Dropout), 아예 특정 믹서 계층 전체를 무작위 확률로 건너뛰어버리는 확률적 깊이(Stochastic Depth) 기법을 강력하게 적용했습니다.
미세 조정 시의 해상도 조절 트릭 (Fine-tuning Trick)
초거대 데이터로 학습을 마친 모델을 실제 응용 분야(예: 꽃 종류 분류, 반려동물 분류 등)에 맞게 튜닝하는 미세 조정(Fine-tuning) 단계에서는, 성능을 끌어올리기 위해 입력 이미지 해상도를 기존보다 키워서($224 \times 224 \rightarrow 448 \times 448$) 학습하는 것이 일반적인 관례입니다. 하지만 해상도가 커지면 패치 크기는 동일하므로 전체 시퀀스 길이($S$)가 증가합니다. 토큰 혼합 MLP는 $S$ 길이의 벡터를 입력받도록 고정되어 있으므로 오류가 발생하게 됩니다. 연구진은 이를 해결하기 위해 기존에 학습된 가중치 행렬을 블록 대각선(Block-diagonal) 형태로 복사하여 늘어난 차원에 맞게 새로운 행렬을 초기화하는 영리한 수학적 트릭을 사용했습니다. 쉽게 말해, 기존의 작은 도장을 큰 캔버스에 바둑판처럼 여러 번 찍어서 가중치 맵을 확장하는 방식으로 유연하게 해상도 변화에 대처한 것입니다.
7. 결과: 얼마나 좋아졌나? (Results)
MLP-Mixer가 던진 질문, 즉 "과연 합성곱이나 어텐션 같은 복잡한 구조 없이 다층 퍼셉트론만으로도 SOTA(State-of-the-art)를 달성할 수 있는가?"에 대한 답은 명확했습니다. "압도적인 규모의 데이터만 있다면 충분히 가능하다"는 것입니다.
SOTA 모델들과의 성능 및 처리 속도 비교
아래 표는 구글의 초거대 데이터셋인 JFT-300M으로 사전 학습한 뒤, ImageNet 벤치마크 데이터셋에서 미세 조정을 수행한 대형 모델들의 최고 성능 수치를 비교한 결과입니다.
| 아키텍처 분류 | 모델명 (Scale) | 파라미터 수 (M) | ImageNet Top-1 정확도 (%) | 처리 속도 (이미지/초/코어) |
| CNN 기반 | BiT-R152x4 | 약 928 | 87.54 | 26 |
| 트랜스포머 기반 | ViT-H/14 | 약 632 | 88.55 | 15 |
| MLP 기반 (본 논문) | Mixer-H/14 | 약 431 | 87.94 | 40 |
- 성능과 속도의 최적화: 가장 거대한 스케일의 모델인 Mixer-H/14는 87.94%의 훌륭한 정확도를 기록하며, 딥러닝 비전을 대표해 온 강력한 CNN 모델인 BiT(87.54%)의 성능을 넘어섰습니다.
- 비록 현존 최고 성능을 자랑하는 비전 트랜스포머인 ViT-H/14(88.55%) 보다는 정확도가 0.6%p 낮았지만, 실무에서 더 중요한 지표인 추론 속도 측면에서는 1초당 40장을 처리하여 ViT보다 무려 2.5배 이상 빠른 엄청난 처리 효율성을 입증했습니다. 복잡한 어텐션이나 특수한 행렬 연산 없이, 순수한 선형 행렬 곱셈 연산이 하드웨어 가속기(TPU, GPU)에서 얼마나 효율적으로 구동되는지를 명확하게 보여주는 결과입니다.
귀납적 편향의 부재를 증명한 패치 셔플링 실험
연구진이 수행한 가장 흥미롭고 임팩트 있는 검증은 "입력 이미지의 픽셀과 패치 순서를 무작위로 뒤섞는 셔플링(Permutation) 실험"입니다. 모델에 정상적인 원본 이미지를 입력하는 대신, 이미지를 자른 패치들의 순서를 뒤죽박죽 섞거나, 아예 패치 내부의 픽셀 단위까지 규칙 없이 섞어버린 뒤 모델을 학습시켰습니다.
- CNN (ResNet): 주변 픽셀들의 인접성에 철저히 의존하는 CNN은 이미지를 전역적으로 섞어버리자 정확도가 약 75%나 폭락하며 모델이 붕괴되었습니다.
- MLP-Mixer: 동일한 조건에서 성능 하락폭이 45%에 불과했습니다. 더욱 놀라운 점은, 픽셀이 아니라 패치 단위의 순서만 뒤섞었을 때는 원래 이미지와 비교해 성능 저하가 전혀 발생하지 않았다는 것입니다.
이 실험 결과는 MLP-Mixer가 픽셀의 물리적인 '위치 구조'에 의존하여 형태를 인식하는 것이 아니라, 입력된 토큰들 간의 순수 수학적인 상관관계와 전역적인 특징 공간만을 학습하고 있다는 본질적인 차이를 시각적으로 증명합니다.
실패 케이스 및 솔직한 한계점
논문은 모델의 한계점 또한 투명하게 공개합니다. 앞서 JFT-300M(3억 장)에서는 놀라운 성능을 보였으나, 사전 학습 데이터를 10% 미만으로 제한했을 때 MLP-Mixer의 성능은 ResNet이나 ViT에 비해 급격하게 곤두박질쳤습니다. 즉, 모델 자체에 이미지라는 데이터 형식을 위한 최소한의 '가이드라인(구조적 편향)'이 없기 때문에, 가르쳐줄 데이터가 부족한 환경에서는 데이터 패턴을 무지성으로 암기해버리는 심각한 과적합(Overfitting) 현상을 보인다는 명확한 단점을 확인시켜 주었습니다.
8. 이 논문의 계보와 발전 (Impact & Follow-ups)
MLP-Mixer의 파급력은 대단했습니다. 이 논문이 발표된 2021년 이후, 학계에서는 "CNN과 어텐션을 완전히 배제하고 연산 효율을 높이는 대안 아키텍처"에 대한 후속 연구가 쏟아졌습니다. 이 섹션에서는 MLP-Mixer의 단점을 비판적으로 극복하고 새로운 트렌드를 주도한 파생 모델들의 계보를 살펴봅니다.
| 파생 모델명 | 발표 시기 | 핵심 혁신 및 차별점 | 해결한 MLP-Mixer의 한계 |
| gMLP | 2021 | 공간 게이팅 유닛(SGU) 추가 | 자연어 처리(NLP) 분야 적용 한계 극복 |
| ResMLP | 2021 | 정규화 방식(LayerNorm) 완전 제거 | 양자화(Quantization) 시의 불안정성 해결 |
| ConvMixer | 2022 | MLP 대신 표준 합성곱 연산 재도입 | 적은 연산량으로도 높은 성능 확보 (코드 단순화) |
| CycleMLP | 2022 | 순환형 샘플링(Cycle FC) 기법 도입 | 이미지 크기 변화에 취약한 고정 해상도 한계 극복 |
gMLP와 ResMLP: MLP 아키텍처의 내실 다지기 (2021)
MLP-Mixer와 거의 동시기에 연구되며 순수 MLP 아키텍처 르네상스를 이끈 두 모델입니다.
- gMLP (Gated MLP): 기존 MLP-Mixer는 컴퓨터 비전에서는 뛰어났으나 마스크 언어 모델링(MLM)과 같은 자연어 처리(NLP) 분야에서는 트랜스포머를 넘어서지 못했습니다. gMLP 연구진은 단순히 위치 토큰을 섞는 것을 넘어, 공간 차원에서의 게이팅 연산을 수행하는 공간 게이팅 유닛(Spatial Gating Unit, SGU)을 도입했습니다. 이를 통해 어텐션 없이도 BERT에 필적하는 혁신적 성능을 달성하여 NLP 영역으로 MLP 구조를 확장시켰습니다.
- ResMLP: MLP-Mixer와 아키텍처 컨셉을 거의 그대로 공유하지만, 층 정규화(LayerNorm)를 아예 삭제하고 구조를 더 가볍게 만들었다는 차이가 있습니다. 최신 연구에 의하면 모델을 경량화하는 양자화(Quantization) 작업을 수행할 때, MLP-Mixer는 불안정성이 존재하지만 구조를 덜어낸 ResMLP 모델 변형이 양자화에 훨씬 친화적이고 효율적임이 증명되었습니다.
ConvMixer: 패치 철학과 CNN의 타협 (2022)
MLP-Mixer의 철학인 "패치 기반의 동등한 크기 유지(Isotropic) 및 공간/채널 연산 분리"라는 개념이 워낙 뛰어나다 보니, 이를 수용하면서도 우리에게 친숙한 표준 합성곱 연산을 접목한 융합 모델이 등장했습니다.
- ConvMixer는 토큰 혼합 MLP를 깊이별 합성곱(Depthwise Convolution)으로 대체하고, 채널 혼합 MLP를 점별 합성곱($1 \times 1$ Pointwise Convolution)으로 교체하여 구성되었습니다.
- 또한 트랜스포머 계열이 고집하는 층 정규화(LayerNorm) 대신 CNN 진영의 표준인 배치 정규화(BatchNorm)를 부활시켰습니다. 이 모델은 파이토치(PyTorch) 코드가 트윗 한 줄에 들어갈 정도로 극도로 단순하게 구현되면서도, MLP-Mixer나 일반 CNN 모델보다 동일 파라미터 대비 우수한 성능을 달성해 학계의 주목을 받았습니다.
CycleMLP: 밀집 예측(Dense Prediction)을 향한 도약 (2022)
원조 MLP-Mixer의 단점 중의 하나는 입력 해상도에 극도로 종속적이라는 사실입니다. 토큰 혼합 MLP의 입력 크기가 패치의 총 개수와 물리적으로 연동되기 때문에, 이미지 크기가 유동적으로 변하는 환경이나 객체 탐지(Object Detection), 그리고 픽셀 단위의 시맨틱 분할(Semantic Segmentation)과 같은 밀집 예측 환경에서는 사용이 불가능에 가까웠습니다.
- CycleMLP 연구진은 기존 토큰 혼합 계층을 대체하기 위해, 계단형(Stepsize) 국소적 윈도우 기반에서 마치 사이클을 돌듯 순환 형태로 샘플링 위치를 이동하며 특징을 추출하는 Cycle FC 블록을 제안했습니다.
- 이러한 접근법은 MLP-Mixer의 컴퓨팅 복잡도를 이차 함수 비례($O(N^2)$)에서 선형 비례($O(N)$) 구조로 근사화했습니다. 그 결과 다양한 해상도의 입력 이미지를 유연하게 받아들일 수 있게 되어, 의료 이미지 분할이나 복잡한 자율주행 객체 탐지 등 실용적인 밀집 예측 벤치마크 분야에서 Swin Transformer와 같은 최상위 모델을 능가하는 확장을 이루어냈습니다.
9. 마무리
MLP-Mixer는 "과연 무엇이 비전 모델의 성능을 결정짓는 핵심 기제인가?"에 대한 딥러닝 커뮤니티의 오랜 고정관념을 강하게 뒤흔든 이정표적인 연구입니다. 수십 년간 연구자들은 CNN 필터가 지닌 국소적 귀납 편향이나 트랜스포머가 가진 동적 어텐션 메커니즘 그 자체가 탁월한 이미지 인식 성능의 유일한 비밀 열쇠라고 믿어왔습니다. 그러나 MLP-Mixer의 성공은 오히려 모델 설계에 있어 1) 공간 정보와 채널 정보를 섞는 과정을 구조적으로 명확히 분리하고, 2) 풍부한 대규모 데이터에서 일관된 전역적 표현(Representation)을 학습하는 훈련 시스템의 조화가 훨씬 더 큰 비중을 차지한다는 사실을 일깨워주었습니다.
하지만 실무 환경에서 이 모델 구조를 맹목적으로 도입하기 전에는 명확한 한계점들을 인지하고 주의해야 합니다.
- 지독한 데이터 갈증: 강력한 사전 지식(구조적 편향)이 배제된 아키텍처 특성상, MLP-Mixer는 학습 초반에 정답을 찾아가는 나침반이 없는 상태와 같습니다. 자금력과 컴퓨팅 자원이 한정된 일반적인 기업 환경이나 소규모 맞춤형 데이터셋(수만 장 이하) 환경에서는 과적합에 쉽게 빠지며, 오히려 ResNet 같은 전통적 CNN 모델보다 수렴 속도나 안정성이 크게 떨어질 수 있습니다.
- 형태적 유연성의 부재: 분류(Classification) 이외에 객체의 구체적인 바운딩 박스를 찾는 탐지(Detection)나 세밀한 픽셀 단위 분석을 요구하는 분할(Segmentation) 등 최신 밀집 예측 과제를 수행해야 할 때, 고정된 입력 패치 길이를 요구하는 기본형 MLP-Mixer 구조는 매우 뻣뻣합니다. 실무에서 이러한 확장성이 필수적이라면 순수 MLP-Mixer보다는 단점을 훌륭하게 보완한 CycleMLP나 ConvMixer와 같은 발전형 파생 아키텍처를 베이스라인으로 검토하는 것이 훨씬 타당합니다.
결론적으로, 다층 퍼셉트론만으로 회귀한 MLP-Mixer 아키텍처는 딥러닝 모델들이 성능 향상을 위해 갈수록 복잡해지고 기형적으로 거대해지던 흐름 속에서, "구조적 단순화와 분리 철학"이라는 묵직한 돌직구를 던졌습니다. 연산 복잡도를 최소화하면서 데이터 효율성을 극대화한 이러한 접근 방식은, 비전 영역을 넘어 자연어, 오디오 등 서로 다른 데이터를 하나의 공통된 단순한 구조로 통합 처리하고자 하는 다중 모달(Multi-modal) 메타 아키텍처 연구에 오랫동안 영감을 제공할 것입니다.