일러두기 (Disclaimer)
본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.
논문 링크 : https://arxiv.org/abs/2105.15203
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
We present SegFormer, a simple, efficient yet powerful semantic segmentation framework which unifies Transformers with lightweight multilayer perception (MLP) decoders. SegFormer has two appealing features: 1) SegFormer comprises a novel hierarchically str
arxiv.org
초록 (Abstract)
본 논문은 가벼운 다층 퍼셉트론(MLP, Multilayer Perceptron) 디코더와 트랜스포머(Transformer)를 통합하여 단순하고 효율적이면서도 강력한 성능을 발휘하는 시맨틱 세그멘테이션(Semantic Segmentation) 프레임워크인 SegFormer를 제안합니다.
SegFormer는 두 가지 주요한 특징을 가지고 있습니다. 첫째, 다중 스케일(Multi-scale) 특성을 출력하는 새로운 계층적 구조의 트랜스포머 인코더를 포함합니다. 이 인코더는 고정된 위치 인코딩(Positional encoding)을 필요로 하지 않으며, 그 결과 학습 해상도와 테스트 해상도가 다를 때 위치 코드를 강제로 보간(Interpolation)하여 발생하는 성능 저하 문제를 원천적으로 방지합니다. 둘째, 복잡한 디코더 설계를 배제합니다. 제안된 MLP 디코더는 서로 다른 레이어에서 추출된 다중 스케일 정보를 단순히 통합하며, 이를 통해 지역적 주의(Local attention)와 전역적 주의(Global attention)를 모두 결합하여 강력한 시각적 표현을 생성합니다.
본 연구는 이러한 단순하고 가벼운 설계가 트랜스포머 기반 세그멘테이션의 효율성을 달성하는 핵심 요소임을 입증합니다. 이 접근법을 체계적으로 확장하여 경량 모델인 SegFormer-B0부터 고성능 모델인 SegFormer-B5까지의 모델 시리즈를 구축했으며, 이전 모델들보다 유의미하게 향상된 성능과 연산 효율성을 달성했습니다. 예를 들어, 중간 크기 모델인 SegFormer-B4는 6,400만 개의 파라미터로 ADE20K 데이터셋에서 50.3%의 mIoU를 달성하여, 이전 최고 방법보다 크기는 5배 작으면서도 성능은 2.2% 향상되는 결과를 보여주었습니다. 가장 큰 모델인 SegFormer-B5는 Cityscapes 검증 세트에서 84.0%의 최고 수준 mIoU를 기록했으며, 시각적 손상이 가해진 Cityscapes-C 데이터셋에서 뛰어난 제로샷(Zero-shot) 견고성을 입증했습니다.
1. 한줄 요약 & 3줄 핵심 (Executive Summary)
위치 인코딩과 복잡한 디코더를 제거하고 계층적 트랜스포머 인코더와 단순한 다층 퍼셉트론(MLP)만을 결합하여, 컴퓨터 비전 모델의 속도와 정확도를 동시에 충족시킨 실용적인 시맨틱 세그멘테이션 프레임워크입니다.
- 기존의 문제점 (Pain point): 기존 트랜스포머 기반 모델(ViT 등)은 단일 해상도의 출력만 제공하여 세밀한 픽셀 예측이 어려웠고, 고해상도 이미지 처리 시 연산량이 기하급수적으로 폭증하며 무거운 디코더를 요구하여 실시간 구동이 불가능에 가까웠습니다.
- 이 논문의 해결책 (Solution): 해상도가 점진적으로 줄어들며 다중 스케일의 특징을 추출하는 '계층적 트랜스포머 인코더'를 도입하고, 각 계층의 정보를 단순히 병합하여 예측하는 가벼운 'All-MLP 디코더'를 제안했으며, 성능 저하의 원인이던 고정형 위치 인코딩을 주변 픽셀 연산을 통해 위치를 파악하는 Mix-FFN 기법으로 대체했습니다.
- 달성한 성과 (Key Result): 파라미터 수를 획기적으로 줄이면서도 Cityscapes, ADE20K 등 주요 벤치마크에서 기존 CNN 및 트랜스포머 모델들을 뛰어넘는 SOTA(State-of-the-Art) 성능을 달성했으며, 초경량 모델인 SegFormer-B0는 실시간 처리가 가능한 초당 48프레임(FPS)의 속도를 기록하여 산업적 실용성을 증명했습니다.
2. 들어가며: 왜 이 연구가 필요했나? (The "Why")
디지털 이미지 내의 모든 픽셀이 각각 어떤 객체나 배경에 속하는지 픽셀 단위로 정밀하게 분류하는 작업을 시맨틱 세그멘테이션(Semantic Segmentation)이라고 합니다. 이는 단순한 이미지 분류나 객체 탐지를 넘어, 자율주행 차량이 주행 가능한 도로와 보행자를 구분하거나, 의료 영상에서 종양과 정상 조직의 경계를 식별하고, 위성 이미지에서 도시의 토지 이용 변화를 분석하는 등 정밀한 시각적 인지가 필요한 현대 산업 분야에서 필수적인 기반 기술로 자리 잡고 있습니다.
과거 수년간 이 분야의 발전을 견인한 핵심 기술은 단연 합성곱 신경망(CNN, Convolutional Neural Network)이었습니다. FCN(Fully Convolutional Networks)이 등장하여 픽셀 단위 분류의 기초를 닦은 이후, 컴퓨터 비전 연구자들은 성능을 높이기 위해 CNN 구조를 지속적으로 고도화해 왔습니다. 하지만 CNN은 구조적 특성상 뚜렷한 한계를 내포하고 있었습니다. 핵심적인 문제는 수용 영역(Effective Receptive Field)이 제한적이라는 점입니다. 수용 영역이란 신경망의 특정 계층에 있는 뉴런이 이미지를 분석할 때 한 번에 참조할 수 있는 원본 이미지의 공간적 범위를 뜻합니다. CNN은 기본적으로 이미지의 국소적인 영역(예: 3x3 픽셀 범위)을 훑고 지나가는 필터 연산에 의존하기 때문에, 이미지 전체의 거시적인 문맥(Global Context)을 한눈에 파악하기 어렵습니다.
예를 들어 자율주행 카메라 화면 구석에 있는 회색 픽셀 집합이 '도로의 연장선'인지, 아니면 '정차된 자동차의 지붕'인지 정확히 판단하려면 해당 픽셀 주변의 좁은 영역뿐만 아니라 이미지 전체의 구조적 맥락을 동시에 고려해야 합니다. 연구자들은 CNN의 좁은 시야 한계를 극복하기 위해 필터의 간격을 넓히는 팽창된 합성곱(Dilated Convolution)이나 여러 크기의 필터를 병렬로 적용하는 ASPP(Atrous Spatial Pyramid Pooling)와 같은 복잡한 컨텍스트 모듈을 디코더 부분에 덧붙여 억지로 시야를 넓히고자 시도했습니다. 대표적인 모델이 DeepLab 시리즈입니다. 그러나 이러한 모듈의 추가는 모델의 파라미터 수와 연산량을 크게 증가시켜 전체 시스템을 무겁고 느리게 만드는 부작용을 낳았습니다.
그러던 중 자연어 처리(NLP) 분야에서 혁신을 일으킨 트랜스포머(Transformer) 아키텍처가 컴퓨터 비전 분야에 도입되며 새로운 돌파구가 열렸습니다. ViT(Vision Transformer)는 이미지를 여러 개의 작은 패치(조각)로 분할하여 마치 문장을 구성하는 단어처럼 취급함으로써, 이미지 전체의 조각들을 한 번에 비교하고 연관성을 찾는 어텐션(Attention) 능력을 입증했습니다. 이를 시맨틱 세그멘테이션에 적용한 SETR(Segmentation Transformer) 모델이 등장하며 성능 면에서 유의미한 진전을 이룩했습니다. 트랜스포머 고유의 넓은 수용 영역 덕분에 전역적인 문맥 파악이 가능해진 것입니다.
하지만 연구진은 SETR과 같은 초기 트랜스포머 기반 세그멘테이션 모델들이 산업 현장에 적용되기에는 여전히 치명적인 단점들을 가지고 있다는 점에 주목했습니다. 첫 번째 단점은 다중 스케일(Multi-scale) 특징의 부재입니다. 기존 ViT 구조는 이미지를 16x16 크기의 고정된 패치로 자른 후 신경망을 통과하는 내내 동일한 저해상도 특징 맵(Feature map)만 유지합니다. 세그멘테이션은 픽셀 단위의 정밀한 테두리 예측이 필수적인데, 단일 해상도만으로는 객체의 얇은 경계선이나 디테일을 표현하는 데 구조적인 한계가 존재했습니다. 두 번째 단점은 기하급수적인 연산 비용입니다. 트랜스포머의 '자기 주의(Self-Attention)' 연산은 입력되는 시퀀스 길이에 제곱 비례하여 계산량이 폭증합니다. 세그멘테이션을 위해 자율주행 환경에서 수집되는 고해상도 이미지를 입력으로 사용할 경우 메모리와 연산 비용이 감당하기 힘든 수준에 도달합니다. 세 번째 단점은 위치 인코딩(Positional Encoding)의 경직성입니다. 트랜스포머 모델은 입력 패치의 순서를 알 수 없으므로 학습 시 고정된 해상도에 맞춰 각 패치에 위치 좌표를 부여합니다. 그러나 실제 테스트 환경에서 학습 때와 다른 해상도의 이미지가 입력될 경우, 기존의 위치 코드를 강제로 늘리거나 줄이는 보간 작업이 필요하며 이는 필연적인 성능 저하로 이어졌습니다. 마지막으로, 기존 모델들은 트랜스포머 인코더를 사용하면서도 그 출력물을 처리하기 위해 여전히 CNN 기반의 복잡하고 무거운 디코더를 결합하여 사용하고 있었습니다.
이러한 기술적 배경 속에서 본 논문의 연구진은 근본적인 질문을 던졌습니다. 트랜스포머의 압도적인 문맥 파악 능력을 유지하면서도, 고해상도 이미지를 효율적으로 처리하고 복잡한 디코더 없이 높은 성능을 달성할 수는 없을지에 대한 고민이었습니다. 본 논문은 이러한 고민에 대한 명확한 해답을 제시하며 시맨틱 세그멘테이션 모델 설계의 새로운 패러다임을 제안하고자 작성되었습니다.
3. 이 논문의 뿌리 (Key Reference)
SegFormer 아키텍처는 과거 컴퓨터 비전 모델들의 장단점을 명확히 분석하고 이를 비판적으로 계승하여 발전된 결과물입니다. 이 모델이 탄생하는 데 결정적인 영감을 제공하거나 비교군으로 사용된 핵심 연구들과의 관계를 살펴보면 SegFormer의 위치를 더 명확히 이해할 수 있습니다.
- ViT (Vision Transformer, 2020) 및 SETR (Segmentation Transformer, 2021): 본 논문은 트랜스포머를 비전 태스크에 도입한 ViT와 이를 세그멘테이션에 최초로 적용한 SETR의 '순수 트랜스포머 백본(Backbone) 활용'이라는 개념을 핵심 기반으로 삼았습니다. 그러나 본 연구는 SETR이 단일 해상도의 특징 맵만 출력한다는 치명적인 단점을 강하게 비판했습니다. 또한 SETR이 강력한 트랜스포머 인코더를 갖추고도 그 뒤에 복잡한 다중 합성곱 기반의 디코더를 연결하는 모순적인 설계를 취했다고 지적하며, 이를 극복하기 위한 계층적 인코더와 경량 디코더의 필요성을 역설했습니다.
- PVT (Pyramid Vision Transformer, 2021): ViT의 단일 해상도 문제를 해결하기 위해 등장한 PVT 논문은 트랜스포머 구조 내에 점진적으로 해상도가 줄어드는 '피라미드 구조(계층적 구조)' 개념을 처음 도입했습니다. SegFormer는 이 PVT의 아이디어를 적극적으로 차용하여 인코더의 기본 골격인 다중 스케일 특징 추출 메커니즘을 구성했습니다. 하지만 PVT가 인코더 설계에만 집중하고 세그멘테이션의 최종 성능을 결정짓는 디코더의 최적화에는 소홀했다는 점을 파악했습니다. 이에 따라 SegFormer는 인코더를 세그멘테이션에 맞게 더욱 정교화하는 동시에 디코더 부분을 혁신적으로 간소화하는 차별점을 확보했습니다.
- DeepLabV3+ (2018): 기존 CNN 진영의 사실상 표준이자 가장 대표적인 SOTA 모델입니다. DeepLabV3+는 좁은 수용 영역 문제를 해결하기 위해 ASPP라는 무거운 컨텍스트 모듈을 필수적으로 탑재해야만 했습니다. 본 논문은 DeepLabV3+를 성능 및 효율성 평가의 주된 대조군으로 활용했습니다. 단순히 성능을 이겼다는 것을 넘어, 트랜스포머 기반의 인코더가 제공하는 본질적으로 넓은 수용 영역을 활용하면 기존 CNN이 필요로 했던 복잡한 디코더 모듈들이 얼마나 불필요해지는지를 구조적으로 증명하는 비교 대상으로 삼았습니다.
4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)
첫 번째 발상의 전환: "고정된 주소 표지판(위치 인코딩)을 버리고, 주변 지형지물을 통해 스스로 위치를 파악하자."
트랜스포머 네트워크의 본질적인 특징은 입력된 데이터 요소들의 순서를 태생적으로 알지 못한다는 것입니다. 이미지를 여러 조각의 패치로 나누어 입력할 때, 신경망은 조각들을 한꺼번에 병렬로 바라볼 뿐 어느 조각이 상단에 있고 어느 조각이 하단에 있는지 알지 못합니다. 이를 해결하기 위해 기존의 트랜스포머 모델들은 각 패치마다 "너는 1행 1열의 조각이다", "너는 1행 2열의 조각이다"라는 고정된 주소 표지판(Positional Encoding)을 덧붙여주었습니다.
문제는 이 주소 표지판이 특정 해상도 크기의 지도(이미지)에 딱 맞춰져 있다는 점입니다. 학습할 때 512x512 해상도에 맞춰 주소 체계를 생성해 두었는데, 실제 테스트나 자율주행 환경에서 1024x2048 크기의 넓은 지도가 입력되면 기존 주소 체계에 공백이 생기게 됩니다. 기존 모델들은 이 빈 공간을 메우기 위해 억지로 주변 주소를 늘려서 칠하는 보간법(Interpolation)을 사용했고, 이 부정확한 주소 할당은 모델의 정확도를 크게 떨어뜨리는 주범이었습니다.
SegFormer 연구진은 이러한 고정형 주소 표지판을 완전히 폐기하는 결단을 내렸습니다. 대신 Mix-FFN이라는 새로운 기법을 도입하여, 각 이미지 조각이 자신을 둘러싼 주변 3x3 범위의 조각들과 서로 시각적 정보를 교환하며 스스로 위치를 유추하도록 만들었습니다. 비유하자면, 절대적인 GPS 좌표 대신 "내 주변에 하늘 패치와 구름 패치가 있는 것을 보니 나는 이미지의 상단에 위치하고 있구나"라고 맥락을 통해 위치를 파악하게 한 것입니다. 이 발상의 전환을 통해 SegFormer는 테스트 환경에서 어떤 크기와 비율의 이미지가 입력되더라도 해상도에 구애받지 않고 유연하고 강건하게 위치 정보를 유지할 수 있게 되었습니다.
두 번째 발상의 전환: "거대한 정보 복원 공장(복잡한 디코더) 대신, 빠르고 직관적인 정보 병합 센터(All-MLP)를 구축하자."
시맨틱 세그멘테이션은 인코더를 통해 작게 압축되고 추상화된 특징 정보를 다시 원본 이미지 크기에 가깝게 확장하여 픽셀마다 정답 라벨을 칠하는 과정이 필요하며, 이 확장의 역할을 '디코더'가 수행합니다. 이전의 CNN 기반 모델들은 인코더가 바라보는 시야(수용 영역)가 매우 좁았기 때문에, 부분적인 정보만 담긴 조각들을 모아 전체 이미지의 맥락을 추론하기 위해 디코더가 무수히 많은 부가 연산을 수행하는 '거대한 복원 공장' 역할을 담당해야 했습니다.
그러나 SegFormer에 탑재된 계층적 트랜스포머 인코더는 CNN과 달리 이미지 전역을 조망하는 능력을 갖추고 있습니다. 특히 얕은 계층에서는 테두리와 질감 같은 세밀한 지역적(Local) 특성을 잡고, 깊은 계층에서는 이미지 전체의 문맥이라는 전역적(Global) 특성을 완벽하게 품고 있습니다. 즉, 인코더에서 넘어오는 재료 자체가 이미 완벽한 맥락 정보를 내포하고 있기 때문에, 디코더가 이를 복잡하게 재가공할 이유가 사라진 것입니다.
이에 착안하여 본 연구는 디코더를 가장 단순한 형태의 인공신경망인 다층 퍼셉트론(MLP) 계층 단 몇 개만으로 구성했습니다. 복잡한 합성곱 연산이나 맥락 확장 모듈을 모두 버리고, 인코더의 4단계에서 추출된 특징들을 단순한 배달망처럼 한 곳으로 모아 단순히 합친(Concatenate) 후 정답을 도출하는 극도로 가볍고 직관적인 구조를 제안한 것입니다. 이 발견은 트랜스포머의 잠재력을 최대한 활용하면 주변부를 얼마나 가볍게 만들 수 있는지를 보여주는 중요한 통찰입니다.
5. 작동 원리: 어떻게 돌아가는가? (The "How")
모델에 원본 사진이 한 장 입력된 후 픽셀 단위의 분할 결과물이 출력될 때까지 모델 내부에서 일어나는 데이터의 흐름(Flow)을 단계별로 자세히 따라가 보겠습니다. 전체 프레임워크는 크게 계층적 트랜스포머 인코더와 초경량 다층 퍼셉트론 디코더의 두 부분으로 나뉩니다.
1단계: 패치 분할 (Patching)
먼저 입력된 원본 이미지(예를 들어 자율주행 도로 이미지)를 4x4 픽셀 크기의 아주 작은 패치(조각)들로 자릅니다. 초기 트랜스포머 모델인 ViT가 16x16 픽셀 크기로 큼직하게 잘랐던 것과 비교하면 훨씬 조밀한 분할입니다. 시맨틱 세그멘테이션은 픽셀 단위의 조밀하고 정밀한 테두리 예측이 생명이므로 이처럼 작은 패치를 시작점으로 삼아 정보의 손실을 방지합니다.
2단계: 계층적 트랜스포머 인코더 (Hierarchical Transformer Encoder - MiT)
잘게 잘린 패치들은 MiT(Mix Transformer)라 불리는 인코더 네트워크로 들어가 총 4개의 스테이지(Stage)를 차례대로 통과합니다. 데이터가 계층을 거칠 때마다 이미지 공간의 해상도는 점진적으로 작아지고, 대신 데이터를 표현하는 채널(정보의 두께)은 점점 두꺼워지며 추상적인 의미를 담게 됩니다.
- 스테이지 1: 원본 크기의 1/4 해상도를 가지며, 저수준의 고해상도 정보(객체의 모서리, 질감 등)를 추출합니다.
- 스테이지 2, 3, 4: 단계를 거치며 해상도는 1/8, 1/16, 1/32 크기로 작아집니다. 최종 스테이지 4에 도달하면 이미지 전체를 아우르는 고수준의 전역적 정보(예: 전체적인 씬이 주행 중인 도로인지, 방 안인지 등)를 파악하게 됩니다.
이 4개의 각 스테이지 내부에서는 데이터 처리를 위해 다음과 같은 세 가지 핵심 공정이 순차적으로 일어납니다.
- 겹치게 합치기 (Overlapped Patch Merging): 다음 스테이지로 넘어가 해상도를 줄일 때 주변 패치들을 묶어서 크기를 축소합니다. 이때 기존 모델들처럼 타일 맞추듯 경계를 무 자르듯 자르지 않고, 이웃한 패치끼리 지정된 간격과 패딩을 두어 살짝 겹치도록(Overlapping) 묶어줍니다. 이 과정 덕분에 패치들 사이의 공간적 연속성이 유지되며 객체의 경계선 정보가 매끄럽게 보존됩니다.
- 효율적인 자기 주의 연산 (Efficient Self-Attention): 이 모델의 계산 속도를 비약적으로 높여주는 핵심입니다. 트랜스포머의 어텐션 메커니즘은 모든 패치가 서로를 참조하므로 시퀀스 길이의 제곱에 비례하여 연산량이 폭증합니다. SegFormer는 어텐션 연산을 수행하기 직전에, 입력되는 키(K)와 밸류(V) 행렬의 시퀀스 길이를 지정된 축소 비율(Reduction Ratio)만큼 사전에 줄여버립니다. 이를 통해 모델은 연산의 병목을 제거하고 고해상도 이미지를 빠르고 가볍게 처리할 수 있게 됩니다.
- 위치 정보 혼합 (Mix-FFN): 앞서 설명한 것처럼 명시적인 위치 인코딩을 생략한 대신, 피드포워드 네트워크(FFN) 내부에서 3x3 깊이별 합성곱(Depth-wise Convolution)을 수행합니다. 제로 패딩(Zero padding)이 적용된 합성곱 필터가 주변 픽셀들을 훑고 지나가면서 자연스럽게 패치들 간의 상대적인 위치 단서를 학습하고 누적하게 됩니다.
3단계: 초경량 다층 퍼셉트론 디코더 (Lightweight All-MLP Decoder)
이제 인코더의 4개 스테이지에서 각각 뻗어 나온 4가지 서로 다른 해상도의 특징 정보들(원래 크기의 1/4, 1/8, 1/16, 1/32 크기)이 디코더로 동시에 입력됩니다. 이 경량 디코더는 단 4번의 직관적인 선형 연산(Linear layer)과 보간 작업만을 수행하여 최종 결과를 도출합니다.
- 채널 통일: 4개의 특징 정보들은 서로 채널의 두께가 다릅니다. 이들을 단순한 선형 레이어(MLP)에 통과시켜 모든 특징의 채널 차원 크기를 동일하게(예: 256 채널) 통일시킵니다.
- 크기 통일 (Upsample): 1/32, 1/16, 1/8로 작아져 있는 특징 맵들의 공간적 해상도를 가장 큰 특징 맵인 1/4 크기로 강제 확대시킵니다.
- 특징 병합 (Concatenate): 크기와 두께가 완벽히 동일해진 4개의 특징 맵을 차원 방향으로 포개어 하나로 합칩니다. 이 단순한 합치기 작업을 통해 스테이지 1이 가진 픽셀 단위의 세밀한 지역적 정보와 스테이지 4가 가진 넓은 시야의 전역적 정보가 한 그릇에 융합됩니다.
- 최종 예측 (Prediction): 융합된 거대한 특징 덩어리를 마지막 분류용 선형 레이어(MLP)에 통과시킵니다. 이 레이어는 각 픽셀 위치마다 모델이 예측해야 하는 카테고리 수만큼의 확률값을 계산하여, 최종적인 세그멘테이션 마스크를 생성해냅니다.
이 디코더의 설계는 전체 파라미터에서 차지하는 비중이 불과 수 퍼센트에 불과할 정도로 극도로 가벼우며, 이것이 SegFormer가 높은 FPS(초당 프레임 수)를 달성하는 결정적 요인입니다.
6. 작동 원리: 어떻게 학습하는가? (The "How")
딥러닝 모델이 자율주행 도로 위에서 자동차와 보행자를 오차 없이 구분하거나 의료 영상에서 세포를 분할하기 위해서는 사전에 정답이 포함된 방대한 데이터를 통한 반복 학습이 필수적입니다. SegFormer가 어떤 데이터를 입력받아 학습하고 무엇을 출력하는지 세부적으로 살펴보겠습니다.
학습을 위해서는 특징을 추출할 원본 이미지와 픽셀별 정답이 표시된 라벨 이미지가 하나의 쌍(Pair)을 이룬 형태의 데이터셋이 대량으로 필요합니다.
- 원본 이미지 (Input Image): 학습 환경에서 촬영된 RGB 3채널의 일반적인 2D 디지털 이미지 데이터입니다.
- 정답 마스크 (Ground Truth Mask): 원본 이미지와 가로세로 해상도가 완벽히 동일한 2D 행렬 형태의 데이터입니다. 원본 이미지에서 '보행자'가 위치한 픽셀 공간에는 1이라는 정수가, '도로'가 위치한 공간에는 2가, '배경'에는 0이 기록되는 방식으로 픽셀마다 클래스를 나타내는 고유한 정수 라벨이 매핑되어 있습니다.
본 논문에서는 모델의 보편적이고 강력한 성능을 증명하기 위해 컴퓨터 비전 분야에서 가장 도전적인 세 가지 벤치마크 데이터를 학습에 사용했습니다.
- Cityscapes 데이터셋: 자율주행 연구의 핵심 데이터로, 주행 중인 차량 카메라 시점에서 촬영된 고해상도의 독일 도시 도로 이미지입니다. 세밀하게 주석이 달린 5,000장의 이미지가 포함되어 있으며 도로, 자동차, 보행자, 교통 표지판 등 19개의 복잡한 환경 카테고리를 정확히 구분해내야 합니다.
- ADE20K 데이터셋: 침실, 주방, 거실 등 실내 공간부터 넓은 풍경까지 실내외 이미지가 혼합된 20,210장의 씬 파싱(Scene Parsing) 데이터셋입니다. 구분해야 하는 사물과 배경 카테고리의 수가 무려 150개에 달해 모델의 정교한 분류 능력을 극한까지 시험하는 높은 난이도를 가집니다.
- COCO-Stuff 데이터셋: 16만 장 이상의 방대한 이미지와 172개의 폭넓은 의미 라벨(Things and Stuff)을 가진 대규모 데이터셋입니다.
학습 중 모델이 다양한 실전 환경과 해상도 변화에 내성을 가지도록 데이터 증강(Data Augmentation) 기법을 강도 높게 적용합니다. 원본 이미지의 크기를 0.5배에서 2.0배 비율로 무작위로 축소 및 확대하고, 좌우를 무작위로 반전시키며, 모델 버전에 따라 512x512 또는 1024x1024 등의 고정된 해상도 윈도우로 이미지를 잘라내어 네트워크에 주입합니다. (또한 인코더의 기본적인 시각적 이해도를 높이기 위해, 대규모 이미지 분류 데이터셋인 ImageNet-1K로 사전 학습된 가중치를 인코더의 초깃값으로 사용합니다).
학습 과정을 거쳐 모델이 최종적으로 출력하는 데이터는 원본 이미지 해상도의 가로세로 길이를 각각 1/4 크기로 축소한 형태의 3차원 확률 지도(Probability Map) 행렬입니다. 만약 분류해야 할 카테고리 수가 19개라면, 각 픽셀 위치마다 19개의 확률값이 담긴 배열이 존재하게 됩니다. 이 배열에서 소프트맥스(Softmax) 연산을 통해 가장 확률이 높은 라벨의 인덱스를 찾아 해당 픽셀의 최종 예측 카테고리로 결정합니다. 학습 시에는 이 예측된 확률 분포와 실제 정답 마스크 사이의 교차 엔트로피 손실(Cross-Entropy Loss) 오차를 수치화하여 계산하고, 역전파 알고리즘을 통해 이 오차를 최소화하는 방향으로 인코더와 디코더 내부의 가중치 파라미터를 수만 번에 걸쳐 미세하게 업데이트합니다.
7. 결과: 얼마나 좋아졌나? (Results)
단순한 구조의 디코더와 가벼운 모듈을 사용했음에도 불구하고, SegFormer는 거의 모든 성능 지표에서 기존의 무겁고 복잡한 모델들을 큰 격차로 압도하는 훌륭한 성과를 증명했습니다. 모델 크기 대비 성능의 향상 폭과 그 임팩트를 명확히 보여주는 결과를 표와 함께 요약합니다.
SOTA(최고 성능) 달성 및 압도적인 파라미터 효율성
가장 대중적인 데이터셋인 ADE20K에서의 성능 결과를 통해 SegFormer의 효율성을 명확하게 확인할 수 있습니다. (mIoU는 세그멘테이션 성능을 나타내는 지표로 높을수록 좋으며, FLOPs는 연산량을 의미합니다.)
| 모델 (Model) | 인코더 구조 (Encoder) | 파라미터 수 (Params) | 연산량 (FLOPs) | 정확도 (mIoU) |
| DeepLabV3+ | CNN (ResNet-101) | 62.7M | 255.1G | 44.1% |
| SETR | Transformer (ViT-Large) | 318.3M | 362.1G | 48.6% |
| SegFormer-B4 | Transformer (MiT-B4) | 64.1M | 95.7G | 50.3% |
| SegFormer-B5 | Transformer (MiT-B5) | 84.7M | 183.3G | 51.8% (SOTA) |
위의 성능 비교표에서 볼 수 있듯, 이전 최고 성능을 보유했던 트랜스포머 모델인 SETR과 비교하여 SegFormer-B4 모델은 파라미터 크기가 무려 5배가량 작고 연산량도 약 4배 적음에도 불구하고 정확도는 1.7%나 향상되었습니다. 파라미터를 늘려 성능을 극대화한 가장 거대한 모델인 SegFormer-B5의 경우, ADE20K에서 51.8%라는 신기록을 달성했으며 Cityscapes 검증 세트에서도 84.0%라는 경이로운 예측 능력을 보여주며 당시 분야의 벤치마크 기준점을 새롭게 세웠습니다.
산업적 실용성을 증명한 실시간 추론 속도 (Speed)
이 논문의 가장 큰 공헌 중 하나는 성능뿐만 아니라 추론 속도 면에서도 혁신을 가져왔다는 점입니다. 자율주행이나 로보틱스 환경에서는 실시간 처리가 생명입니다. 이를 위해 고안된 초경량 버전인 SegFormer-B0는 전체 파라미터 수가 3.7M(370만 개)에 불과합니다. 이 모델은 특수한 하드웨어 가속 라이브러리(TensorRT 등)를 전혀 사용하지 않은 순수 구현 상태에서도 초당 48프레임(FPS)의 이미지 처리 속도를 달성했습니다. 과거 실시간 세그멘테이션의 대명사였던 ICNet 모델과 비교했을 때, 지연 시간은 약 60% 단축되어 속도가 훨씬 빨라졌음에도 예측 성능(mIoU)은 4.2%나 더 높은 압도적인 효율을 보였습니다.
예측 불가능한 환경에서의 뛰어난 견고성 (Robustness)
가장 흥미롭고 실용적인 결과 중 하나는 모델이 예측하지 못한 돌발 상황에 얼마나 강하게 버티는지를 테스트하는 '제로샷 견고성(Zero-shot Robustness)' 결과입니다. 연구진은 모델의 신뢰성을 검증하기 위해 비가 오거나 눈이 내리는 날씨, 카메라 렌즈에 서리가 끼는 상황, 디지털 이미지 노이즈가 강하게 발생한 상황을 인위적으로 합성한 Cityscapes-C 데이터셋을 구축하여 평가했습니다. 테스트 결과 SegFormer는 카메라 노이즈(Gaussian Noise) 상황에서 기존 CNN 기반의 DeepLabV3+ 대비 최대 588% 성능 저하를 방어했으며, 눈이 내리는 악천후 상황에서도 최대 295% 더 강한 저항력을 보여주며 예측 라벨을 유지해 냈습니다. 이러한 견고성은 트랜스포머 아키텍처가 국소적인 픽셀의 시각적 손상이나 노이즈에 쉽게 흔들리지 않고 주변 픽셀들과의 관계를 통한 전체 맥락을 지속적으로 유지하는 능력을 내재하고 있기 때문입니다. 자율주행이나 의료와 같은 안전 필수(Safety-critical) 애플리케이션에서 이러한 특성은 매우 중요한 가치를 지닙니다.
한계점과 실패 케이스 (Limitations & Failure Cases)
물론 이 모델이 모든 시각적 과제에서 완벽하게 작동하는 것은 아닙니다. 후속 연구자들과 논문의 분석에 따르면 몇 가지 구체적인 한계점이 발견됩니다.
- 초미세 구조물의 탐지 실패: 인프라 시설의 크랙(균열)이나 거미줄처럼 가느다란 객체를 분할할 때 정확도가 크게 떨어지는 현상이 보고되었습니다. 초기 패치 분할 과정에서 너무 얇은 객체의 정보가 주변 픽셀 정보에 묻혀 희석되기 때문으로 추정됩니다.
- 객체 간 가림(Occlusion) 처리 부족: 여러 객체가 복잡하게 얽혀 서로를 가리고 있는 상황에서 경계선을 불명확하게 예측하는 한계를 보였으며, 이는 추후 계층 간 상호작용(Inter-level attention)을 돕는 추가적인 메커니즘 설계의 필요성을 시사했습니다.
8. 이 논문의 계보와 발전 (Impact & Follow-ups)
SegFormer가 증명한 "위치 인코딩 없는 계층적 트랜스포머 인코더"와 "단순화된 경량 디코더"의 조합은 컴퓨터 비전 커뮤니티에 거대한 충격을 주었습니다. 이후 쏟아진 시맨틱 세그멘테이션 분야 후속 연구들의 강력한 기준점(Baseline)이자 나침반 역할을 수행하며 다양한 발전 양상을 파생시켰습니다.
- SegNeXt (2022) - "트랜스포머의 주의 메커니즘을 합성곱으로 되살리다": SegFormer의 성공에 자극받아 CNN 진영에서 반격에 나선 대표적인 논문입니다. 이들은 트랜스포머의 '자기 주의(Self-attention)' 연산 구조가 시퀀스 길이를 줄였다 하더라도 여전히 고해상도에서는 연산 비용이 많이 든다고 비판했습니다. 대신 더 가볍고 효율적인 '합성곱 주의(Convolutional attention)' 기법으로 핵심 구조를 대체하는 SegNeXt를 제안했습니다. SegFormer의 전체적인 계층적 정보 추출 아이디어는 그대로 수용하면서도 디코더에 가벼운 햄버거(Hamburger) 모듈을 장착하여, SegFormer 대비 파라미터 수와 연산량을 더욱 줄이면서도 동급 이상의 우수한 성능을 달성하는 저력을 보여주었습니다.
- EfficientViT - "모바일 및 엣지 디바이스를 향한 극한의 최적화": 초경량 모델인 SegFormer-B0가 실시간 처리가 가능하다고는 하지만, 여전히 모바일 칩셋이나 소형 엣지 디바이스에서 원활하게 구동하기에는 하드웨어 친화적인 최적화가 부족했습니다. 후속 모델인 EfficientViT는 무거운 자기 주의 연산을 하드웨어 효율적인 모듈로 대체하고 가벼운 다중 스케일 어텐션 메커니즘을 새롭게 설계했습니다. 그 결과 모바일 CPU 환경에서 SegFormer 대비 최대 15배의 압도적인 지연 시간 단축(Speedup)을 이루어내며 온디바이스(On-device) AI의 새로운 가능성을 열었습니다.
- Mask2Former - "픽셀 단위 분류에서 마스크 단위 분류로의 패러다임 전환": SegFormer 모델까지의 세그멘테이션 패러다임은 철저하게 "이 이미지를 구성하는 개별 픽셀이 각각 어떤 클래스인가?"를 독립적으로 맞추는 픽셀 단위 분류(Per-pixel classification) 방식이었습니다. 하지만 후속 트렌드인 Mask2Former는 픽셀이 아닌 "이미지 내에서 의미 있는 조각(마스크) 전체를 떼어내어 그 조각이 어떤 클래스인지 통합적으로 예측"하는 마스크 분류(Mask classification) 패러다임을 제안했습니다. 이 과정에서 SegFormer의 구조적 장점이 Mask2Former의 기반 아키텍처에 큰 영향을 주며 범용 세그멘테이션 분야의 발전을 견인했습니다.
- SegMaFormer 및 다양한 산업 도메인으로의 특화 파생: 최근 딥러닝 트렌드에서는 SegFormer의 뼈대를 가져와 다른 아키텍처와 결합하는 시도가 활발합니다. 2025년 최근 발표된 연구에서는 연산량이 극도로 제한되고 3차원 공간 해석이 필요한 3D 의료 영상 분할을 위해, 최신 Mamba 아키텍처와 트랜스포머의 장점을 결합하여 모델 크기를 비약적으로 축소시킨 SegMaFormer가 등장하기도 했습니다. 또한 도메인 특화 분야에서도 그 활약이 두드러집니다. 드론에서 촬영하는 위성 이미지 분석(UAVid), 농업 환경에서의 포도 잎 질병 자동 감지, 열화상 무기 탐지 시스템, 그리고 조직학 이미지에서의 미세 신경 섬유 분할 및 자궁경부 조영술 분석 등 정밀함과 실시간성이 동시에 요구되는 수많은 의료 및 산업 시각 시스템에서 SegFormer의 구조를 변형 적용하여 뛰어난 성과를 거두고 있습니다.
9. 마무리
지금까지 심도 있게 살펴본 "SegFormer" 논문은 모델 구조를 무작정 깊고 거대하게 만들어 성능 수치만을 끌어올리는 데 몰두하던 딥러닝 비전 학계에 큰 경종을 울린 연구입니다. 연구진은 관습적으로 사용하던 기술들에 의문을 품고 "과연 세그멘테이션 모델의 디코더가 무거울 필요가 있는가?", "위치 인코딩이 반드시 고정되어야 하는가?"라는 근원적인 질문을 던졌습니다. 트랜스포머의 본질적인 특성인 '넓은 수용 영역'의 강점을 정확히 꿰뚫어 보았기에 "입력 정보가 이미 완벽하니 디코더는 정보를 단순 병합하는 가벼운 MLP 모듈만으로 충분하다"는 명쾌한 해답을 내놓을 수 있었습니다. 불필요한 복잡함을 덜어냄으로써 오히려 모델의 확장성(Scalability)과 악천후 환경에서의 강건성(Robustness)이 비약적으로 향상된다는 딥러닝 시스템의 철학적 진리를 다시 한번 증명한 기념비적인 작업이라 할 수 있습니다.
실무 도입 시 주의할 점
이론적으로 매우 우수하고 혁신적인 모델임은 분명하지만, 산업 현장에 직접 이 프레임워크를 도입하고자 할 때는 하드웨어 자원과 데이터 특성에 기반한 현실적인 제약사항들을 반드시 고려해야 합니다.
- GPU 메모리 소비와 추론 배치 사이즈(Batch Size) 제약: 디코더가 가벼워져 연산량(FLOPs)은 줄어들었지만, 인코더에 내재된 트랜스포머의 구조적 특성상 합성곱 기반 네트워크에 비해 기본적으로 점유하는 GPU VRAM(비디오 메모리) 용량이 상당합니다. 다수의 이미지를 동시에 처리하기 위해 추론 시 배치 사이즈를 늘릴 경우 메모리 소비가 급증하여 시스템 병목 현상이 발생할 수 있습니다. 따라서 실시간 다중 채널 처리가 필요한 서버나 자율주행 차량에 탑재할 때는 TensorRT와 같은 전문 추론 엔진을 활용한 세밀한 메모리 튜닝과 최적화가 선행되어야 합니다.
- 극소형 엣지 디바이스 적용 한계와 가지치기(Pruning)의 필요성: 초경량 모델인 SegFormer-B0가 파라미터 3.7M 수준의 가벼움을 자랑하지만, 100킬로바이트(kb) 단위의 극히 제한적인 메모리 자원만 허용되는 스마트워치나 사물인터넷(IoT) 센서 등 극소형 엣지 칩셋에 원형 그대로 탑재하기에는 여전히 무리가 있습니다. 이러한 임베디드 기기 환경에 배포하기 위해서는 입력되는 이미지 인스턴스의 특성에 따라 정보량이 적은 불필요한 뉴런들의 연산을 동적으로 차단하고 잘라내는 동적 게이팅 선형 계층(Dynamic Gated Linear Layer) 기반의 프루닝(Pruning) 기법 등 구조적 경량화 연구가 동반되어야만 실질적인 온디바이스 AI 구동이 가능해집니다.
- 사용자 정의 데이터 파인 튜닝 시 메트릭 계산 오류: 오픈소스로 공개된 코드를 활용해 산업계 고유의 데이터셋으로 미세 조정(Fine-tuning) 훈련을 진행할 때, 특정 클래스의 정답 데이터 분포가 극단적으로 적거나 평가 지표(Metrics)를 계산하는 과정에서 예측 텐서 형태가 일치하지 않아 손실값(Loss)이 발산하거나 정확도가 NaN(Not a Number)으로 표기되는 오류가 빈번하게 보고되고 있습니다. 따라서 커스텀 데이터셋을 구축할 때는 클래스 간의 불균형 문제를 해소하고 훈련 파이프라인의 데이터 증강 모듈이 멀티프로세싱으로 원활하게 동작하는지 검증하는 과정이 필요합니다.
결론적으로 SegFormer는 텍스트를 통해 제로샷으로 객체를 분할하는 Meta의 SAM 3 (Segment Anything Model 3)와 같은 거대 파운데이션 모델(Foundation Models)들이 쏟아지는 현재의 딥러닝 시장에서도 독보적인 가치를 지닙니다. 수십억 개의 파라미터를 가진 거대 모델들이 수십 배 느린 속도와 과도한 컴퓨팅 자원을 요구하는 현실 속에서, 한정된 자원으로 가장 정확하고 빠르게 특정 도메인의 이미지를 처리해야 하는 로컬 디바이스 및 산업용 시스템 시장에서는 여전히 SegFormer가 제시한 '단순함과 효율성의 원칙'이 강력하고 대체하기 힘든 표준 베이스라인(Baseline)으로 군림하고 있습니다.