일러두기 (Disclaimer)
본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.
논문 링크 : https://arxiv.org/abs/2304.02643
Segment Anything
We introduce the Segment Anything (SA) project: a new task, model, and dataset for image segmentation. Using our efficient model in a data collection loop, we built the largest segmentation dataset to date (by far), with over 1 billion masks on 11M license
arxiv.org
초록 (Abstract)
본 연구는 이미지 분할(Image Segmentation)을 위한 새로운 태스크, 모델, 그리고 데이터셋을 제안하는 'Segment Anything (SA)' 프로젝트를 소개합니다. 연구진은 데이터 수집 루프(Data collection loop) 내에서 효율적인 모델을 반복적으로 활용하여, 1,100만 장의 라이선스 및 개인정보가 보호된 이미지 상에 10억 개 이상의 마스크(Mask)를 포함하는 현재까지 가장 방대한 규모의 분할 데이터셋을 구축했습니다. 이 모델은 사용자의 다양한 프롬프트(Prompt)를 입력받을 수 있도록 설계되고 학습되었으며, 그 결과 새로운 이미지 분포와 다양한 다운스트림 태스크에 대해 제로샷 전이(Zero-shot transfer, 별도의 추가 학습 없이 새로운 태스크를 수행하는 능력)가 가능합니다. 다수의 태스크에서 모델의 능력을 평가한 결과, 이 모델의 제로샷 성능은 기존의 완전 지도 학습(Fully supervised) 방식의 결과와 경쟁할 만하거나 그보다 우수한 성능을 달성했습니다. 컴퓨터 비전 분야의 파운데이션 모델(Foundation Model) 연구를 촉진하기 위해 Segment Anything Model (SAM)과 10억 개의 마스크가 포함된 SA-1B 데이터셋을 대중에게 공개합니다.
1. 한줄 요약 & 3줄 핵심 (Executive Summary)
점, 박스, 텍스트 등 사용자가 제공하는 어떠한 형태의 시각적, 언어적 힌트(프롬프트)에도 즉각적으로 반응하여 이미지 내의 모든 객체를 픽셀 단위로 정밀하게 오려낼 수 있는 컴퓨터 비전 분야의 최초 다목적 파운데이션 모델입니다.
- 기존의 문제점 (Pain point): 기존 컴퓨터 비전의 이미지 분할 모델들은 특정 데이터셋(예: 자율주행 도로, 의료 종양 등)과 특정 카테고리에만 작동하도록 개별적으로 설계 및 학습되어야 했으며, 픽셀 단위의 다각형(Polygon) 정답 데이터를 구축하는 데 천문학적인 인간의 노동력과 시간 비용이 필요했습니다.
- 이 논문의 해결책 (Solution): 자연어 처리(NLP) 분야에서 성공을 거둔 '프롬프트' 개념을 시각 모델에 도입하여, 클릭 한 번이나 텍스트 입력만으로도 객체를 분할해 내는 유연한 아키텍처를 설계했습니다. 이를 바탕으로 모델이 스스로 라벨링을 돕는 데이터 엔진을 구축해 11억 개의 방대한 자동화 데이터셋(SA-1B)을 완성했습니다.
- 달성한 성과 (Key Result): 모델이 학습 과정에서 한 번도 본 적 없는 새로운 환경의 이미지나 낯선 태스크에서도 추가적인 미세조정(Fine-tuning) 없이 높은 분할 성능을 기록했으며, 이 연구를 기점으로 동영상 객체 추적, 텍스트 기반 분할 등 수많은 고성능 후속 모델이 탄생하는 기술적 생태계를 마련했습니다.
2. 들어가며: 왜 이 연구가 필요했나? (The "Why")
인공지능의 발전 흐름 속에서 자연어 처리(NLP) 분야는 거대한 패러다임의 전환을 경험했습니다. 인터넷에 존재하는 방대한 텍스트 데이터를 사전에 학습한 거대 언어 모델(LLM)들은 '프롬프트'라는 단순한 텍스트 지시어를 통해 번역, 요약, 문장 생성 등 학습 시에 명시적으로 훈련받지 않았던 수많은 태스크를 유연하게 수행하게 되었습니다. 이처럼 광범위한 데이터로 훈련되어 다양한 다운스트림 태스크에 적응할 수 있는 유연한 모델들을 연구자들은 '파운데이션 모델(Foundation Model)'이라고 부르기 시작했습니다.
그러나 컴퓨터 비전(Computer Vision) 분야, 그중에서도 특히 '이미지 분할(Image Segmentation)' 영역의 상황은 언어 모델의 발전 양상과 큰 차이가 있었습니다. 이미지 분할은 단순히 이미지에 무엇이 있는지 맞추는 분류(Classification)나 네모난 상자로 위치를 표시하는 객체 탐지(Object Detection)를 넘어, 이미지 내의 픽셀 하나하나가 어떤 객체에 속하는지 윤곽선을 정밀하게 따내는 고난도 태스크입니다. 이는 자율주행 자동차가 보행자와 차선을 구분하거나, 로봇이 특정 부품을 정확히 집어 올리고, 의료 시스템이 암세포의 경계를 식별하는 데 필수적인 기반 기술입니다.
기존의 분할 방식은 태스크와 데이터에 대한 종속성이 너무 강했습니다. 예를 들어, 자율주행을 위해 자동차와 사람을 분할하는 모델을 만들고자 한다면, 수만 장의 도로 이미지에 사람이 직접 픽셀 단위로 색칠을 하거나 수많은 점을 이어 다각형을 그리는 노동 집약적인 과정이 필요했습니다. 이렇게 학습된 모델은 도로 위의 자동차는 잘 찾아내지만, 수중 카메라에 찍힌 물고기나 현미경 사진의 세포를 분할하라고 하면 제대로 작동하지 않습니다. 새로운 객체를 분할하려면 또다시 처음부터 데이터를 모으고 라벨링하여 새로운 모델을 학습시켜야 하는 비효율적인 악순환이 반복되었습니다.
컴퓨터 비전 연구자들은 깊은 고민에 빠졌습니다. "비전 분야에서도 언어 모델처럼 한 번만 제대로 학습해 두면, 사용자가 원하는 힌트(프롬프트)를 주는 것만으로 세상의 모든 객체를 분할할 수 있는 범용적인 파운데이션 모델을 만들 수는 없을까?"
이러한 범용 모델을 구축하기 위해서는 두 가지 거대한 장벽을 넘어야 했습니다. 첫째, 텍스트뿐만 아니라 점, 박스 등 시각적인 프롬프트를 이해하고 사용자와 상호작용하며 실시간으로 결과를 내놓을 수 있는 새로운 모델 아키텍처가 필요했습니다. 둘째, 이 거대한 모델을 범용적으로 학습시킬 다목적 '마스크 데이터'가 필요했습니다. 언어 모델은 인터넷에 널려 있는 웹 문서들을 긁어와 학습할 수 있지만, 인터넷에 존재하는 일반적인 이미지들에는 픽셀 단위의 정답 마스크가 존재하지 않기 때문입니다.
본 연구는 이러한 시대적 요구와 기술적 한계 사이의 간극을 완벽하게 메워줍니다. 논문은 단순히 새로운 네트워크 구조를 제안하는 데 그치지 않고, 모델과 사람이 상호작용하며 스스로 정답 데이터를 대량으로 생성해 내는 '데이터 엔진(Data Engine)'을 고안하여 이 두 가지 장벽을 동시에 허물어버린 포괄적인 해결책을 제시합니다.
3. 이 논문의 뿌리 (Key Reference)
Segment Anything Model(SAM)은 기존 컴퓨터 비전과 멀티모달(Multi-modal) 분야에서 기념비적인 성과를 이룬 핵심 연구들을 비판적으로 계승하고 독창적으로 결합하여 탄생했습니다. 이 모델이 어떤 연구적 토대 위에 서 있는지 이해하는 것은 아키텍처를 파악하는 데 큰 도움이 됩니다.
- Vision Transformer (ViT, 2020) & Masked Autoencoders (MAE, 2022): SAM의 이미지 특징 추출을 담당하는 핵심 백본(Backbone)은 ViT 구조를 따릅니다. 기존의 널리 쓰이던 합성곱 신경망(CNN)을 대신하여 이미지를 일정한 크기의 패치(Patch)로 잘라 순차적으로 처리하는 ViT는 방대한 데이터를 학습할 때 뛰어난 확장성(Scalability)을 보여줍니다. 또한, SAM은 MAE 논문의 아이디어를 활용했습니다. MAE는 이미지의 일부를 무작위로 가린 뒤 원래 이미지를 복원하도록 모델을 학습시키는 자기 지도 학습(Self-supervised learning) 방식으로, SAM은 이 MAE 방식으로 사전 학습된 가중치를 가져와 복잡한 이미지 속에서도 풍부하고 견고한 시각적 특징을 초기에 파악할 수 있도록 모델을 초기화했습니다.
- CLIP (2021): SAM이 텍스트 프롬프트를 이해할 수 있는 토대는 CLIP 논문에서 비롯되었습니다. CLIP은 수많은 이미지와 그 이미지를 설명하는 텍스트 쌍을 학습하여, 시각적 정보와 언어적 의미를 동일한 다차원 공간에 나란히 배치하는 방법을 제시했습니다. SAM은 자연어 텍스트를 프롬프트로 입력받기 위해 CLIP의 텍스트 인코더를 그대로 가져와 사용하였습니다. 이를 통해 사용자가 "바퀴"라는 텍스트를 입력하면 그 의미와 연결된 이미지 속 자동차 바퀴를 찾아 분할하는 제로샷 텍스트-마스크 변환의 가능성을 열었습니다.
- Interactive Segmentation (RITM 등): 사용자가 관심 있는 객체에 클릭을 추가하여 분할 결과를 수정해 나가는 기존 상호작용형 분할 모델들의 방법론을 발전시켰습니다. 기존 모델들이 여러 번의 클릭을 거쳐 하나의 정답을 서서히 완성해 가는 것에 집중했다면, SAM은 단 하나의 클릭만으로도 모호함을 극복하고 타당한 결과물을 즉각적으로 내놓는 방향으로 기존의 단점을 보완하고 패러다임을 전환했습니다.
4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)
SAM이 이전의 무수한 분할 모델들과 명확히 차별화되는 가장 중요한 혁신은 '프롬프트 기반 분할(Promptable Segmentation)'이라는 새로운 태스크를 정의하고, 입력의 '모호성(Ambiguity)'을 구조적으로 해결했다는 점입니다.
과거의 분할 모델은 "이미지가 주어지면, 사전 정의된 카테고리 목록에 맞게 모든 픽셀에 색칠을 하라"는 닫힌 세계(Closed-set)의 정적인 시스템이었습니다. 반면 SAM은 열린 세계(Open-world)를 지향하며 점(Point), 박스(Bounding Box), 다각형(Mask), 그리고 텍스트(Text) 등 사용자의 의도를 담은 다양한 힌트를 프롬프트로 입력받아 그에 해당하는 객체를 실시간으로 오려냅니다.
이 유연한 과정에서 모델이 직면하는 가장 큰 기술적 난제는 '프롬프트의 모호성'입니다.
예를 들어, 사진 속 한 사람의 셔츠 주머니 중앙에 사용자가 점 프롬프트를 하나 찍었다고 가정해 보겠습니다. 기계의 입장에서 이 점 하나는 매우 모호한 단서입니다. 이 점은 '셔츠 주머니' 자체를 의미할 수도 있고, 주머니가 달려 있는 '셔츠 전체'를 의미할 수도 있으며, 그 셔츠를 입고 있는 '사람 전체'를 의미할 수도 있습니다. 기존의 상호작용형 분할 모델들은 이런 모호한 상황에서 세 가지 가능성의 평균값을 계산하여, 형태를 알 수 없는 뭉개진 결과를 출력하거나 에러를 내뿜는 치명적인 한계가 있었습니다.
여기에서 SAM 연구진의 발상의 전환이 일어납니다. "입력된 점이 모호하다면, 억지로 하나의 정답만 추론하지 말고 가능성 있는 모든 층위(전체, 부분, 세부 부분)의 정답을 다 예측하자"는 것입니다.
하나의 프롬프트가 주어질 때 SAM은 내부적으로 3개의 각기 다른 크기의 마스크(Whole, Part, Subpart)를 동시에 출력하도록 설계되었습니다. 즉, 주머니에 점을 찍으면 모델은 [사람 마스크, 셔츠 마스크, 주머니 마스크]를 동시에 내놓습니다. 나아가 모델 스스로 자신이 생성한 각 마스크가 실제 객체의 형태와 얼마나 일치할지 예측하는 신뢰도 점수(Confidence score, 예측된 IoU)를 함께 제공합니다. 사용자는 이 점수를 바탕으로 자신이 원했던 최적의 층위를 선택할 수 있습니다. 이를 통해 모호한 입력이 주어져도 모델은 붕괴하지 않고 항상 의미 있는(Valid) 객체를 분할해 낼 수 있게 되었습니다.
5. 작동 원리: 어떻게 돌아가는가? (The "How")
SAM이 실시간으로 작동하면서도 고품질의 분할을 수행할 수 있는 비결은 무거운 연산과 가벼운 연산을 분리한 스마트한 아키텍처에 있습니다. 복잡한 수식을 배제하고 데이터가 흘러가는 세 단계를 따라 작동 원리를 살펴보겠습니다.
1단계: 무거운 연산의 사전 처리, 이미지 인코더 (Image Encoder)
사용자가 시스템에 이미지를 업로드하면, 모델은 프롬프트를 받기도 전에 먼저 이미지 인코더를 통해 이미지를 분석합니다. 이 인코더는 MAE 방식으로 사전 학습된 고성능의 ViT-H(Vision Transformer-Huge)를 기반으로 합니다. 모델은 1024x1024 해상도의 고화질 이미지를 입력받아 16배 축소된 크기의 조밀한 '이미지 임베딩(Image Embedding)'을 생성합니다. 이 과정은 모델 파라미터가 6억 3천만 개에 달할 정도로 연산량이 매우 많고 무겁습니다. 하지만 SAM 구조의 핵심은 이 무거운 인코딩 과정이 이미지 하나당 딱 한 번만 실행된다는 점입니다. 생성된 이미지 임베딩은 메모리에 임시로 저장되어 이후 사용자의 프롬프트를 기다립니다.
2단계: 사용자의 의도를 컴퓨터의 언어로 번역, 프롬프트 인코더 (Prompt Encoder)
사용자가 화면에 마우스로 점을 찍거나 박스를 그리면, 이 힌트들은 프롬프트 인코더로 전달됩니다. 프롬프트의 종류에 따라 처리 방식이 나뉩니다.
- 희소 프롬프트(Sparse Prompt): 점이나 박스 같은 정보는 본질적으로 '위치' 정보입니다. 모델은 이 좌표를 수리적인 위치 인코딩(Positional encoding) 함수에 넣어 이미지 상의 정확한 공간적 위치 정보를 생성하고, 여기에 이것이 '점'인지 '박스의 모서리'인지, '전경'인지 '배경'인지를 나타내는 학습된 벡터(Learned embedding)를 더하여 숫자의 나열로 변환합니다. 텍스트 입력의 경우에는 CLIP의 텍스트 인코더를 거쳐 언어적 의미가 담긴 벡터로 변환됩니다.
- 밀집 프롬프트(Dense Prompt): 기존에 대략적으로 만들어진 마스크 정보를 힌트로 줄 수도 있습니다. 이는 이미지와 동일한 2D 형태를 가지므로, 합성곱(Convolution) 연산을 거쳐 차원을 맞춘 뒤 이미지 임베딩과 원소 단위로 직접 더해집니다.
3단계: 가볍고 빠른 추론, 마스크 디코더 (Mask Decoder)
이제 앞서 미리 계산해 둔 '이미지 임베딩'과 번역된 '프롬프트 벡터'를 마스크 디코더에 함께 넣습니다. 이 디코더는 트랜스포머(Transformer) 구조를 변형한 것으로, 앞선 인코더와 비교할 수 없을 정도로 가볍고 빠릅니다. 이 내부에서는 데이터 간의 양방향 크로스 어텐션(Two-way Cross-Attention)이 일어납니다.
- 프롬프트 -> 이미지: 프롬프트 정보가 이미지 전체 임베딩을 훑어보며 사용자가 가리킨 위치 주변의 질감, 색상, 경계선 정보에 집중(Attention)하여 단서를 수집합니다.
- 이미지 -> 프롬프트: 반대로 이미지 임베딩이 프롬프트 정보를 참조하여 "내가 가진 특징 중에서 사용자가 원하는 객체의 윤곽선은 이것이구나"를 확정하며 서로의 정보를 업데이트합니다.
이러한 상호작용을 두 차례 거친 후, 출력 층을 통과하여 픽셀마다 "이 부분이 객체인가 배경인가?"를 확률로 계산합니다. 결과적으로 모호성을 해결하기 위한 3장의 분할 마스크와 각각의 신뢰도 점수를 출력하게 됩니다. 이 모든 과정의 백미는 속도입니다. 무거운 이미지 연산이 사전에 완료되어 있기 때문에, 사용자가 웹 브라우저에서 점을 찍을 때마다 가벼운 프롬프트 인코더와 디코더만 실시간으로 작동합니다. 그 결과, 일반적인 CPU 환경의 웹 브라우저에서도 클릭 한 번에 약 50밀리초(ms) 만에 마스크가 생성되어 끊김 없는 상호작용이 가능합니다.
6. 작동 원리: 어떻게 학습하는가? (The "How")
아키텍처가 아무리 훌륭해도 그것을 똑똑하게 만들어줄 방대한 데이터가 없다면 무용지물입니다. 범용적인 분할 모델을 학습시키기 위해서는 다양한 객체가 정밀하게 칠해진 고품질 마스크 데이터가 필요하지만, 인터넷에는 그런 데이터가 없었습니다. 이 난관을 타개하기 위해 연구진은 SAM 모델 자체를 라벨링 도구로 활용하여 새로운 데이터를 수집하고 그 데이터로 다시 모델을 똑똑하게 만드는 '데이터 엔진(Data Engine)'을 구축했습니다.
학습에 사용된 입출력 데이터의 형태
- 입력 데이터: 학습을 위해 모델에 제공되는 입력은 두 가지입니다. 첫째, 해상도가 짧은 축 기준 1500픽셀로 조정된 고해상도 2D 이미지 원본입니다. 둘째, 정답 마스크 내에서 무작위로 추출한 긍정 점(Foreground point)이나 배경 점(Background point), 혹은 정답 윤곽선을 감싸는 바운딩 박스 좌표입니다.
- 출력 데이터: 예측된 픽셀 단위의 2D 이진 마스크 행렬과, 해당 마스크가 실제 객체와 얼마나 일치하는지 평가하는 IoU(Intersection over Union) 예측 점수입니다.
데이터 수집의 3단계 진화
연구진은 데이터 엔진을 세 가지 단계로 나누어 점진적으로 가동했습니다.
- 1단계: 인간 보조 수동 단계 (Assisted-Manual Stage) 초기에는 공개된 기본 데이터셋으로 학습된 SAM을 브라우저 기반 라벨링 툴에 탑재했습니다. 전문 작업자들이 이 툴을 이용해 이미지에 클릭해가며 마스크를 그렸습니다. 모델이 클릭을 받아 실시간으로 마스크 윤곽을 추천해주었기 때문에, 작업자는 픽셀을 꼼꼼히 지우거나 덧칠하는 수고를 덜 수 있었습니다. 평균적으로 마스크 하나를 칠하는 데 14초가 소요되었으며, 이는 기존 COCO 데이터셋 제작 방식보다 6.5배나 빠른 속도였습니다. 이 단계에서 12만 장의 이미지로부터 430만 개의 초기 마스크를 수집하여 모델을 1차로 재학습시켰습니다.
- 2단계: 반자동 단계 (Semi-Automatic Stage) 재학습을 통해 모델의 성능이 향상되자 수집 방식을 변경했습니다. 이제 모델이 이미지 내에서 자신이 뚜렷하게 확신하는 객체(주로 크기가 크거나 시각적으로 눈에 띄는 객체)의 마스크를 스스로 생성하여 화면을 채워 넣습니다. 작업자들은 이미 모델이 칠해둔 객체는 무시하고, 모델이 놓친 눈에 잘 띄지 않는 작은 객체들이나 경계가 불분명한 모호한 물체들에 집중하여 주석을 추가했습니다. 이를 통해 객체 크기형태의 다양성을 비약적으로 높이며 18만 장에서 590만 개의 마스크를 추가로 확보했습니다.
- 3단계: 완전 자동 단계 (Fully Automatic Stage) 최종 단계에서는 사람의 개입을 완전히 배제했습니다. 충분히 강력해진 SAM 모델에 이미지 전체를 덮는 32x32 크기의 촘촘한 격자 형태 점(Point) 프롬프트를 자동으로 입력했습니다. 모델은 각 점마다 3개의 마스크를 생성하고, 스스로 예측한 IoU 신뢰도 점수가 높은 마스크만을 1차로 남깁니다. 이후 마스크의 안정성을 검사하고 중복된 마스크(NMS 기술 활용)를 제거하는 정제 과정을 거쳤습니다.
이러한 완전 자동화 시스템을 가동하여 전 세계 사진작가 네트워크에서 수집된 1,100만 장의 이미지로부터 무려 11억 개의 마스크를 추출해 내는 데 성공했습니다. 이것이 바로 딥러닝 역사상 전례 없는 규모의 SA-1B 데이터셋입니다. 이 데이터셋은 기존에 가장 컸던 Open Images 데이터셋보다 마스크 수가 400배나 많습니다. 특히 데이터 수집 시 라이선스를 철저히 준수하고 사람의 얼굴이나 차량 번호판을 알고리즘으로 블러(Blur) 처리하여 개인정보 문제를 원천적으로 차단하는 윤리적 책임도 다했습니다.
7. 결과: 얼마나 좋아졌나? (Results)
연구진은 SAM이 학습 과정에서 단 한 번도 본 적 없는 새로운 분포를 가진 23개의 외부 데이터셋(자율주행 환경, 현미경 세포 사진, 수중 촬영 이미지, 항공 사진, X-ray 등)을 활용해 모델의 제로샷(Zero-shot) 능력을 극한으로 테스트했습니다.
- 단일 점 프롬프트 분할 성능: 객체의 중앙에 무작위로 점을 하나만 찍었을 때의 마스크 정확도(mIoU)를 측정한 결과, 23개 데이터셋 중 16개에서 기존의 강력한 상호작용형 분할 모델(RITM 등)을 압도하는 결과를 보여주었습니다. 수치적인 평가 외에도, 인간 평가자들을 동원해 마스크의 시각적 품질을 1~10점으로 블라인드 채점한 결과, SAM이 생성한 마스크는 가장 높은 품질 점수(평균 7~9점)를 기록하며 인간 라벨링 정답(Ground Truth)에 근접하거나 오히려 더 깔끔한 경계선을 보여준다는 평가를 받았습니다.
- 새로운 태스크로의 확장 (제로샷 전이):
- 윤곽선 검출(Edge Detection): SAM은 물체의 윤곽선을 찾도록 학습된 적이 없습니다. 그러나 이미지 전체에 수많은 점 프롬프트를 흩뿌려 생성된 수백 개의 마스크의 외곽선을 추출하는 편법적인 파이프라인만으로도, 전통적인 윤곽선 검출 벤치마크(BSDS500)에서 전용 모델에 버금가는 준수한 R50(재현율) 성능을 입증했습니다.
- 인스턴스 분할(Instance Segmentation): 기존의 객체 탐지 모델(예: ViTDet)이 찾아낸 바운딩 박스 좌표를 SAM의 박스 프롬프트로 입력하는 것만으로도, 인스턴스 분할 전용으로 학습된 모델들과 경쟁할 수 있는 고품질의 마스크 분할이 가능했습니다. 인간 평가자들은 LVIS 데이터셋에서 SAM의 마스크가 전용 모델(ViTDet)의 마스크보다 질적으로 더 우수하다고 평가했습니다.
- 실패 케이스 및 한계점 (Limitations): 논문은 모델의 한계점 또한 솔직하게 명시하여 신뢰도를 높입니다. 사람의 머리카락, 자전거의 얇은 바큇살 등 매우 미세하고 얇은 구조(Fine structures)에서는 픽셀 경계선의 세밀함이 떨어집니다. 또한 서로 물리적으로 연결되지 않은 하나의 객체(예를 들어 유리창 너머로 일부가 가려진 채 보이는 의자)를 분할할 때, 엉뚱하게 떨어진 배경 픽셀들을 객체의 일부로 포함시켜버리는 환각(Hallucination) 현상이 나타나기도 합니다.
8. 이 논문의 계보와 발전 (Impact & Follow-ups)
SAM(2023년 공개) 논문은 한 편의 훌륭한 연구를 넘어, 컴퓨터 비전 생태계의 판도를 완전히 바꾸어 놓은 '발화점'이 되었습니다. 모델 파라미터와 방대한 SA-1B 데이터셋이 오픈소스로 공개되자마자, 전 세계의 연구자들은 SAM의 단점을 보완하고 응용 영역을 비약적으로 넓히는 수많은 후속 연구들을 폭발적으로 쏟아냈습니다. 다음은 SAM을 기반으로 발전한 핵심 트렌드와 대표적인 파생 모델들의 계보입니다.
1. 효율성(Efficiency)과 품질(Quality)의 극대화
- HQ-SAM,2023 - 마스크 경계선 디테일 개선: 기존 SAM은 거미줄이나 나뭇잎처럼 얇고 복잡한 객체의 윤곽선을 뭉뚱그려 분할하는 경향이 있었습니다. HQ-SAM은 디코더 부분에 '고품질 출력 토큰(HQ-Output Token)'이라는 아주 작은 학습 모듈을 추가하여 4만 4천 장의 정교한 데이터(DIS)로 튜닝했습니다. 파라미터는 단 0.5%만 증가했지만, 제로샷 능력을 유지한 채 매우 정밀한 픽셀 마스크를 생성하게 되었습니다.
- MobileSAM, 2023 - 모바일 및 엣지 환경 최적화: SAM의 가장 큰 단점은 이미지 인코더(ViT-H, 파라미터 6.3억 개)가 너무 무거워 막대한 GPU 메모리를 요구한다는 점입니다. MobileSAM은 지식 증류(Knowledge Distillation) 기법을 활용해 거대 인코더를 500만 개 파라미터의 Tiny-ViT로 교체했습니다. 결과적으로 모델 크기를 5배 줄이고, 추론 속도를 7배(약 12ms) 높여 스마트폰 같은 제한된 자원에서도 실시간 구동이 가능해졌습니다.
- FastSAM,2023 - 연산 속도의 극한 향상: 연산이 무거운 트랜스포머 아키텍처 대신 전통적으로 속도가 검증된 합성곱 신경망(CNN) 기반의 YOLOv8-seg 구조를 활용했습니다. 이미지를 먼저 전체 분할(All-instance segmentation)한 뒤 프롬프트에 맞는 영역을 선택하는 두 단계를 거쳐, 성능 저하 없이 산업용 장비에 필요한 극한의 실시간 처리 능력을 확보했습니다.
2. 모달리티의 확장: 텍스트 기반 개방형 객체 탐지
- Grounded-SAM, 2023~2024: 기존 SAM 1의 근본적인 한계는 '어디에' 분할할지 사용자가 좌표(점이나 박스)를 명시적으로 주어야 작동하며, 분할된 물체가 '무엇인지(Label)' 의미를 스스로 파악하지 못한다는 것이었습니다. 이 문제를 극복하기 위해 자연어 텍스트를 입력받아 객체의 위치(바운딩 박스)를 찾아주는 개방형 어휘(Open-vocabulary) 객체 탐지 모델인 'Grounding DINO'와 SAM을 파이프라인으로 연결했습니다. 사용자가 "노란색 의자를 찾아줘"라고 텍스트를 입력하면 Grounding DINO가 의자의 위치 박스를 추출하고, 이 좌표를 SAM에 넘겨 픽셀 마스크를 얻어냅니다. 이 결합은 텍스트 프롬프트만으로 세상의 모든 객체를 탐지하고 분할하는 멀티모달 파이프라인의 산업적 표준을 만들었습니다.
3. 메타(Meta)의 공식 후속 모델: 동영상과 개념의 정복
초기 외부 연구자들의 개선 모델들이 가능성을 입증하자, 메타(Meta) 연구진은 아키텍처 자체를 근본적으로 업그레이드한 대규모 공식 후속 파운데이션 모델들을 잇달아 발표했습니다.
- SAM 2, 2024 - 동영상으로의 확장: 기존 SAM은 정지된 이미지 단위로만 동작하여, 동영상 프레임마다 일일이 분할하면 객체가 사라지거나 깜빡이는 현상이 발생했습니다. SAM 2는 영상을 '시간축이 있는 이미지의 연속'으로 정의하고, 이전 프레임의 객체 특징을 기억하는 '스트리밍 메모리(Streaming Memory)' 아키텍처를 도입했습니다. 영상 첫 프레임에 힌트를 주면, 객체가 가려지거나(Occlusion) 움직여도 실시간(초당 44프레임 처리)으로 객체를 지속적으로 추적하고 분할합니다.
- SAM 3, 2025 - 프롬프트 기반 개념 분할: SAM 3는 외부 탐지 모델(Grounding DINO 등)에 의존하던 방식에서 벗어나, 모델 하나가 텍스트와 시각적 참조를 완벽히 융합하여 스스로 인지합니다. "얼룩무늬 고양이"라는 텍스트 명사구나 샘플 이미지를 입력하면, 모델이 영상 전체를 탐색하여 해당 '개념(Concept)'에 부합하는 모든 객체를 일괄적으로 찾아 분할합니다. 탐지 성능을 획기적으로 높인 존재 헤드(Presence head)를 독립시켜 설계했으며, 400만 개의 개념 라벨을 포함한 SA-Co 벤치마크 데이터를 함께 공개했습니다.
9. 마무리
Segment Anything(SAM) 연구는 단순히 성능이 우수한 또 하나의 딥러닝 모델을 발표한 수준이 아닙니다. 파편화되고 고립되어 있던 컴퓨터 비전의 수많은 세부 태스크들을 '프롬프트'라는 하나의 일관된 인터페이스 아래 통합해 낸 거대한 기술적 도약입니다. 자연어 처리 분야의 패러다임을 바꾼 거대 언어 모델(LLM)의 등장처럼, 시각 지능 역시 제로샷 전이가 가능한 파운데이션 모델의 시대로 확고히 진입했음을 알리는 신호탄이 되었습니다.
이러한 혁신적인 모델 아키텍처 및 파생 기술들을 실제 산업 현장이나 비즈니스 파이프라인에 적용할 때 실무자들이 반드시 고려해야 할 몇 가지 중요한 시사점과 주의 사항이 있습니다.
- 초기 인프라 구축 시 GPU 메모리 및 지연 속도(Latency) 병목 주의: 논문에서 브라우저 환경에서도 50ms 만에 응답하는 빠른 속도를 강조하지만, 이는 가장 무거운 작업인 '이미지 임베딩' 연산이 고성능 서버에서 사전에 완료되어 있다는 가정하에 성립하는 수치입니다. SAM 1 모델의 근간이 되는 ViT-H 인코더는 막대한 GPU 메모리 대역폭을 요구합니다. 따라서 실시간 반응성이 중요한 로봇 제어나 제한된 컴퓨팅 자원을 가진 엣지 디바이스(드론, 스마트폰 등)에 바로 적용할 때는 병목 현상이 발생할 확률이 매우 높습니다. 현장의 하드웨어 사양에 맞춰 MobileSAM이나 FastSAM과 같은 경량화, 최적화 모델을 적절히 선택하여 도입하는 구조적 타협이 필수적입니다.
- 특수 도메인 데이터 적용 시 한계점 인지 및 보완: 일반적인 자연물 사진에서는 기적 같은 성능을 보이지만, 의료 영상 분할(Medical Image Segmentation)이나 산업 제조 공정의 미세 결함 검출 현장에 SAM을 그대로 가져다 쓸 경우 명백한 한계가 노출됩니다. 초음파 영상, X-ray 기기, 혹은 안저 카메라 영상 등은 일반 사진과 달리 대상의 형태가 뚜렷하지 않고 픽셀의 명암 대비가 낮으며 질감이 불규칙합니다. 최신 분석 결과들에 따르면, 기존 SAM은 높은 수준의 의학적 맥락(Semantics)을 이해하기보다는 픽셀 간의 단순한 표면적 대비(Contrast)에 의존하여 마스크를 생성하는 경향이 짙어, 의료진의 판단과 불일치하는 실패 사례가 빈번하게 보고되고 있습니다. 이러한 특수 도메인에서는 기본 모델을 맹신하지 말고, HQ-SAM 기술을 차용해 미세 구조 인식력을 높이거나 도메인 특화 데이터를 활용한 사전 튜닝(Fine-tuning) 파이프라인을 덧붙여야 안전하고 정확한 결과를 담보할 수 있습니다.
- 데이터 어노테이션(Annotation) 생태계의 비가역적 변화: 인공지능 개발을 위한 데이터 플랫폼을 운영하거나 라벨링 외주를 수행하는 기업들에게 SAM 기술의 내재화는 이제 선택이 아닌 생존의 문제가 되었습니다. 과거 수십 명의 작업자가 마우스 클릭을 반복해가며 픽셀 테두리에 다각형(Polygon)을 꼼꼼히 그리던 지루한 수작업이, 단 몇 번의 대충 찍은 클릭이나 텍스트 입력만으로 완벽하게 대체되고 있기 때문입니다. 특히 SAM 3로 진화하면서 복잡한 군중이나 복합 씬에서도 "특정 컨셉"을 일괄적으로 지정해 자동 라벨링을 수행할 수 있게 되었으므로, 대규모 시각 학습 데이터 구축에 드는 시간과 비용은 극적으로 절감될 것입니다.
앞으로의 비전 기술 발전 방향은 이러한 비전 파운데이션 모델이 거대 언어 모델(LLM), 그리고 로봇 물리 제어 시스템과 빈틈없이 결합하는 자율형 멀티모달(Multi-modal) 에이전트 시스템으로 진화하는 것입니다. SAM이 세상의 모든 객체를 인간의 언어 지시에 따라 분할하고 그 시각적 경계를 정확히 인지할 수 있게 되었으니, 머지않아 로봇 팔이 SAM이 분할한 3D 마스크 정보를 실시간으로 건네받아 사물의 형태와 재질을 이해하고 직접 조작하는 완전한 자동화의 시대가 도래할 것입니다.
결론적으로, Segment Anything 연구는 단일 모델 그 자체의 성능적인 완성을 뽐내는 데 그치지 않고, 복잡한 시각 지능 시스템을 구축하려는 학계와 산업계의 모든 주체들이 공통으로 활용하고 확장해 나갈 수 있는 견고하고 넓은 기술적 토대(Foundation)를 제공했다는 점에서 컴퓨터 비전 역사의 한 페이지를 장식할 것입니다.