본문 바로가기

딥러닝

CutLER: Cut and Learn for Unsupervised Object Detection and Instance Segmentation - 인간의 개입 없이 스스로 다중 객체를 찾아내는 시각 지능의 탄생

반응형

 

일러두기 (Disclaimer)

본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.

 

 

논문 링크 : https://arxiv.org/abs/2301.11320

 

Cut and Learn for Unsupervised Object Detection and Instance Segmentation

We propose Cut-and-LEaRn (CutLER), a simple approach for training unsupervised object detection and segmentation models. We leverage the property of self-supervised models to 'discover' objects without supervision and amplify it to train a state-of-the-art

arxiv.org

 

초록 (Abstract)

우리는 비지도 객체 탐지 및 분할 모델을 학습하기 위한 간단한 접근법인 Cut-and-LEaRn(CutLER)을 제안합니다. 우리는 자기 지도 학습(self-supervised) 모델이 사람의 감독 없이 객체를 '발견'하는 특성을 활용하고, 이를 증폭시켜 사람의 레이블 없이 최첨단(State-of-the-art) 위치 추정 모델을 학습시킵니다. CutLER는 먼저 제안된 MaskCut 방식을 사용하여 이미지 내 여러 객체에 대한 초기 거친(coarse) 마스크를 생성한 다음, 견고한 손실 함수(robust loss function)를 사용하여 이 마스크들을 바탕으로 탐지기(detector)를 학습시킵니다. 나아가 모델 자신의 예측을 바탕으로 한 자기 학습(self-training)을 통해 성능을 더욱 향상시킵니다. 이전 연구들과 비교할 때 CutLER는 구조가 더 단순하고, 다양한 탐지 아키텍처와 호환되며, 여러 개의 다중 객체를 동시에 탐지할 수 있습니다. CutLER는 제로샷(zero-shot) 비지도 탐지기로서 비디오 프레임, 명화(paintings), 스케치 등 다양한 도메인에 걸친 11개 벤치마크에서 기존 대비 탐지 성능($AP_{50}$)을 2.7배 이상 향상시킵니다. 미세 조정(finetuning) 시 CutLER는 COCO 데이터셋에서 5%의 레이블만으로 학습할 때 MoCo-v2를 $AP^{box}$ 7.3%, $AP^{mask}$ 6.6% 차이로 능가하는 강력한 소량 학습(low-shot) 탐지기의 역할을 수행합니다.

 

1. 한줄 요약 & 3줄 핵심 (Executive Summary)

정답지(Label)가 전혀 없는 130만 장의 이미지로부터 인공지능이 스스로 이미지 내의 객체들을 분리해 내고 학습하여, 어떤 형태의 객체든 찾아낼 수 있게 만든 완전 비지도 다중 객체 탐지 프레임워크입니다.

3줄 핵심

  1. 기존의 문제점 (Pain point): 픽셀 단위의 객체 분할 레이블을 구축하는 데 천문학적인 인간의 노동 시간과 비용이 소모되며, 기존 비지도 학습 방식들은 이미지 내에서 가장 눈에 띄는 '단 하나의 객체'만 찾거나 특정 도메인 데이터에 종속되는 치명적인 한계가 존재했습니다.
  2. 이 논문의 해결책 (Solution): 자기 지도 학습 모델이 추출한 시각적 특징점 간의 유사도를 바탕으로 그래프를 분할하여 다수의 객체 마스크를 순차적으로 뽑아내는 'MaskCut' 알고리즘과, 모델이 새로운 객체를 발견하도록 독려하는 관대한 손실 함수인 'DropLoss'를 새롭게 도입했습니다.
  3. 달성한 성과 (Key Result): 정답 레이블 없이 오직 ImageNet 원본 데이터만으로 학습했음에도 불구하고, 비디오, 스케치, 수채화 등 11개의 전혀 다른 이미지 도메인에서 기존 최고 성능 모델 대비 2배 이상의 압도적인 객체 탐지 및 분할 성능 향상을 달성했습니다.

 

2. 들어가며: 왜 이 연구가 필요했나? (The "Why")

딥러닝을 활용한 컴퓨터 비전 분야, 특히 객체 탐지(Object Detection)와 인스턴스 분할(Instance Segmentation) 기술은 지난 10여 년간 비약적인 발전을 이루어 냈습니다. 초기의 객체 탐지 기술은 이미지 안에서 특정 사물의 위치를 단순히 네모난 상자(Bounding Box) 형태로 찾아내는 것에 불과했습니다. 하지만 딥러닝 아키텍처가 발전함에 따라, R-CNN 구조를 거쳐 Mask R-CNN과 같은 고도화된 모델이 등장하면서 사물의 픽셀 형태를 정교하게 오려내는 인스턴스 분할 기술이 완성되었습니다. 오늘날 이 기술은 자율주행 자동차가 보행자와 차선을 구분하고, 의료 인공지능이 엑스레이 사진에서 종양 세포를 찾아내며, 산업용 로봇이 불량품을 선별하는 등 현대 기술 사회의 핵심적인 시각 지능으로 자리 잡았습니다.

 

그러나 이처럼 화려한 기술적 성공의 이면에는 '데이터 노동'이라는 거대한 그림자가 짙게 깔려 있었습니다. 컴퓨터 비전 모델이 객체를 정확하게 인식하고 분할하도록 학습시키기 위해서는 인간의 개입이 필수적입니다. 지도 학습(Supervised Learning) 기반의 모델은 사람이 직접 이미지 속 객체의 테두리를 마우스를 이용해 다각형 형태로 정교하게 따낸 '정답지(Ground Truth)'를 필요로 합니다. 본 논문에서 지적하고 있는 바에 따르면, 컴퓨터 비전 분야의 표준 데이터셋으로 불리는 COCO(Common Objects in Context) 데이터셋의 경우, 약 16만 4천 장의 이미지에 존재하는 단 80개 클래스의 사물들에 대해 마스크 레이블을 생성하는 데 무려 2만 8천 시간 이상의 인간 노동이 투입되었습니다. 만약 우리가 정해진 80개의 사물이 아니라 무한한 종류의 사물을 인식해야 하는 오픈 월드(Open-world) 환경이나, 전문가의 지식이 필요한 의료 및 위성 영상에 이 기술을 적용하고자 한다면, 이러한 수작업 레이블링 방식은 비용과 시간 측면에서 명백한 한계에 부딪히게 됩니다.

 

이러한 막대한 데이터 구축 비용의 한계를 극복하기 위해 연구자들은 "사람이 정답을 하나하나 알려주지 않아도, 인공지능이 스스로 이미지 속 사물과 배경을 구분하고 학습할 수는 없을까?"라는 근본적인 질문을 던지기 시작했습니다. 그 결과, 최근 컴퓨터 비전 분야에서는 자기 지도 학습(Self-supervised Learning) 기술이 새로운 돌파구로 등장했습니다. 자기 지도 학습이란 데이터 자체의 숨겨진 구조나 패턴을 활용하여 모델 스스로 학습 신호를 생성하는 방식입니다. 특히 비전 트랜스포머(Vision Transformer, ViT) 기반의 DINO 모델은 시각적 특징을 학습하는 과정에서 어떠한 정답 레이블도 제공받지 않았음에도 불구하고, 내부의 주의집중(Attention) 지도를 분석해 보면 이미지 내의 주요 객체를 놀라울 정도로 정확하게 바라보고 식별한다는 특성이 발견되었습니다.

 

하지만 이 놀라운 발견을 실제 다중 객체 탐지 및 분할 시스템으로 연결하기에는 기존 연구들이 지닌 치명적인 단점들이 존재했습니다. TokenCut이나 LOST와 같은 초기 비지도 객체 탐지 연구들은 모델이 가장 강하게 확신하는 '단 하나의 눈에 띄는 객체(Salient Object)'만을 찾아내는 데 그쳤습니다. 현실 세계의 이미지는 한 장의 사진 안에 여러 마리의 강아지, 지나가는 자동차, 가로수, 보행자가 복잡하게 섞여 있는 구조를 가집니다. 따라서 단 하나의 객체만 찾아내는 기술은 실제 자율주행이나 로봇 비전 시스템에 적용하기 어렵습니다. 한편, FreeSOLO나 DETReg와 같이 한 장의 사진에서 여러 객체를 찾으려는 다중 객체 발견 시도도 존재했습니다. 그러나 이 모델들은 특정 탐지기 구조(예: SOLO-v2 또는 DDETR)에 강하게 종속되어 확장성이 떨어지거나, 평가를 진행할 타겟 데이터셋의 라벨 없는 이미지를 모델 훈련 과정에서 미리 보아야만 하는 '인-도메인(In-domain)' 제약을 가지고 있었습니다. 이는 모델이 새로운 환경이나 처음 보는 형태의 이미지를 만났을 때 유연하게 대처하지 못함을 의미합니다.

 

CutLER 연구진은 바로 이 지점에 주목하여 연구의 목표를 설정했습니다. 연구진은 단일 객체만을 찾는 기존 모델들의 한계를 깨부수고, 특정 탐지기 아키텍처나 특정 도메인 데이터에 얽매이지 않으면서도, 한 장의 사진에서 여러 개의 사물을 스스로 찾아낼 수 있는 범용적이고 단순한 비지도 학습 프레임워크를 개발하고자 했습니다. 인간의 개입 없이 오직 픽셀의 패턴만으로 복잡한 현실 세계의 다중 객체를 분할해 내는 시각 지능을 구현하고자 한 연구자들의 깊은 고민이 본 논문을 탄생시킨 원동력이 되었습니다.

 

3. 이 논문의 뿌리 (Key Reference)

CutLER는 완전히 새로운 개념을 무에서 유로 창조한 것이 아니라, 컴퓨터 비전 역사에 획을 그은 핵심 연구들의 아이디어를 비판적으로 계승하고, 이를 창의적으로 조합하여 기존의 한계를 돌파한 연구입니다. 이 논문이 탄생하기 위해 가장 큰 영감을 제공했거나 비판적으로 극복하고자 했던 핵심 논문들의 관계는 다음과 같습니다. 

  • DINO (2021)
    • DINO(Self-distillation with no labels)는 레이블 없이 이미지를 조각(Patch) 단위로 나누어 학습하는 비전 트랜스포머(ViT) 기반의 자기 지도 학습 모델입니다. 이전의 합성곱 신경망(CNN) 모델들은 픽셀의 지역적인 정보에 집중했던 반면, DINO와 같은 트랜스포머 모델은 이미지 전체의 조각들이 서로 어떻게 연관되어 있는지를 계산하는 자기 주의(Self-attention) 메커니즘을 사용합니다. DINO 연구진은 모델이 학습을 마친 후 특징 공간(Feature space)을 분석해 본 결과, 같은 객체에 속하는 이미지 조각들은 공간적으로 멀리 떨어져 있어도 서로 높은 코사인 유사도(Cosine Similarity)를 가진다는 사실을 증명했습니다. CutLER 연구진은 복잡한 특징 추출 모듈을 처음부터 새로 설계하는 대신, DINO가 이미 훌륭하게 군집화해 놓은 시각적 특징 공간을 그대로 가져와 객체 분할을 위한 베이스 캠프로 사용했습니다. 즉, "DINO가 세상을 어떻게 바라보는가"라는 시각적 이해도를 십분 활용한 것입니다.
  • TokenCut (2022) 및 Normalized Cuts (2000)
    • CutLER는 TokenCut의 기본 아이디어를 차용하되, 그 치명적인 단점이었던 '단일 객체 탐지' 문제를 훌륭하게 보완했습니다. TokenCut은 전통적인 영상 처리 기법인 Normalized Cuts(NCut) 그래프 분할 알고리즘을 DINO의 시각적 특징점들에 적용하여 객체와 배경을 분리하는 방식을 제안했습니다. 이를 쉽게 설명하자면, 이미지의 각 조각(Patch)들을 수학적 그래프의 노드(Node)로 삼고, 조각 간의 유사도를 노드를 연결하는 간선(Edge)의 굵기로 삼습니다. 이후 연결 고리가 가장 약한 부분을 칼로 자르듯 잘라내어 덩어리를 분리하는 방식입니다. 하지만 TokenCut은 이 자르기 작업을 한 번만 수행하여 가장 큰 덩어리 하나만을 유일한 객체로 인식하고 탐색을 종료하는 한계가 있었습니다. CutLER 연구진은 이 그래프 분할 구조를 기본으로 채택하되, 한 번 분할된 객체를 가리고 다시 그래프를 자르는 '반복적 마스킹(Iterative Masking)'이라는 발상의 전환을 더하여 여러 객체를 순차적으로 찾아낼 수 있도록 기술을 계승하고 발전시켰습니다.
  • FreeSOLO (2022)
    • FreeSOLO는 사전에 무작위 객체 증강 기법 등을 통해 초기 마스크를 얻은 후, 모델이 스스로 예측한 결과를 다시 정답으로 삼아 학습하는 자기 학습(Self-training) 파이프라인을 구축했습니다. CutLER는 FreeSOLO가 증명한 이 자기 학습 파이프라인의 효용성을 인정하고 이를 모델 고도화 단계에 차용했습니다. 그러나 FreeSOLO가 안고 있던 복잡한 훈련 조건들을 비판적으로 개선했습니다. FreeSOLO는 SOLO-v2라는 특정한 탐지기 아키텍처에 강하게 의존했으며, 새로운 도메인(예: 수채화 이미지)에서 객체를 탐지하려면 해당 도메인의 이미지를 미리 수집하여 모델을 미세 조정(Fine-tuning)해야 하는 번거로움이 있었습니다. 반면 CutLER는 특정 구조에 구애받지 않는 아키텍처 독립적(Architecture-agnostic)인 형태를 띠며, 오직 일반적인 이미지(ImageNet)로만 학습을 마친 후에도 어떠한 도메인에서든 즉시 작동할 수 있도록 범용성을 극대화하는 방향으로 FreeSOLO의 한계를 극복했습니다

 

4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)

컴퓨터 비전 분야에서 CutLER가 기존 연구들과 뚜렷하게 선을 그으며 혁신을 이룰 수 있었던 결정적인 '발상의 전환(Aha! Moment)'은 크게 두 가지로 요약됩니다. 바로 다중 객체를 찾기 위해 고안된 숨바꼭질 방식인 MaskCut과, 모델의 새로운 발견을 처벌하지 않고 독려하는 관대한 채점 방식인 DropLoss입니다.

 

첫 번째 발상의 전환: 양파 껍질 벗기듯 객체 찾아내기 (MaskCut)

이전의 TokenCut 방식은 비유하자면 깜깜한 방에서 손전등을 켜고 가장 먼저, 그리고 가장 밝게 눈에 띄는 물체 하나를 찾고 나면 탐색을 종료하는 것과 같았습니다. 예를 들어, 한 장의 이미지에 크고 선명한 고양이 한 마리와 그 뒤에 작게 웅크린 강아지가 같이 있다고 가정해 보겠습니다. 기존 모델의 눈에 고양이가 시각적으로 더 강하게 인식된다면, 모델은 고양이를 전경(객체)으로, 강아지를 포함한 나머지 모든 것을 단순히 배경으로 치부해 버리고 탐색을 끝냅니다. 현실에는 수많은 객체가 존재함에도 불구하고 말입니다.

 

CutLER 연구진의 해결책은 매우 직관적이면서도 강력했습니다. 연구진은 "가장 눈에 띄는 객체를 찾았다면, 그 객체를 화면에서 지워버리자. 그리고 남은 화면에서 다시 찾아보자"라는 발상의 전환을 이루어냈습니다. 이를 비유하자면 양파의 껍질을 바깥쪽부터 하나씩 차근차근 벗겨내는 과정과 같습니다.

 

구체적으로 DINO 모델이 추출한 시각적 특징을 바탕으로 그래프 기반 분할 알고리즘(NCut)을 수행하여 첫 번째 객체(예: 고양이)를 찾아 마스크를 생성합니다. 그런 다음, 이 고양이에 해당하는 영역의 픽셀들이 서로 연결되어 있다는 수학적 정보(유사도 가중치)를 인위적으로 '0'에 가깝게 덮어버립니다(Masking 처리). 이렇게 처리된 업데이트된 데이터로 분할 알고리즘을 다시 돌리게 되면, 알고리즘은 더 이상 첫 번째로 찾은 고양이를 전경으로 인식하지 못합니다. 그 대신, 남은 영역 중에서 다음으로 시각적 연결성이 강한 대상(예: 강아지)을 새로운 객체로 찾아내게 됩니다. 연구진은 이 과정을 미리 정해둔 횟수(기본적으로 3회)만큼 반복함으로써, 복잡한 군집화 알고리즘 없이도 단 한 장의 이미지에서 손쉽게 여러 개의 객체 마스크를 순차적으로 얻어내는 데 성공했습니다. 이전에는 단일 객체 추출에 그쳤던 한계를 반복적 마스킹이라는 발상 하나로 다중 객체 추출로 전환한 것입니다.

 

두 번째 발상의 전환: 관대한 채점자 (DropLoss)

MaskCut 메커니즘을 통해 다수의 객체에 대한 꽤 괜찮은 초기 정답지(Pseudo-masks)를 얻어냈지만, 이 정답지는 완벽하지 않습니다. 어떤 이미지에는 실제로 5개의 객체가 존재하지만, MaskCut 알고리즘은 3번만 반복되었기 때문에 3개만 찾아내고 나머지 2개는 놓쳤을 수 있습니다. 만약 이처럼 불완전한 정답지를 가지고 딥러닝 탐지기 모델을 일반적인 지도 학습 방식으로 훈련시키면 어떤 현상이 발생할까요?

 

딥러닝 모델이 학습을 진행하면서 이미지 구석에 있는 '새'를 객체로 똑똑하게 찾아냈다고 가정해 보겠습니다. 하지만 MaskCut이 만든 불완전한 정답지에는 '새'의 존재가 기록되어 있지 않습니다. 그러면 손실 함수(Loss function)는 모델에게 "너는 정답지에 없는 곳을 가리켰으니 틀렸어!"라며 강력한 페널티(오류 값)를 부여하게 됩니다. 모델은 정답을 맞히려고 학습하는 기계이므로, 점차 정답지에 없는 새로운 객체를 탐색하려는 시도를 포기하게 됩니다. 결국 모델은 MaskCut이 알려준 지식 이상을 넘어서지 못하고, 수동적이고 제한적인 바보가 되어버립니다.

 

이전의 탐지 모델들은 정답지와 예측값이 조금이라도 다르면 무조건 엄격하게 처벌(A)하는 방식을 따랐습니다. 하지만 CutLER 연구진은 여기서 '관대한 채점(B)'이라는 두 번째 발상의 전환을 시도했습니다. CutLER가 새롭게 도입한 DropLoss 메커니즘은 탐지 모델이 예측한 객체의 위치가 임시 정답지에 등록된 어떤 객체와도 거의 겹치지 않는다면, 즉 겹치는 면적 비율(IoU)이 극히 낮다면 해당 예측에 대해서는 아예 페널티(Loss)를 계산하지 않고 무시(Drop)해 버리는 전략을 취합니다.

 

이러한 전략은 교사가 학생의 시험지를 채점할 때, "네가 쓴 답이 내가 만든 정답지에는 없지만, 완전히 다른 방향에서 논리적인 접근을 한 것을 보니 혹시 내가 놓친 새로운 정답일 수도 있겠구나. 감점하지 않고 넘어가 줄게!"라고 반응하는 것과 같습니다. 이 단순하고 관대한 규칙 덕분에, 탐지기 모델은 페널티를 받을 두려움 없이 이미지 내의 미지의 영역을 자유롭게 탐험하며, MaskCut조차 놓쳤던 숨겨진 다중 객체들을 능동적이고 독립적으로 찾아낼 수 있게 되었습니다.

 

5. 작동 원리: 어떻게 돌아가는가? (The "How")

CutLER 프레임워크는 수많은 수학적 증명이나 하이퍼파라미터 튜닝의 복잡성을 배제하더라도, 데이터가 모델을 통과하며 변화하는 직관적인 흐름(Flow)을 통해 그 작동 원리를 이해할 수 있습니다. 이미지가 모델에 입력되어 최종적으로 다중 객체를 분리해 내는 탐지기가 완성되기까지의 과정은 크게 초기 마스크 생성(MaskCut), 탐지기 학습(DropLoss), 그리고 모델 자가 발전(Self-training) 이라는 3단계의 Step-by-step 구조로 진행됩니다.

 

Step 1. 초기 마스크 생성 (MaskCut 단계)

이 단계의 목표는 인간의 개입 없이 원본 이미지로부터 "여기에 물체가 있다"는 대략적인 윤곽선을 찾아내는 것입니다.

  1. 특징 추출: 레이블이 없는 훈련용 이미지가 입력되면, 이를 사전 학습된 자기 지도 학습 모델인 DINO(Vision Transformer 구조)에 통과시킵니다. 이미지는 가로세로 16픽셀 크기의 수많은 작은 바둑판 모양의 패치(Patch)들로 쪼개어지며, 각 패치는 고차원의 벡터 특징(Key features)으로 변환됩니다.
  2. 유사도 그래프 생성: 이미지 내의 모든 패치들이 서로 얼마나 시각적으로 비슷한지를 코사인 유사도(Cosine Similarity)를 통해 계산합니다. 이를 통해 패치 간의 관계성을 나타내는 거대한 유사도 행렬(Affinity Matrix)이 만들어집니다. 자동차를 이루는 패치들은 서로 높은 유사도를 가지며, 배경을 이루는 하늘 패치들은 그들끼리 높은 유사도를 가집니다.
  3. 그래프 자르기(NCut): 구축된 유사도 행렬을 기반으로 전통적인 Normalized Cuts 수학적 알고리즘을 적용합니다. 이 알고리즘은 노드(패치) 간의 연결성이 가장 약한 부분, 즉 사물과 배경의 경계선을 찾아내어 그래프를 두 동강 냅니다. 분할된 두 덩어리 중 어느 것이 사물(전경)인지 판단하기 위해, "사물은 보통 이미지의 네 모서리에 동시에 걸쳐 있지 않다"는 단순한 객체 중심적 가정(Prior)을 사용하여 전경과 배경을 확정합니다.
  4. 반복 및 지우기: 첫 번째로 찾아낸 전경 객체의 윤곽선을 기반으로 이진 마스크를 생성합니다. 그리고 유사도 행렬에서 해당 전경 패치들에 해당하는 유사도 값을 0에 가깝게 지워버립니다(Masking). 남은 행렬 데이터를 바탕으로 다시 그래프 자르기를 수행하여 두 번째 객체를 찾습니다. 이 과정을 3회 반복하여, 한 장의 이미지에서 다수의 초기 객체 마스크(Pseudo-masks)를 확보합니다.

 

Step 2. 탐지기 학습 (DropLoss 적용 단계)

MaskCut으로 얻어낸 대략적인 마스크들을 바탕으로 실제 탐지기를 훈련시키는 과정입니다.

 

  1. 탐지기 투입: Step 1에서 얻어낸 다소 거칠고 불완전한 초기 다중 마스크들을 '임시 정답지'로 삼습니다. 그리고 실무에서 널리 쓰이는 강력하고 일반적인 객체 탐지 모델(예: Cascade Mask R-CNN)을 가져와 이 임시 정답지를 목표로 학습을 시작합니다.
  2. 탐색적 학습 유도: 학습 과정 중 탐지기가 임시 정답지에 기록되지 않은 새로운 영역을 객체라고 예측할 수 있습니다. 이때 DropLoss 알고리즘이 개입합니다. 모델이 예측한 영역과 임시 정답지 객체들 간의 겹치는 비율(IoU, Intersection over Union)을 계산합니다. 만약 최대 겹침 비율이 1%($\tau_{IoU}=0.01$) 이하라면, 해당 예측은 기존 정답과 완전히 동떨어진 새로운 발견으로 간주하고 그에 대한 오차(Loss)를 무시합니다. 이를 통해 탐지기는 감점의 두려움 없이 화면 구석구석을 학습하며 미탐지 객체를 발굴합니다.

 

Step 3. 모델 자가 발전 (Self-training 단계)

학습된 모델이 스스로를 가르치며 성능을 정교하게 다듬는 마무리 과정입니다.

  1. 자체 예측: Step 2에서 학습이 완료된 탐지기 모델을 활용해 다시 전체 학습 이미지 세트를 추론합니다. 딥러닝 탐지기 모델은 합성곱(CNN)이나 트랜스포머의 구조적 특성상, 픽셀 단위의 단순한 색상 유사도를 넘어 객체의 '전체적인 기하학적 형태(Global geometry)'를 파악하는 뛰어난 일반화 능력을 가지고 있습니다. 따라서 MaskCut이 초기 단계에서 넘겨주었던 삐뚤빼뚤한 마스크보다 훨씬 윤곽선이 깔끔하고 정교한 마스크를 모델 스스로 생성해 냅니다.
  2. 스스로 가르치기: 모델이 스스로 예측한 고품질의 마스크 결과물 중에서, 모델의 확신도(Confidence score)가 0.5~0.75 이상으로 높은 것들만 선별하여 모읍니다. 그리고 이것들을 새로운 '고품질 정답지'로 삼아 모델을 처음부터 다시 학습시킵니다.
  3. 반복 정화: 이 자가 학습 과정을 3회 정도 반복(Multi-round)하게 되면, 모델이 스스로 정답의 품질을 정화(Clean-up)하고 예측하는 객체의 수를 안정적으로 늘려가며 초기 비지도 학습이 가졌던 불완전성의 한계를 극복하게 됩니다.

 

6. 작동 원리: 어떻게 학습 하는가? (The "How")

비지도 학습 모델의 가장 놀랍고도 중요한 특징은 인간이 직접 물체의 테두리를 그리고 이름을 붙여준 '정답 데이터'가 단 하나도 필요 없다는 점입니다. CutLER 프레임워크가 모델을 학습시키기 위해 실제로 사용하는 데이터의 종류와 구체적인 포맷, 그리고 수량은 다음과 같습니다.

 

 

  • 입력 데이터 (Input Data)
    • 종류 및 수량: 학습을 위해 오직 ImageNet-1K 데이터셋에 포함된 원본 이미지들만을 사용합니다. 이 데이터셋은 약 130만 장이라는 방대한 양의 이미지를 포함하고 있으며, 다양한 사물과 환경이 무작위로 촬영되어 1,000개의 폴더에 나뉘어 저장되어 있습니다.
    • 포맷: 데이터는 높이와 너비를 가진 다차원 픽셀 배열 형태의 일반적인 2D RGB 원본 이미지 데이터입니다 (예: 480x480 해상도의 JPEG 이미지 파일).
    • 특징 및 예시: 중요한 점은 ImageNet 데이터셋에 원래 부여되어 있는 '이 이미지는 골든 리트리버입니다' 혹은 '이 이미지는 스포츠카입니다'와 같은 텍스트 레이블(Text Label)이나 클래스 분류 정보는 학습 과정에서 일절 사용하지 않고 철저히 배제한다는 것입니다. 모델에는 오직 '강아지와 풀밭이 찍힌 픽셀 덩어리'로서의 이미지 원본 파일만이 입력됩니다. 즉, 모델은 사물의 이름은 모르지만, 시각적인 패턴만으로 무언가가 존재한다는 사실을 스스로 깨우쳐야 합니다.
  • 출력 데이터 (Output Data)
    • 중간 산출물 (MaskCut 단계의 출력): 130만 장의 입력 이미지 각각에 대해 MaskCut 알고리즘이 작동하여, 인간을 대신해 가상의 윤곽선을 그려냅니다. 이 정보는 컴퓨터가 파싱(Parsing)하기 쉬운 형태인 JSON 포맷의 Pseudo-mask (가짜 정답지) 파일로 저장됩니다.
      • 예시: {"image_id": 001, "bounding_box": [x=10, y=20, width=50, height=80], "segmentation": [[10, 20, 15, 25,...]]} 와 같이 다각형을 이루는 꼭짓점의 x, y 좌표값 배열과, 객체를 감싸는 직사각형 박스의 좌표가 텍스트 형태로 저장됩니다.
    • 최종 산출물 (탐지기 추론 단계의 출력): 모든 학습이 완료된 최종 CutLER 탐지기 모델에 새로운 테스트 이미지(예: 고양이 두 마리가 소파에 앉아있는 사진)가 주어지면, 모델은 다음 두 가지 형태의 데이터를 결과물로 출력합니다.
      1. 바운딩 박스 (Bounding Box): "이 직사각형 영역 내에 덩어리진 물체가 존재한다"는 것을 나타내는 네 모서리의 좌표값 포맷.
      2. 이진 인스턴스 마스크 (Binary Instance Mask): "이 객체의 실제 형태는 직사각형이 아니라 이 픽셀들의 모양을 따른다"는 것을 나타내는 포맷으로, 픽셀 단위로 객체가 있는 곳은 1, 없는 곳은 0으로 표시된 2차원 마스크 이미지 데이터입니다.

요약하자면, CutLER의 학습은 130만 장의 순수한 이미지 픽셀들을 갈아 넣어 수학적 알고리즘(MaskCut)을 통해 스스로 가짜 정답 좌표(JSON)를 만들고, 이 좌표를 목표 삼아 시각적 형태를 일반화하여 추론하는 범용 분할 기계를 완성하는 자급자족형 구조입니다. 따라서 목표로 하는 대상 도메인(의료 엑스레이, 위성 사진, 자율주행 블랙박스 등)의 데이터를 학습 과정에 미리 섞어 넣는 번거로운 준비 작업이 전혀 필요하지 않습니다.

 

7. 결과: 얼마나 좋아졌나? (Results)

 

CutLER는 평가 기준이 매우 엄격하고 까다로운 비지도 학습 객체 탐지 분야에서 전례 없는 놀라운 성능 도약을 이루어 냈습니다. 연구진은 모델을 오직 일반적인 ImageNet 이미지로만 학습시킨 상태에서, 단 한 번도 본 적 없는 완전히 다른 도메인의 11개 벤치마크 데이터셋에서 평가를 진행하는 제로샷(Zero-shot) 테스트를 수행했습니다. 달성한 성과를 세부적으로 나누어 살펴보면 다음과 같습니다.

 

1. 압도적인 성능 향상과 SOTA(State-of-the-art) 달성

가장 인상적인 지표는 객체의 위치를 얼마나 정확하게 예측했는지를 나타내는 $AP_{50}^{box}$ (Average Precision, IoU 50% 기준) 점수입니다. 아래 표는 이전 최고 성능 모델이었던 FreeSOLO(무거운 ResNet-101 백본 사용)와 CutLER(가벼운 ResNet-50 백본 사용)의 11개 벤치마크 제로샷 탐지 성능($AP_{50}^{box}$)을 비교한 결과입니다.

평가 데이터셋 (도메인) FreeSOLO 성능 ($AP_{50}$) CutLER 성능 ($AP_{50}$) 성능 향상도
COCO (일상적인 자연 이미지) 9.6 21.9 +12.3 (약 2.2배)
Pascal VOC (자연 이미지 벤치마크) 15.9 36.9 +21.0 (약 2.3배)
UVO (비디오 프레임 추출 이미지) 10.0 31.7 +21.7 (약 3.1배)
KITTI (자율주행 환경 차량/보행자) 7.7 18.4 +10.7 (약 2.3배)
Clipart (클립아트 그림) 7.9 21.1 +13.2 (약 2.6배)
Watercolor (수채화 붓터치 명화) 6.7 37.5 +30.8 (약 5.5배)
Comic (스케치 및 만화 이미지) 9.9 30.4 +20.5 (약 3.0배)

 

 

위 표에서 볼 수 있듯이, CutLER는 더 적은 파라미터를 가진 가벼운 모델을 사용했음에도 불구하고 11개 벤치마크 중 10개에서 탐지 성능을 2배 이상(Over 2x) 향상시키며 모든 분야에서 압도적인 SOTA를 달성했습니다. 특히 자율주행 환경인 KITTI 데이터셋이나 일러스트레이션인 Clipart, 심지어 사물의 경계가 붓 터치로 인해 뭉개져 있는 수채화(Watercolor) 데이터셋에서는 기존 모델 대비 5배 이상의 획기적인 점수 상승을 보여주었습니다. 이는 CutLER가 특정 이미지의 질감이나 형태에 편향되지 않고, 객체의 본질적인 기하학적 구조를 완벽하게 일반화하여 학습했음을 강력하게 시사합니다.

 

2. 라벨 효율성 극대화 (Low-shot Pretraining)

CutLER는 그 자체로도 훌륭한 제로샷 탐지기이지만, 지도 학습을 시작하기 전 모델의 가중치를 초기화하는 '사전 학습(Pre-training) 모델'로 사용될 때 실무적으로 엄청난 진가를 발휘합니다. 인간의 레이블이 극단적으로 적게 주어지는 소량 학습(Low-shot) 환경을 가정하여, COCO 데이터셋 전체 레이블의 단 5%만 사용하여 미세 조정(Fine-tuning)을 진행한 실험 결과가 이를 증명합니다.

 

동일한 5% 레이블 조건에서, 널리 쓰이는 강력한 자기 지도 학습 기반 가중치인 MoCo-v2 모델로 초기화했을 때보다, CutLER 모델로 초기화했을 때 바운딩 박스 정확도($AP^{box}$)는 7.3%, 마스크 정확도($AP^{mask}$)는 6.6%나 더 높은 성능을 보여주었습니다. 이는 현업에서 딥러닝 모델을 상용화할 때 투입되어야 하는 수십억 원 단위의 데이터 레이블링 비용을 극단적으로 절감할 수 있는 핵심적인 성과입니다.

 

3. 실패 케이스와 솔직한 한계점 (Limitations)

이토록 강력한 성능을 보여주는 모델이지만, 논문의 저자들과 후속 연구자들의 분석을 통해 명확한 한계점과 실패 케이스(Failure cases)도 보고되었습니다. 이러한 솔직한 한계 분석은 오히려 모델의 신뢰도를 높여줍니다.

 

  • 의미론적 병합으로 인한 분리 실패: CutLER가 기초하고 있는 DINO 특징점 추출기는 픽셀 간의 '의미(Semantics)'를 바탕으로 유사도를 계산합니다. 이로 인해 발생하는 대표적인 실패 케이스는 완전히 똑같이 생긴 여러 객체가 2D 사진 공간상에서 밀착되어 겹쳐 있을 때 나타납니다. 예를 들어, 검은 양복을 입은 사람들이 빽빽하게 겹쳐 서 있는 군중 사진이나, 바구니에 수북이 쌓인 똑같은 모양의 사과들의 경우, 모델은 이들을 개별적인 여러 객체로 떼어내지 못하고 픽셀 유사도가 높다는 이유로 하나의 거대한 덩어리(Single cluster)로 뭉뚱그려 인식해 버리는 오류가 종종 발생합니다. 인간은 3차원적인 원근감을 통해 겹쳐진 사물을 무의식적으로 분리하지만, 2D 이미지의 색상과 질감에 의존하는 모델은 이 부분에서 한계를 보입니다.
  • DropLoss의 과도한 관대함: 탐지기가 정답지에 없는 새로운 영역을 발견하게 독려하는 DropLoss 메커니즘은 대체로 매우 유용하게 작동합니다. 하지만 겹침 임계값($\tau_{IoU}=0.01$) 설정이 너무 관대하게 작용할 경우, 배경에 있는 단순한 그림자, 벽의 얼룩, 혹은 물에 비친 형상마저도 독립적인 객체로 착각하여 탐지해 내는 과검출(False positive) 부작용이 간헐적으로 발생할 수 있습니다.

 

7. 이 논문의 계보와 발전 (Impact & Follow-ups)

CutLER가 컴퓨터 비전 학계에 제시한 "일단 단순 분할 알고리즘으로 대략적인 정답을 만든 후, 이를 바탕으로 딥러닝 탐지기를 자기 학습시킨다(Cut-and-Learn)"는 파이프라인은 엄청난 영감을 주었습니다. 논문이 발표된 지 불과 1~2년 만에 이 방식의 한계를 극복하고 다양한 시각 정보 분야로 확장한 강력한 후속 연구들이 폭포수처럼 쏟아져 나왔습니다. CutLER를 기반으로 발전한 최신 트렌드를 살펴보면 다음과 같습니다.

  • VideoCutLER (2024): 기존의 영상(비디오) 내 객체 분할 모델들은 프레임 간에 물체가 어떻게 이동하는지를 수학적으로 계산하는 무거운 '광학 흐름(Optical Flow)' 기술을 필수적으로 사용해야 했습니다. 하지만 VideoCutLER는 CutLER가 정지 이미지에서 뽑아낸 마스크 정보에 단순히 크기 조절이나 이동 같은 무작위 증강(Augmentation)을 가하여, 짧은 가짜 합성 비디오(Synthetic video)를 만들어내는 단순한 발상을 도입했습니다. 이 간단한 전환만으로, 무거운 광학 흐름 계산이나 실제 자연 비디오 데이터에 대한 학습 과정 없이도 움직이는 영상 속 여러 객체를 부드럽게 분할하고 시간의 흐름에 따라 정확히 추적(Tracking)하는 데 성공했습니다. 이는 비지도 비디오 분할 모델 학습의 패러다임을 근본적으로 바꾼 획기적인 연구로 평가받고 있습니다.
  • CuVLER (Cut-Vote-and-LEaRn, 2024): CutLER의 초기 마스크 생성 단계인 MaskCut은 오직 단 하나의 DINO 모델 구조에만 전적으로 의존하기 때문에, 추출되는 마스크의 품질과 다양성에 태생적인 한계가 존재했습니다. 이를 극복하기 위해 CuVLER 연구진은 다양한 형태의 자기 지도 학습 트랜스포머(ViT) 모델들을 앙상블(Ensemble) 기법처럼 여러 개 결합했습니다. 그리고 각 모델이 내놓은 결과물들을 종합하여 픽셀 단위로 투표(Pixel Voting)를 진행하는 'VoteCut' 알고리즘을 새롭게 제안했습니다. 또한 정답에 유연성을 부여하는 소프트 타겟 손실 함수(Soft target loss)를 적용하여, CutLER보다 훨씬 섬세하고 경계선이 뚜렷한 마스크 정답지를 만들어내며 모델 성능을 한 단계 더 높은 차원으로 끌어올렸습니다.
  • COLER (Cut-Once-and-LEaRn, 2025): 기존 CutLER의 MaskCut 알고리즘은 하나의 객체를 찾을 때마다 그래프 행렬의 가중치를 업데이트하고, 무거운 분할(NCut) 수학 연산을 매번 반복해야 하므로 연산 속도가 느리다는 치명적인 병목 현상을 가지고 있었습니다. 2025년에 발표된 최신 연구인 COLER는 그 이름에서 유추할 수 있듯, 단 한 번(Cut-Once)의 Normalized Cut 수학 연산 수행만으로 복수의 객체 마스크를 동시에 뱉어내도록 구조를 완전히 혁신했습니다. 복잡한 후처리나 클러스터링 모듈에 의존하지 않으면서도 연산 효율성을 극대화하고 동시에 최첨단 탐지 성능을 입증하여 비지도 학습의 속도 문제를 해결했습니다.
  • SOHES (2024): 기존 모델들이 단순히 객체의 외곽선을 하나의 덩어리로 분할하는 데 그쳤다면, SOHES는 한 걸음 더 나아가 객체 내부의 '계층적 구조(Hierarchical Structure)'까지 비지도 방식으로 파악하는 놀라운 연구입니다. 예를 들어 한 대의 자동차 이미지를 분할할 때, 단순히 '자동차 전체'라는 큰 덩어리의 마스크만 따내는 것이 아니라, 자동차 안에 포함된 '바퀴', '창문', '헤드라이트' 등의 세부 부품(Parts/Subparts) 영역까지 쪼개어 계층적으로 연결하고 분리합니다. 이 과정에서 시각적 특징들을 전역-국소(Global-local)로 탐색하는 방법을 사용하여, CutLER의 기존 성능 점수를 두 배 이상 뛰어넘는 저력을 과시하며 더욱 정교하고 인간다운 시각 인지 능력을 구현해 냈습니다.

 

8. 마무리

CutLER 프레임워크는 "수많은 인간 작업자가 직접 픽셀을 정교하게 칠해주며 정답을 알려주지 않으면 인공지능은 결코 사물을 정확히 분간할 수 없다"는 컴퓨터 비전 업계의 오래된 고정관념을 완벽하게 깨부순 기념비적이고 파괴적인 연구입니다. 연구진은 매우 복잡하고 무거운 최신 모듈이나 특수 목적의 데이터셋을 새롭게 고안한 것이 아닙니다. 오히려 기존 DINO 모델이 가진 훌륭한 시각적 특징 추출 능력과 20여 년 전부터 사용되어 온 고전적인 그래프 분할(NCut) 기술을 재발견하고 결합했습니다. 여기에 DropLoss라는 매우 단순하지만 영리한 논리적 아이디어를 덧붙여 최소한의 공학적 노력으로 최대한의 모델 범용성을 이끌어냈다는 점은, 복잡성을 좇는 최근의 AI 연구 트렌드 속에서 매우 신선하고 아름다운 접근 방식으로 평가할 수 있습니다.

 

본 논문이 향후 딥러닝 분야와 산업계 전반에 끼치는 가장 큰 영향력은 '기초 모델(Foundation Model)로의 무한한 확장성과 이식성'에 있습니다. CutLER 파이프라인이 인간을 대신하여 무한대로 생성해 낸 고품질의 가짜 정답(Pseudo-masks) 데이터는 특정 모델 구조에 종속되지 않습니다. 즉, 현업에서 이미 널리 쓰이고 있는 Cascade Mask R-CNN이나 최근 각광받는 ViTDet 등 어떠한 탐지 아키텍처에도 그대로 플러그인(Plug-in)하여 즉시 훈련시킬 수 있는 유연성을 제공합니다. 이는 전문가의 레이블링 단가가 매우 높거나 인력을 구하기 자체가 힘든 특수 산업 분야—예를 들어 정밀한 의료 엑스레이 종양 분석, 위성 이미지의 지형 분석, 심해 해양 생태계 탐사 등—에서 모델 구축의 패러다임을 혁명적으로 바꾸고 수십억 원 이상의 비용 절감을 가져다줄 핵심 기술이 될 것입니다.

 

하지만 이 강력한 모델을 실제 실무 환경에 적용할 때 반드시 설계자들이 고려해야 할 치명적인 주의점(Limitations)도 분명히 존재합니다.

  1. 막대한 컴퓨팅 자원과 시간의 요구: 최종적으로 완성된 CutLER 모델 자체의 추론(Inference) 속도는 일반적인 R-CNN 계열과 동일하므로 서비스에 적용하기에 상당히 준수합니다. 하지만 모델 학습을 위한 데이터 준비 과정이 매우 험난합니다. 무려 130만 장에 달하는 ImageNet 데이터 전체에 대해 MaskCut 알고리즘을 돌려 패치 간의 행렬 유사도를 계산하고 고유 벡터(Eigenvector) 수학 문제를 푸는 작업은 연산량이 상상을 초월합니다. 실제로 수십에서 수백 대의 노드에서 병렬 분산 처리를 하지 않으면, 학습에 필요한 가짜 정답지 모음을 생성해 내는 데만 엄청난 시간이 소요될 수 있어 자금력이 부족한 초기 스타트업에게는 시간적 장벽이 됩니다.
  2. 모델 학습 시의 압도적인 GPU 메모리 부담: 초기 탐지기 학습 단계에서 Cascade Mask R-CNN과 같은 무거운 파라미터 구조를 사용하고, 객체를 정밀하게 따내기 위해 이미지 해상도를 480x480 이상으로 높여 배치 사이즈를 원활하게 유지하려면, 모델이 메모리에 올려야 할 텐서(Tensor)의 크기가 급증합니다. 따라서 이 모델을 처음부터 정상적으로 재현하고 학습하기 위해서는 A100과 같은 고용량 VRAM(최소 40GB에서 권장 80GB)을 갖춘 8대 이상의 다중 GPU 서버 환경이 필수적으로 요구됩니다.
  3. 겹침 현상의 의미론적 분리 한계: 실패 케이스 부분에서 언급한 바와 같이, 색상과 질감의 유사도에 전적으로 의존하는 모델의 태생적 한계로 인해, 완전히 밀착된 동일 클래스 객체(예: 상자에 가득 담긴 똑같은 레몬들)를 개별 픽셀 단위로 깔끔하게 떼어내는 세부 픽셀 검출 작업에서는 아직 완벽한 신뢰성을 담보하기 어렵습니다. 산업용 로봇 팔이 겹쳐진 물건을 하나씩 집어내는 피킹(Picking) 시스템 등에 적용하기에는 오차율 개선이 필요합니다.

 

앞으로의 발전 방향

 

단일 이미지의 2D 평면을 넘어선 비지도 객체 탐지 기술의 진화는 이미 빠르게 시작되었습니다. 시각적 겹침에 의한 오류를 극복하기 위해, 최근 연구자들은 자율주행 라이다(LiDAR) 센서 등에서 얻은 3D 포인트 클라우드 정보의 깊이(Depth) 값을 결합하여 3차원 공간에서 객체를 잘라내는 연구를 시도하고 있습니다. 또한, 시간의 축을 더해 정지 이미지가 아닌 동적인 비디오 상의 객체를 모델링하는 VideoCutLER 등의 연구로 지평이 계속해서 넓어지고 있습니다.

 

CutLER가 학계에 성공적으로 쏘아 올린 "스스로 배우고 잘라내는(Cut-and-Learn)" 패러다임은 머지않아 메타(Meta)의 SAM(Segment Anything Model)과 같은 초거대 범용 시각 모델들과 자연스럽게 결합될 것입니다. 이는 궁극적으로 인간의 값비싼 육체적, 정신적 노동이 전혀 들어가지 않은 완벽한 제로 비용(Zero-cost) 인공 시각 지능을 탄생시키는 결정적인 주춧돌이 될 것으로 확신합니다.

 

 

반응형