본문 바로가기

딥러닝

CountZES - 사전 학습 모델들의 융합을 통해 텍스트 프롬프트 하나로 세상의 모든 객체를 세는 방법

반응형


일러두기 (Disclaimer)

본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.

 

 

논문 링크 : https://arxiv.org/abs/2512.16415

 

CountZES: Counting via Zero-Shot Exemplar Selection

Object counting in complex scenes is particularly challenging in the zero-shot (ZS) setting, where instances of unseen categories are counted using only a class name. Existing ZS counting methods that infer exemplars from text often rely on off-the-shelf o

arxiv.org

 

 

초록 (Abstract)

복잡한 장면에서의 객체 계수(Object counting)는 클래스 이름만으로 학습되지 않은(unseen) 범주의 객체를 세어야 하는 제로샷(Zero-Shot, ZS) 설정에서 특히 까다롭습니다. 텍스트로부터 예시(exemplar)를 추론하는 기존의 제로샷 계수 기법들은 기성(off-the-shelf) 개방형 어휘 탐지기(OVD, open-vocabulary detectors)에 의존하는 경우가 많은데, 이러한 탐지기들은 밀집된 환경에서 의미론적 노이즈, 외관의 다양성, 빈번한 다중 인스턴스 제안(multi-instance proposals) 등의 문제를 겪습니다. 대안으로 무작위 이미지 패치 샘플링이 사용되기도 하지만, 이는 객체 인스턴스의 경계를 정확하게 구획하지 못합니다.

이러한 문제들을 해결하기 위해, 본 논문에서는 제로샷 예시 선택을 통한 객체 계수를 위한 추론 전용(inference-only) 접근 방식인 CountZES를 제안합니다. CountZES는 탐지 기반 예시(DAE, Detection-Anchored Exemplar), 밀도 유도 예시(DGE, Density-Guided Exemplar), 특징 합의 예시(FCE, Feature-Consensus Exemplar)라는 시너지 효과를 내는 세 단계를 통해 다양한 예시들을 찾아냅니다.

DAE는 OVD 탐지 결과를 세밀하게 조정하여 정밀한 단일 인스턴스 예시를 분리해 냅니다.DGE는 밀도 기반의 자기 지도(self-supervised) 패러다임을 도입하여 통계적으로 일관되고 의미론적으로 밀집된 예시를 식별합니다.FCE는 특징 공간(feature-space) 클러스터링을 통해 시각적 일관성을 강화합니다.

이 세 단계가 결합되어 텍스트 기반 정보(textual grounding), 계수 일관성, 그리고 특징 대표성 간의 균형을 이루는 상호 보완적인 예시 세트를 산출합니다. 다양한 데이터셋에 대한 실험을 통해 CountZES가 여러 도메인에 걸쳐 효과적으로 일반화됨과 동시에, 제로샷 객체 계수(ZOC) 기법들 중에서도 우수한 성능을 보임을 입증합니다.

 

1. 한줄 요약 & 3줄 핵심 (Executive Summary)

이 논문은 복잡하고 객체가 밀집된 이미지 속에서 별도의 카운팅 전용 학습 데이터 없이 텍스트 프롬프트만으로 가장 완벽한 단일 기준 객체를 추출해 내어 사물의 개수를 정확히 추정하는 다단계 검증 시스템입니다.

  1. 기존의 문제점 (Pain point): 제로샷 환경에서 객체를 세기 위해 범용 객체 탐지기나 무작위 패치 추출에 의존했다는 점입니다. 이러한 방식은 여러 객체가 겹쳐 있는 밀집 환경에서 탐지된 박스 하나에 여러 사물이 잡히거나 배경 노이즈가 섞여 들어가는 치명적인 오류를 발생시켰으며, 이는 최종 개수 추정의 정확도를 심각하게 훼손했습니다.
  2. 이 논문의 해결책 (Solution): 모델을 새로 학습시키는 대신, 이미 강력한 성능을 갖춘 사전 학습 거대 모델들(CLIP, SAM, Grounding DINO)을 조합하여 세 가지 독립적인 모범 사례 추출 모듈을 구축한 것입니다. 의미론적 일치도, 통계적 타당성, 시각적 특징의 대표성이라는 세 가지 엄격한 기준을 통과한 모범 사례들을 선별함으로써 기준 객체의 순도와 신뢰도를 극대화했습니다.
  3. 달성한 성과 (Key Result): 자연 풍경, 항공 사진, 의료용 세포 이미지 등 데이터 분포가 완전히 다른 도메인 환경에서도 추가 학습 없이 기존 제로샷 카운팅 모델들을 압도하는 최신(State-of-the-art) 정확도를 달성한 것입니다. 더불어 이미지 한 장당 평균 2.3초의 처리 속도를 기록하며 정확도와 연산 효율성 사이의 최적의 균형을 증명했습니다.

 

2. 들어가며: 왜 이 연구가 필요했나? (The "Why")

컴퓨터 비전 분야에서 객체 카운팅(Object Counting)은 이미지나 영상 내에 존재하는 특정 사물의 개수를 파악하는 핵심적인 과제입니다. 초기 연구들은 주로 경기장이나 집회 현장과 같이 사람이 밀집된 환경에서 군중의 숫자를 세는 작업(Crowd Counting)에 집중했습니다. 이후 차량, 세포, 농작물 등 다양한 카테고리로 응용 범위가 확장되었으나, 이러한 전통적인 카운팅 모델들은 특정한 사물 범주에 종속되어 있다는 근본적인 한계를 지니고 있었습니다. 새로운 종류의 사물을 세어야 할 때마다 수천 장의 이미지에 일일이 점(Dot annotation)을 찍어 정답 데이터를 구축하고, 모델의 가중치를 처음부터 다시 학습시켜야 하는 막대한 비용이 발생했습니다.

 

이러한 데이터 종속성과 확장성의 한계를 극복하기 위해 등장한 개념이 클래스 독립적 카운팅(Class-Agnostic Counting)입니다. 모델이 훈련 과정에서 보지 못한 임의의 카테고리에도 대응할 수 있도록 설계된 이 방법론은 초기에는 사용자가 이미지 내에서 찾고자 하는 사물 2~3개에 직접 경계 상자(Bounding box)를 그려 모델에게 시각적 모범 사례(Exemplar)를 제공하는 퓨샷(Few-Shot) 방식을 채택했습니다. 모델은 사용자가 지정해 준 박스 안의 시각적 특징과 유사한 영역을 이미지 전체에서 찾아내어 밀도 맵을 생성하고 개수를 추정했습니다. 하지만 자율주행, 대규모 CCTV 통합 관제, 방대한 위성 영상 분석 시스템 등 실시간으로 처리해야 할 데이터가 기하급수적으로 증가하는 현대의 응용 환경에서는 매번 사람이 수동으로 박스를 쳐주는 개입 자체가 불가능에 가까웠습니다.

 

연구자들은 인간의 시각적 개입을 완전히 배제하고 자동화를 달성하기 위해 제로샷 객체 카운팅(Zero-Shot Object Counting, ZOC)이라는 새로운 패러다임을 제안했습니다. 이는 사용자가 "양(Sheep)" 또는 "사과(Apple)"와 같은 텍스트 프롬프트만 입력하면, 인공지능이 스스로 이미지 속에서 해당 텍스트와 일치하는 기준 객체를 찾아내고 그 개수까지 세어버리는 고도의 추론 기술입니다. 하지만 제로샷 카운팅에는 넘기 힘든 기술적 장벽이 존재했습니다. 바로 객체들이 심하게 겹쳐 있고 크기 변화가 심한 밀집 환경(Dense Scene)에서 깨끗한 단일 기준 객체(Single-instance Exemplar)를 스스로 찾아내야 한다는 점이었습니다.

 

모델이 전체 객체의 수를 정확히 추정하려면, 가장 먼저 기준이 되는 사물 하나를 배경이나 다른 사물과 섞이지 않게 정교하게 오려내야 합니다. 하지만 기존 모델들이 채택한 무작위 이미지 패치 샘플링 방식은 사물의 절반만 잘려서 포함되거나 배경이 대부분을 차지하는 질 낮은 모범 사례를 양산했습니다. 또한 텍스트 프롬프트를 기반으로 객체를 찾아주는 오픈 보캐블러리 탐지기(Open-Vocabulary Detector, OVD)를 도입한 최신 연구들조차 밀집된 환경에서는 한계에 부딪혔습니다. 수백 마리의 양 떼가 엉켜 있는 이미지에서 탐지기가 생성한 상자 안에는 양 한 마리가 아닌 세 마리의 머리와 네 마리의 꼬리가 뒤섞여 있는 다중 객체 제안(Multi-instance proposals) 현상이 빈번하게 발생했습니다. 기준 객체 자체가 이처럼 심각하게 오염되어 있으니, 이를 바탕으로 사진 전체의 특징을 스캔하여 수를 추정하는 카운팅 결과는 실제 개수와 큰 오차를 보일 수밖에 없었습니다.

 

연구자들은 어떻게 하면 빽빽하게 겹쳐 있는 사물들 틈바구니에서 가장 완벽하게 독립된 단일 사물만을 골라내어 기준 객체로 삼을 수 있을지에 대해 깊이 고민했습니다. 단순한 탐지기의 결과물에 의존하는 것을 넘어, 탐지된 영역 내부의 불순물을 걸러내고, 해당 객체가 전체 군중의 크기와 특징을 제대로 대표하는지 검증할 수 있는 다각적인 시스템의 필요성이 대두되었습니다. CountZES는 바로 이러한 학계의 고민과 한계를 정면으로 돌파하기 위해, 사물을 찾는 작업과 윤곽을 따내는 작업, 그리고 밀도를 추정하는 작업을 각기 다른 사전 학습 모델들에게 분담시키고 이들을 유기적으로 결합하는 융합적 접근법을 제안하게 되었습니다.

 

3. 이 논문의 뿌리 (Key Reference)

CountZES는 컴퓨터 비전 분야의 강력한 사전 학습 파운데이션 모델들과 초기 제로샷 카운팅 연구들의 한계를 비판적으로 계승하고 발전시켜 탄생한 프레임워크입니다.

 

  • ZSOC (Zero-Shot Object Counting, 2023): 이 논문은 학계에 제로샷 객체 카운팅(ZOC)이라는 태스크를 처음으로 정의하고 제안한 선구적인 연구입니다. 기존의 퓨샷 카운팅 방식이 사용자의 시각적 예시 제공을 필요로 했던 것과 달리, ZSOC는 텍스트 조건부 변분 자동 인코더(Variational Autoencoder, VAE)를 활용해 텍스트로부터 가상의 시각적 모범 사례를 합성했습니다. 이후 이미지에서 무작위로 추출한 수많은 패치들과 이 가상의 모범 사례를 비교하여 가장 유사한 패치를 실제 카운팅을 위한 기준 객체로 삼는 방식을 취했습니다. CountZES는 텍스트 프롬프트만으로 카운팅을 수행한다는 ZSOC의 문제 의식과 목표를 동일하게 공유합니다. 그러나 ZSOC가 채택한 무작위 패치 추출 방식이 사물의 실제 경계를 무시하여 부분적이거나 노이즈가 다량 포함된 모범 사례를 생성한다는 치명적인 단점을 비판했습니다. 이를 극복하기 위해 CountZES는 무작위 샘플링을 폐기하고, 탐지기와 분할 모델을 결합하여 사물의 경계를 정확히 분리하는 방향으로 파이프라인을 전면 개편하게 됩니다.
  • VA-Count (Zero-Shot Object Counting with Good Exemplars, 2024): VA-Count는 ZSOC의 무작위 패치 추출 방식이 가지는 비효율성을 개선하기 위해, 텍스트를 기반으로 객체의 위치를 찾아주는 범용 탐지기인 Grounding DINO를 카운팅에 도입한 연구입니다. 이들은 탐지기가 찾아낸 경계 상자들을 모범 사례 후보군으로 설정하고, 단순히 탐지 모델이 반환하는 신뢰도 점수(Logits)에 기반하여 상위 3개의 상자를 선택하는 필터링 기법을 제안했습니다. 하지만 CountZES 연구진은 VA-Count가 객체들이 듬성듬성 있는 환경에서는 잘 작동하지만, 심하게 밀집된 환경에서는 Grounding DINO가 단일 객체만을 포함한 깨끗한 상자를 거의 제공하지 못한다는 한계를 날카롭게 포착했습니다. 수많은 객체가 겹친 상자를 그대로 카운팅 모델에 입력하면 심각한 성능 저하가 발생하기 때문입니다. CountZES는 VA-Count가 시도한 탐지기 기반 접근법을 계승하면서도, 단순히 탐지기의 점수를 신뢰하는 것을 넘어 탐지된 영역 내부를 픽셀 단위로 정밀하게 다듬고 통계적 검증을 추가하는 다단계 검증 시스템을 고안하는 계기로 삼았습니다.
  • Segment Anything Model (SAM, 2023) 및 CLIP (2021): 이 두 거대 파운데이션 모델은 CountZES가 카운팅을 위해 별도의 학습 데이터를 구축하지 않고도 작동할 수 있게 해주는 핵심 백본(Backbone)입니다. OpenAI의 CLIP은 텍스트 프롬프트와 이미지 픽셀 간의 의미론적 일치도를 계산하여 텍스트가 지시하는 객체가 이미지의 어느 부분에 위치하는지 힌트를 제공합니다. 메타(Meta)에서 공개한 SAM은 이미지 내의 특정 좌표(Point prompt)를 입력받아 해당 위치에 존재하는 사물의 윤곽선(Mask)을 극도로 정교하게 따내는 역할을 수행합니다. 기존의 일부 연구들이 SAM을 카운팅에 직접적으로 활용하려 시도했으나, SAM 자체가 너무 조밀하거나 작은 객체가 모여 있는 밀집 환경에서는 분할 성능이 크게 떨어진다는 한계가 있었습니다. CountZES는 SAM을 독립적인 카운팅 모델로 사용하는 오류를 범하지 않고, CLIP의 의미론적 지도와 통계적 밀도 맵에서 추출된 가장 확실한 꼭짓점(Peak)만을 SAM에게 입력점(Prompt)으로 제공함으로써 SAM이 가진 잠재력을 모범 사례 추출 영역에서만 극대화하는 창의적인 엔지니어링 관계를 맺고 있습니다.

 

4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)

CountZES가 기존 모델들과 확연히 구분되는 가장 핵심적인 발상의 전환은 카운팅 성능을 높이기 위해 모델의 신경망 파라미터를 미세 조정(Fine-tuning)하는 데 집착하지 않고, 기성 모델들을 조합해 가장 완벽한 기준 객체를 선별하는 추론 단계의 논리적 아키텍처 구축에 집중했다는 점입니다.

 

기존의 제로샷 카운팅 모델들은 텍스트라는 불안정한 단서를 바탕으로 이미지 내에서 사물을 찾을 때 단일한 관점에 지나치게 의존했습니다. 탐지기의 신뢰도 점수라는 하나의 지표만을 믿고 기준 객체를 선정하다 보니, 탐지기가 실수를 범하는 순간 전체 카운팅 프로세스가 붕괴되는 구조적 취약성을 지니고 있었습니다.

 

이에 반해 CountZES가 제시한 해결책의 컨셉은 독립적이고 상호 보완적인 세 명의 전문가로 구성된 검증 위원회를 도입하는 것입니다. 이는 마치 거대한 모래사장에서 특정 형태의 조개껍데기를 세어야 할 때, 한 명의 조수에게 임의로 주워오게 하는 것이 아니라, 의미론 전문가, 통계학 전문가, 시각 패턴 전문가 세 명을 파견하여 각자의 엄격한 기준에 부합하는 가장 완벽한 조개껍데기 표본을 하나씩 가져오게 한 뒤, 이 세 개의 표본을 종합적인 카운팅의 기준으로 삼는 것과 같습니다.

 

첫 번째 모듈(DAE)은 텍스트가 지시하는 본질적인 의미에 가장 부합하는가에 집중합니다. 탐지기가 찾아낸 영역 안에서 CLIP 모델을 사용해 의미적 순도를 측정하고, SAM을 통해 배경과 중첩된 사물을 정밀하게 도려내어 첫 번째 표본을 만듭니다. 두 번째 모듈(DGE)은 이렇게 찾은 첫 번째 표본을 바탕으로 이미지 전체의 가상 지도를 그린 뒤, 너무 크거나 작은 기형적인 객체가 아닌, 사진 속 군중 전체의 평균적인 조밀도와 통계적으로 가장 일치하는 객체를 두 번째 표본으로 추출합니다. 마지막 세 번째 모듈(FCE)은 특징 공간 상에서 군집화를 수행하여 특이한 조명이나 각도로 인해 왜곡된 객체를 배제하고, 시각적으로 가장 흔하고 지배적인 형태를 띠는 객체를 세 번째 표본으로 선정합니다.

 

이러한 다단계 교차 검증 파이프라인은 탐지기, 분할 모델, 밀도 추정기라는 서로 다른 성격의 거대 모델들이 각자의 약점을 상호 보완하도록 유도합니다. 그 결과 훈련 데이터에 종속되지 않는 유연함을 유지하면서도, 그 어떤 학습 기반 모델보다 깨끗하고 다양한 모범 사례 세트를 확보할 수 있게 된 것이 이 논문의 가장 결정적인 아하 모멘트(Aha! Moment)입니다.

 

5. 작동 원리: 어떻게 돌아가는가? (The "How")

CountZES에 복잡하게 사물들이 얽혀 있는 사진 한 장과 "사과(Apples)"라는 텍스트 프롬프트가 입력되어 최종적으로 전체 사과의 개수가 산출되기까지의 구체적인 데이터 처리 흐름을 세 가지 핵심 모듈을 중심으로 상세히 설명합니다. 수학적 증명이나 하이퍼파라미터의 나열보다는 각 모듈이 어떻게 상호작용하며 불순물을 걸러내는지에 초점을 맞춥니다.

 

Step 1. 탐지 기반 모범 사례 추출 (DAE: Detection-Anchored Exemplar)

이 단계의 목표는 텍스트 프롬프트와 의미론적으로 가장 잘 일치하는 단일 사물을 찾아 주변 배경이나 다른 사물과 완벽하게 분리해 내는 것입니다.

 

먼저 사용자가 입력한 이미지와 텍스트를 Grounding DINO 모델에 통과시킵니다. 모델은 "사과"가 존재할 가능성이 높은 여러 영역에 사각형의 경계 상자(Coarse box)들을 생성합니다. 동시에 CLIP 모델은 이미지의 모든 픽셀이 "사과"라는 단어와 얼마나 높은 관련성을 가지는지 점수를 매겨 픽셀 단위의 유사도 지도를 생성합니다.

 

문제는 Grounding DINO가 생성한 상자 안에 사과가 하나만 있는 것이 아니라 여러 개가 겹쳐 있을 수 있다는 점입니다. 이를 걸러내기 위해 CountZES는 정보 이론의 엔트로피(Entropy) 개념을 차용합니다. 특정 상자 내부의 픽셀들이 텍스트와 가지는 유사도 점수의 분포를 분석하는 것입니다. 만약 상자 안에 단 하나의 사과만 꽉 차 있고 배경이 적다면, 사과 영역에 해당하는 픽셀들의 유사도 점수가 매우 높게 일관된 분포를 보일 것이므로 엔트로피 값이 낮게 측정됩니다. 반면 상자 안에 여러 개의 사과가 듬성듬성 있거나 빈 배경이 많이 포함되어 있다면, 높은 점수와 낮은 점수가 혼재되어 무질서도가 상승하므로 엔트로피 값이 높아집니다. 시스템은 탐지기의 자체 신뢰도 점수와 이 엔트로피 값을 종합하여, 가장 불순물이 적고 단일 객체일 확률이 높은 최적의 상자 하나를 1차 후보로 선정합니다.

 

하지만 이 1차 후보 상자조차 완벽하지 않을 수 있습니다. 따라서 SSES(Similarity-guided SAM-based Exemplar Selection)라는 정밀 세공 모듈을 가동합니다. 선정된 상자 내부에서 텍스트와의 유사도가 가장 높은 상위 픽셀(Peak)들을 찾아냅니다. 이때 단순히 고정된 기준점을 사용하는 것이 아니라, 이미지 전체의 통계를 반영하는 백분위수 이완(Percentile-based relaxation) 기법을 사용하여, 아무리 흐릿한 이미지라도 상자 내부에서 가장 특징적인 픽셀 최대 16개를 유연하게 찾아냅니다. 이렇게 찾은 16개의 픽셀 좌표를 SAM 분할 모델에게 입력점(Point prompt)으로 제공합니다. SAM은 이 16개의 좌표를 중심으로 각각 16개의 정교한 윤곽선(Mask)을 생성합니다. 마지막으로 이 마스크들 중에서 가장 텍스트와의 의미적 일치도가 높으면서도 내부에 빈틈이 없는 가장 순도 높은 마스크를 최종 선택하여 첫 번째 모범 사례인 $b_{DAE}$ 로 확정합니다.

 

Step 2. 밀도 유도 모범 사례 추출 (DGE: Density-Guided Exemplar)

첫 번째 모범 사례를 확보했지만, 우연히 사진 구석에 아주 작게 찍힌 사과거나 다른 사과들에 비해 유별나게 큰 사과를 골랐을 가능성을 배제할 수 없습니다. 따라서 DGE 단계에서는 통계적으로 사진 전체의 사물 군집을 가장 잘 대표하는 두 번째 모범 사례를 발굴합니다.

 

먼저 Step 1에서 찾은 $b_{DAE}$를 밀도 추정기(Density Estimator)에 입력하여, 이 객체를 기준으로 이미지 전체를 스캔하게 합니다. 추정기는 "어디에 사과가 몇 개나 모여있는지"를 나타내는 흑백의 열화상 지도인 밀도 맵(Density map)을 생성합니다. 사과가 있는 위치의 픽셀 값은 높게, 없는 곳은 0에 가깝게 표현됩니다. 이 밀도 맵에서 값이 가파르게 솟아오른 산봉우리(Peak)들을 찾아내어, 이 좌표들을 다시 SAM에게 넘겨줍니다(Peak-to-Point prompting). SAM은 이 산봉우리들을 중심으로 수많은 후보 상자들을 새롭게 생성합니다.

 

이 후보 상자들 중 다중 객체를 포함한 상자를 쳐내기 위해 RoI(Region of Interest) 카운트 필터링을 수행합니다. 생성된 각 상자 내부의 밀도 맵 픽셀 값들을 모두 더해(적분하여) 그 상자 안에 객체가 몇 개나 있는지 임시로 계산해 봅니다. 이 값이 1에서 2 사이인 상자, 즉 객체가 하나만 존재할 확률이 높은 상자들만 다음 단계로 통과시킵니다.

 

살아남은 단일 객체 후보 상자들을 대상으로 통계적 합의를 이끌어냅니다. 각각의 후보 상자를 기준으로 이미지 전체의 총 개수를 예측해 보게 합니다. 어떤 상자를 기준으로 삼느냐에 따라 150개, 155개, 200개 등 다양한 총 카운트 결과가 도출됩니다. 모델은 이 예측값들의 분포를 커널 밀도 추정(Kernel Density Estimation, KDE) 방식을 통해 부드러운 확률 곡선으로 그리고, 가장 많은 후보들이 동의하는 예측값(최빈값)을 가상 정답(Pseudo-GT)으로 설정합니다. 단순 평균이 아닌 이 방식을 채택함으로써 터무니없는 숫자를 예측한 이상치(Outlier) 상자들의 영향을 완벽히 배제할 수 있습니다. 최종적으로 이 가상 정답에 가장 근접한 예측을 한 상자를 통계적으로 가장 신뢰할 수 있는 두 번째 모범 사례인 $b_{DGE}$ 로 채택합니다.

 

Step 3. 특징 합의 모범 사례 추출 (FCE: Feature-Consensus Exemplar)

마지막 FCE 단계는 통계적 타당성을 넘어 시각적으로 이미지 내에서 가장 흔하고 대표적인 외형을 가진 사과를 찾는 과정입니다. 조명 반사나 특이한 시점 때문에 왜곡된 객체를 걸러내기 위함입니다.

 

Step 2에서 생성되었던 단일 객체 후보 상자들을 고차원의 시각적 특징 공간(Feature Space)으로 가져갑니다. 이미지 전체를 SAM 모델의 인코더에 통과시켜 추출한 특징 맵은 해상도가 낮기 때문에, 작은 객체들의 특징이 뭉개지는 것을 방지하고자 윈도우 어텐션(Window attention) 기반의 업샘플링 기술을 적용하여 해상도를 복원합니다.

 

복원된 고해상도 특징 맵 위에 후보 상자들을 투영하여 각 상자 내부의 시각적 특징을 수치화된 벡터로 추출합니다. 객체의 크기나 밝기 차이로 인해 벡터의 스케일이 달라지는 것을 막기 위해 모든 벡터를 구 표면에 투영하는 정규화($l_2$-normalization) 과정을 거칩니다.

 

이렇게 추출된 수많은 시각적 특징 벡터들을 코사인 유사도(Cosine similarity) 기반의 군집화(Clustering) 알고리즘을 사용해 다수파 그룹(주류 외형)과 소수파 그룹(특이한 외형이나 배경 노이즈)으로 나눕니다. 모델은 소수파 그룹을 과감히 버리고, 다수파 그룹 중에서도 평균적인 특징(Centroid)에 가장 가까운 상자를 세 번째 모범 사례인 $b_{FCE}$ 로 선정합니다.

 

최종적으로, 의미 중심의 $b_{DAE}$, 통계 중심의 $b_{DGE}$, 외형 중심의 $b_{FCE}$ 라는 각기 다른 관점과 장점을 가진 3개의 기준 객체가 하나의 모범 사례 세트로 묶입니다. 이 세트가 최종 밀도 추정기에 다중 모범 사례로 제공되어 이미지 전체의 최종 사물 개수를 가장 정확하게 산출해 내게 됩니다.

 

6. 작동 원리: 어떻게 학습하는가? (The "How")

CountZES 논문이 강조하는 가장 중요한 특징 중 하나는 이 프레임워크 자체가 학습 불필요(Training-free) 및 추론 전용(Inference-only) 구조로 설계되었다는 점입니다. 즉, CountZES라는 융합 파이프라인을 구축하기 위해 가중치를 갱신하거나 손실 함수를 최소화하는 별도의 학습 과정이나 추가적인 훈련 데이터셋이 일절 요구되지 않습니다.

 

그러나 이 파이프라인이 구동되기 위해서는 각 단계에서 활용되는 베이스라인 모델들의 역할이 필수적입니다. 특히, 파이프라인의 최종 단계에서 추출된 3개의 모범 사례를 바탕으로 실제 이미지 전반에 걸친 객체의 개수를 세는 밀도 추정기(Density Estimator)는 사전 학습된 기성 모델을 그대로 차용합니다. 논문에서는 CountZES의 유연성을 증명하기 위해 CounTR과 DSALVANet이라는 기존의 퓨샷 카운팅 모델들을 추정기로 활용했습니다. 따라서 이 밀도 추정기들이 과거에 어떠한 데이터 구조를 통해 학습되었는지 그 원리를 이해하는 것은 제로샷 카운팅의 기반을 파악하는 데 매우 중요합니다.

 

일반적인 객체 카운팅 모델, 특히 밀도 추정기를 훈련시키기 위해서는 다음과 같은 구체적인 형식의 데이터가 요구됩니다.

  • 입력 데이터 (Input Data): 학습을 위한 입력 데이터는 고해상도의 2D 이미지 원본과 해당 이미지가 어떤 카테고리의 사물을 담고 있는지 명시하는 텍스트 라벨, 혹은 모델에 제공될 소수의 예시 이미지(Exemplar patches)로 구성됩니다. 예를 들어, 하늘에서 내려다본 거대한 주차장 이미지 1장과 "차량(Cars)"이라는 클래스 명칭, 또는 이미지 내의 특정 차량을 크롭한 작은 이미지 조각들이 입력으로 제공됩니다.
  • 출력 데이터 및 정답 데이터 포맷 (Output & Ground Truth Data): 분류나 객체 탐지 모델이 사물의 이름이나 경계 상자 좌표를 출력하는 것과 달리, 카운팅 모델은 밀도 맵(Density Map)이라는 독특한 형태의 2D 이미지를 출력하도록 훈련됩니다. 이를 위해 연구자들은 막대한 수작업을 통해 정답 데이터를 구축해야 합니다. 이미지 내에 존재하는 모든 타겟 객체의 정중앙 픽셀 위치에 사람이 일일이 점(Dot annotation)을 찍어 좌표 리스트를 생성합니다. 예를 들어 1,000대의 차량이 있다면 1,000개의 $(x, y)$ 좌표가 생성됩니다. 이후 이 이산적인 점 데이터에 가우시안 커널(Gaussian kernel)을 적용하여 연속적인 열화상 형태의 흑백 이미지인 실제 밀도 맵 정답지(Ground Truth Density Map)를 합성합니다. 사물이 밀집된 곳은 픽셀 값이 높게, 사물이 없는 배경은 픽셀 값이 0으로 표현됩니다. 모델은 자신이 예측한 밀도 맵과 사람이 만든 정답 밀도 맵 사이의 픽셀 단위 오차를 줄이는 방향으로 학습을 진행하며, 추론 시에는 출력된 밀도 맵의 모든 픽셀 값을 적분(합산)하여 최종 개수를 정수로 도출합니다.

CountZES는 위와 같은 막대한 수작업 기반의 정답 데이터 구축과 고된 모델 학습 과정을 사용자에게 전가하지 않습니다. 대신 "이미 다른 목적이나 범용 목적으로 방대하게 학습되어 공개된 거대 모델들을 추론 시점에 어떻게 최적으로 엮어 제로샷이라는 까다로운 제약 조건을 우회할 것인가"에 집중한 고도화된 엔지니어링 조합의 정수라고 할 수 있습니다.

 

7. 결과: 얼마나 좋아졌나? (Results)

CountZES는 파이프라인 자체를 전혀 학습시키지 않은 추론 전용 모델임에도 불구하고, 텍스트와 이미지 데이터셋을 활용해 제로샷 카운팅 목적에 맞게 신경망을 집중적으로 미세 조정(Fine-tuning)한 최신 ZOC 전용 모델들을 다수 압도하는 탁월한 성과를 증명했습니다. 카운팅 분야에서 성능을 평가하는 가장 직관적이고 보편적인 지표는 실제 개수와 모델의 예측 개수 간의 평균 절대 오차를 나타내는 MAE(Mean Absolute Error, 낮을수록 우수)와 극단적인 예측 실패(이상치)에 대한 모델의 강건성을 페널티를 주어 평가하는 RMSE(Root Mean Square Error, 낮을수록 우수)입니다.

 

대표적인 성능 지표 (자연 환경 이미지: FSC-147 데이터셋)

모델명 (발표 연도) 모델 특성 (ZOC 특화 학습 여부) MAE (오차율) RMSE (강건성)
ZSOC (2023) 패치 생성 및 학습 적용 22.09 115.17
VA-Count (2024) 탐지기 기반 모범 사례 + 학습 적용 17.88 129.31
T2ICount (2025) 확산 모델 지식 증류 + 학습 적용 11.76 97.86
TFOC (2024) 학습 안 함 (추론 전용 기반) 24.79 137.15
OmniCount (2025) 학습 안 함 (추론 전용 기반) 21.09 110.14
CountZES (Ours) 학습 안 함 (추론 전용 기반) 15.77 91.40

 

위의 표에서 확인할 수 있듯이, CountZES는 기존의 추론 전용 모델들(TFOC, OmniCount)이 기록한 오차를 큰 폭으로 경신하며 동급 모델 중 독보적인 1위를 차지했습니다. 나아가 모범 사례 선택 기법을 사용하되 추가적인 신경망 학습을 진행한 VA-Count와 비교했을 때도 평균 오차(MAE)를 약 11.8%, 극단적 오차(RMSE)를 무려 29.3%나 낮추는 압도적인 안정성을 달성했습니다.

 

도메인 한계의 완벽한 극복 (Cross-Domain Generalization)

CountZES가 가진 진정한 기술적 우위는 데이터의 도메인이 극단적으로 변하는 환경(Cross-Domain)에서 확연하게 드러납니다. 특정 데이터셋에 맞게 학습된 모델들은 훈련 데이터와 유사한 이미지(예: FSC-147의 일상 사물)에서는 높은 성능을 보이지만, 드론으로 수직 촬영한 주차장 차량 밀집 사진(CARPK 데이터셋)이나 현미경으로 들여다본 세포 배양 사진(VGG, MBM 데이터셋)이 입력되면 오차가 폭발적으로 증가하는 과적합(Overfitting)의 한계를 보입니다. 예를 들어, FSC-147 데이터셋에 최적화된 T2ICount 모델은 의료 세포 이미지(MBM)에서 MAE 104.52라는 큰 오차를 기록하며 무너졌습니다. 그러나 훈련 데이터의 편향성에 구애받지 않고 입력된 이미지 내부에서 스스로 의미론적, 통계적 단서를 찾아 기준을 세우는 CountZES는 동일한 세포 이미지에서 MAE 22.16을 기록하며, 도메인 전이에 대한 탁월한 저항력과 일반화 능력을 뽐냈습니다.

 

속도와 효율성의 최적 균형

모델의 아키텍처가 3단계 모듈로 복잡하게 구성되어 있어 연산 부하가 우려될 수 있으나, 시스템은 모듈 간의 유기적 데이터 전달을 통해 높은 효율성을 달성했습니다. CountZES는 이미지 한 장에 존재하는 전체 객체의 수를 추론하는 데 평균 2.3초를 소요합니다. 이는 단순한 분할 모델의 한계로 인해 5.26초 이상 지연되는 TFCAC 등의 여타 추론 전용 모델들과 비교할 때, 정확도를 비약적으로 끌어올리면서도 연산 비용을 통제한 최적의 효율성(Trade-off)을 보여줍니다.

 

한계점 및 실패 케이스 분석 (Limitations)

물론 CountZES의 파이프라인이 모든 상황에서 완벽한 것은 아닙니다. 가장 두드러지는 실패 케이스는 파이프라인에서 객체의 윤곽선을 추출하는 도구로 사용되는 SAM 모델의 태생적 한계, 즉 상식이나 의미를 맥락적으로 이해하는 인지 능력의 부재에서 기인합니다.

  • 부분적 분할(Partial Mask) 오류: "손목시계(Watches)"를 세어달라는 텍스트 프롬프트를 처리할 때, SAM 모델은 시곗줄과 시계의 다이얼이 결합하여 하나의 통합된 사물을 이룬다는 개념을 이해하지 못합니다. 그 결과, 시계의 둥근 다이얼 부분만 동그랗게 잘라내어 불완전한 모범 사례를 생성하는 오류가 보고되었습니다.
  • 본질적 특징 누락: 계란 후라이 이미지에서 흰자를 무시하고 노른자 영역만 고립시키거나, 소스 병 이미지에서 병의 전체 형태 대신 상표가 붙은 라벨 영역만을 윤곽선으로 추출하는 실패 케이스가 확인되었습니다. 비록 CountZES가 여러 후보군 중 최적의 마스크를 고르는 스코어링 메커니즘을 갖추고 있어 이러한 오류를 상당 부분 상쇄하지만, 원천적으로 생성된 마스크 후보군 전체가 불완전할 경우 이 노이즈가 최종 밀도 추정 단계로 전파되어 카운팅 오차를 유발하는 한계를 보였습니다.

 

8. 이 논문의 계보와 발전 (Impact & Follow-ups)

제로샷 객체 카운팅(ZOC)은 2023년 ZSOC 논문을 기점으로 태동하여, 2024년을 거쳐 2025~2026년에 이르러 컴퓨터 비전 학계에서 가장 치열하게 연구되고 있는 분야 중 하나로 폭발적인 성장을 이루었습니다. CountZES 전후로 발표된 핵심 후속 연구 및 발전 트렌드를 살펴보면 이 분야의 기술적 진보 방향을 명확히 이해할 수 있습니다. 다음은 제로샷 카운팅의 최전선을 보여주는 대표적인 최신 문헌들입니다.

  • T2ICount (CVPR 2025): CountZES가 탐지기(Detection)와 분할 모델(Segmentation)의 정교한 융합 및 모범 사례 선별에 연구의 방점을 찍었다면, 동시기에 발표된 T2ICount는 시각-언어 모델의 트렌드인 텍스트-이미지 생성 확산 모델(Text-to-Image Diffusion Model)의 내재된 지식을 카운팅에 활용하는 방향으로 진화했습니다. 이 연구는 기존 모델들이 텍스트 프롬프트에 둔감하게 반응하는 문제(Text insensitivity challenge)를 해결하기 위해, 확산 모델이 이미지를 생성할 때 노이즈를 제거하는 단일 단계(Single denoising step)에서 발생하는 풍부한 교차 모달 지식을 추출합니다. 이를 HSCM(Hierarchical Semantic Correction Module)에 통과시켜 카운팅을 수행하는 구조로, 모범 사례 추출을 건너뛰고 텍스트에서 밀도 맵으로 직접 직행하는 패러다임을 제시한 2025년 최고의 경쟁 모델입니다.
  • CountSE (ICCV 2025): CountZES가 단일 객체가 완벽하게 들어맞는 엄격한 경계 상자(Hard Exemplar) 3개를 추출하여 밀도를 추정하는 방식을 채택했다면, CountSE는 이와 정반대의 발상을 통해 돌파구를 마련했습니다. 즉, 하나의 명확한 경계선을 찾는 대신 다중 스케일의 부드러운 모범 사례(Soft Exemplar)를 활용하는 방식입니다. 사물의 크기가 화면의 원근이나 밀집도에 따라 제각각 변한다는 점에 착안하여, 의미론적으로 유도된 다앙한 크기의 가상 기준점(후보 소프트 모범 사례)들을 생성합니다. 이후 클러스터링 기반의 필터링을 통해 잘못된 크기나 노이즈가 낀 소프트 모범 사례들을 배제함으로써 효율성과 성능을 동시에 끌어올린 혁신적인 구조를 선보였습니다.
  • CountingDINO (WACV 2026): 시각적 특징 추출기부터 밀도 맵 생성까지 파이프라인의 모든 요소를 완전 비지도 학습 백본(Unsupervised backbones)으로 교체하여 라벨링 데이터의 개입을 원천 차단한 모델입니다. 하지만 이 모델은 텍스트 프롬프트만으로 작동하는 완벽한 자동화(Zero-shot)를 달성하지는 못했으며, 객체를 찾기 위해 여전히 사용자의 수동 박스 지정(Box prompt)이 필요합니다. 따라서, 인간의 시각적 개입을 완전히 배제하고 텍스트만으로 모든 것을 해결한 CountZES와, 시각적 개입은 받되 데이터 학습 과정 자체를 혁신한 CountingDINO를 비교해 보는 것은 최신 비전 연구의 흥미로운 관전 포인트입니다.

 

9. 마무리

지금까지 심층적으로 리뷰한 CountZES 논문은, 인공지능이 끝없이 쏟아지는 수작업 라벨링 데이터의 굴레에서 벗어나 이미 축적된 범용적인 지능을 재조립하여 새로운 문제를 해결해 나가는 과정에서 나타난 눈부신 엔지니어링의 승리를 보여줍니다. 불과 몇 년 전까지만 해도 컴퓨터 비전 학계에는 새로운 태스크를 풀기 위해서는 그 목적에 부합하는 새로운 데이터를 막대하게 구축하고, 딥러닝 아키텍처의 가중치를 바닥부터 다시 설계해야 한다는 강박 관념이 지배적이었습니다.

 

하지만 본 연구는 거대 파운데이션 모델의 시대에 접어들며 기술의 패러다임이 완전히 바뀌고 있음을 방증합니다. 그 자체로는 군중의 숫자를 세지 못하는 탐지 모델(Grounding DINO), 이미지 분할 모델(SAM), 텍스트-이미지 유사도 모델(CLIP)일지라도, 이들의 장단점을 정확히 파악하여 서로의 약점을 교차 보완하도록 똑똑한 논리적 파이프라인으로 엮어주기만 하면, 별도의 막대한 학습 비용을 지불하지 않고도 최첨단의 카운팅 성능을 도출할 수 있다는 것을 명백하게 증명했기 때문입니다.

 

실무 적용 시 유의점 (Practical Insights)

이처럼 유연하고 강력한 CountZES를 현업 응용 시스템에 즉시 도입하고자 할 때는 몇 가지 현실적인 제약 사항들을 신중하게 고려해야 합니다.

  1. 추론 속도와 하드웨어 인프라: 이미지 1장당 2.3초라는 처리 속도는 고정된 항공 사진, 드론을 활용한 농작물 작황 분석, 현미경 세포 검사 등 실시간성이 크게 요구되지 않는 여유로운 분석 환경에서는 혁신적인 수치입니다. 그러나 초당 30프레임(30 FPS) 이상을 지속적으로 처리해야 하는 실시간 CCTV 군중 밀집도 파악이나, 1밀리초의 지연도 허용되지 않는 자율주행 회피 시스템에 이 파이프라인을 병목 없이 곧바로 적용하기에는 무리가 따릅니다.
  2. 연산 메모리 제약: 파이프라인이 작동하기 위해서는 Grounding DINO, CLIP, SAM, 그리고 밀도 추정기(CounTR 또는 DSALVANet)라는 무거운 파운데이션 모델들이 GPU 메모리 상에 동시에 적재되거나 빠르게 교대되어야 합니다. 따라서 메모리 용량이 제한된 엣지(Edge) 디바이스 환경보다는 고용량 VRAM이 확보된 클라우드 GPU 서버 환경이 필수적으로 요구됩니다.
  3. 프롬프트 엔지니어링의 민감도: 모델의 첫 단추가 오직 사용자의 텍스트 입력("Apples")에 의존하는 제로샷 기반이므로, 모호한 카테고리 명칭이나 복잡하고 긴 지시어에 대해 탐지 모델이 얼마나 정확하게 반응하는지가 전체 성능을 크게 좌우할 수 있습니다. 실무 도입 시에는 해당 도메인에 맞는 최적의 프롬프트 템플릿을 발굴하는 사전 작업이 수반되어야 합니다.

 

앞으로의 발전 방향

본문에서도 언급된 바와 같이 손목시계의 알만 자르거나 계란의 노른자만 자르는 실패 현상은, 객체의 윤곽을 따내는 SAM 백본 자체에 상식과 맥락을 기반으로 의미를 이해하는 뇌(Semantic Awareness)가 빠져 있기 때문에 발생합니다. 최근 학계에서는 이러한 분할 모델의 맹점을 보완하기 위해 시각과 언어를 깊은 수준에서 통합 이해하는 대형 시각-언어 모델(Large Vision-Language Models, LVLM)에 관한 연구가 폭발적으로 진행되고 있습니다. 향후 "손목시계의 줄과 알은 분리될 수 없는 하나의 객체다"라는 상식적인 의미론적 지식을 파이프라인 내부의 분할 모델에 직접적으로 주입할 수 있게 된다면, CountZES의 파이프라인은 파편화 오류를 스스로 교정하는 진정한 의미의 완전체로 거듭날 것입니다.

 

결론적으로 CountZES 프레임워크는 라벨링 데이터 가뭄에 시달리는 수많은 도메인 산업 현장(스마트 농업, 생물학 실험 자동화, 위성 영상 분석 등)에 막대한 초기 구축 비용 없이 곧바로 투입할 수 있는 강력하고 유연한 무기를 쥐여 주었습니다. 인공지능이 개발자가 일일이 점을 찍어 가르쳐준 것만 수동적으로 세던 시대를 지나, 스스로 논리적 기준을 찾고 세상을 능동적으로 관찰하는 시대로 접어들었음을 알리는 중요한 이정표가 될 것입니다.

 

반응형