본문 바로가기

딥러닝

E2EC: An End-to-End Contour-based Method for High-Quality High-Speed Instance Segmentation - 수동 초기화를 버린 인공지능은 어떻게 객체의 윤곽선을 스스로 정밀하게 추적하는가

반응형


일러두기 (Disclaimer)

본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.

 

 

논문 링크 : https://arxiv.org/abs/2203.04074

 

E2EC: An End-to-End Contour-based Method for High-Quality High-Speed Instance Segmentation

Contour-based instance segmentation methods have developed rapidly recently but feature rough and hand-crafted front-end contour initialization, which restricts the model performance, and an empirical and fixed backend predicted-label vertex pairing, which

arxiv.org

 

 

초록 (Abstract)

윤곽선(Contour) 기반 인스턴스 분할(Instance segmentation) 방법은 최근 빠르게 발전해 왔지만, 모델 성능을 제한하는 거칠고 수동으로 제작된(Hand-crafted) 프런트엔드 윤곽선 초기화와 학습 난이도를 높이는 경험적이고 고정된 백엔드 예측-레이블 정점 페어링(Vertex pairing)이라는 특징을 가지고 있습니다. 본 논문에서는 고품질 인스턴스 분할을 위한 E2EC라는 새로운 윤곽선 기반 방법을 소개합니다.

첫째, E2EC는 수동 윤곽선 초기화 대신 새로운 학습 가능한 윤곽선 초기화 아키텍처를 적용합니다. 이는 더욱 명확한 학습 목표를 구성하기 위한 윤곽선 초기화 모듈과 모든 정점의 특징을 더 잘 활용하기 위한 전역 윤곽선 변형(Global contour deformation) 모듈로 구성됩니다. 둘째, 학습 난이도를 줄이기 위해 다방향 정렬(Multi-direction alignment)이라는 새로운 레이블 샘플링 방식을 제안합니다. 셋째, 경계 세부 사항의 품질을 개선하기 위해 가장 적절한 예측값-실제값(Predicted-ground truth) 정점 쌍을 동적으로 매칭하고, 이에 상응하는 동적 매칭 손실(Dynamic matching loss)이라는 손실 함수를 제안합니다.

실험을 통해 E2EC가 KITTI 인스턴스(KINS) 데이터셋, 의미론적 경계 데이터셋(SBD), Cityscapes 및 COCO 데이터셋에서 최고 수준(State-of-the-art)의 성능을 달성할 수 있음을 보여주었습니다. E2EC는 또한 NVIDIA A6000 GPU에서 512×512 이미지에 대해 36fps의 추론 속도를 기록하여 실시간 애플리케이션에 사용하기에 효율적입니다. 코드는 https://github.com/zhang-tao-whu/e2ec 에 공개될 예정입니다.

 

1. 한줄 요약 & 3줄 핵심 (Executive Summary)

수동으로 기하학적 도형을 설정하던 기존의 윤곽선 추출 방식에서 벗어나, 신경망이 객체의 초기 윤곽선 형태와 정점 간의 유연한 매칭을 스스로 학습하도록 설계하여 추론 속도와 경계선 정확도를 동시에 극대화한 실시간 인스턴스 분할 모델입니다. 

  1. 기존의 문제점 (Pain point): 기존 윤곽선 기반 모델들은 사람이 임의로 설정한 도형(예: 팔각형)에서 변형을 시작하여 복잡한 객체에서 변형 경로가 꼬이는 문제가 있었으며, 정점과 정답을 매칭할 때 고정된 순서를 강제하여 경계선이 뭉개지거나 학습 난이도가 상승하는 치명적인 단점이 존재했습니다.
  2. 이 논문의 해결책 (Solution): 객체의 중심점 정보만을 이용해 초기 윤곽선 자체를 신경망이 예측하도록 만드는 학습 가능한 초기화 아키텍처를 도입하고, 전체 정점의 특징을 종합적으로 판단하는 전역 변형 모듈과, 가장 가까운 정답 위치를 유연하게 찾아가는 동적 매칭 손실(Dynamic Matching Loss)을 제안했습니다.
  3. 달성한 성과 (Key Result): SBD, KINS, Cityscapes, COCO 등 주요 벤치마크에서 기존 기술 대비 향상된 SOTA 성능을 달성했으며, 특히 테두리 세부 묘사 능력을 측정하는 경계선 정확도를 대폭 끌어올림과 동시에 36~59 FPS 수준의 실시간 처리 속도를 확보했습니다.

 

2. 들어가며: 왜 이 연구가 필요했나? (The "Why")

컴퓨터 비전 분야에서 인스턴스 분할(Instance Segmentation)은 이미지 내에 존재하는 개별 객체의 위치를 찾아내는 것을 넘어, 각 객체가 차지하는 정확한 픽셀 단위의 형태를 분리해 내는 고난도의 시각적 이해 작업입니다. 자율주행 차량이 복잡한 도심 환경에서 보행자와 주변 차량의 정확한 형태를 파악하여 충돌을 회피하거나, 로봇 팔이 다양한 형태의 산업용 부품을 정밀하게 집어 올리기 위해서는 객체의 대략적인 위치를 나타내는 사각형 박스(Bounding Box)만으로는 부족하며 정교한 외곽선 정보가 필수적입니다. 이러한 실무적 요구에 부응하기 위해 오랜 기간 동안 수많은 인스턴스 분할 모델들이 연구되어 왔으며, 이들은 크게 마스크 기반 방식과 윤곽선 기반 방식이라는 두 가지 패러다임으로 발전해 왔습니다.

 

초기 연구를 주도한 것은 마스크 기반 분할 방법(Mask-based instance segmentation methods)입니다. 대표적으로 Mask R-CNN이나 PANet과 같은 고전적인 2단계(Two-stage) 파이프라인 모델들이 존재합니다. 이 모델들은 먼저 이미지 내에서 객체가 존재할 만한 관심 영역(Region of Interest)을 사각형 형태로 추출한 뒤, 해당 사각형 내부의 모든 픽셀에 대해 객체인지 배경인지를 이진 분류(Binary classification)하는 방식을 채택했습니다. 이 방식은 픽셀 단위로 조밀하게 연산을 수행하기 때문에 분할의 정확도는 높게 나타납니다. 하지만 연산량이 기하급수적으로 증가하여 추론 속도가 현저히 느려진다는 구조적인 한계를 내포하고 있었습니다.

 

이후 연산 속도를 개선하기 위해 객체 탐지(Object Detection) 분야의 발전에 힘입어 YOLACT, BlendMask, CenterMask와 같은 1단계(One-stage) 마스크 기반 모델들이 등장했습니다. 이들은 영역 추출과 픽셀 분류를 동시에 수행하여 속도를 다소 끌어올렸으나, 여전히 이미지의 공간 해상도에 비례하여 방대한 양의 연산 메모리를 요구했습니다. 더욱이, 연산량을 줄이기 위해 특징 맵(Feature map)의 해상도를 축소하여 분할을 수행하다 보니, 객체의 경계선 부분이 흐릿해지거나 세밀한 형태를 잃어버리는 품질 저하 현상이 빈번하게 발생했습니다.

 

이러한 마스크 기반 방식의 한계를 극복하기 위한 대안으로 윤곽선 기반 분할 방법(Contour-based instance segmentation methods)이 학계의 주목을 받기 시작했습니다. 픽셀 영역 전체를 연산하는 대신, 객체의 테두리를 따라 연속적인 점(Vertex)들을 찍고 이 점들을 연결하여 다각형(Polygon) 형태로 외곽선을 구성하는 방식입니다. 예를 들어, 128개의 정점만으로도 대부분의 객체 형태를 충분히 묘사할 수 있습니다. 면을 선으로 대체함으로써 계산 복잡도가 급격히 감소하였고, 복잡한 후처리 과정 없이도 경계선 좌표를 즉시 획득할 수 있어 실시간 추론에 매우 적합한 특성을 보였습니다. Curve GCN, Deep Snake, PolarMask 등이 이러한 흐름을 이끈 대표적인 모델들입니다.

 

하지만 윤곽선 기반 방식 역시 완벽하지 않았으며, 연구자들은 실제 적용 과정에서 세 가지 치명적인 문제점에 직면하게 되었습니다.

 

첫 번째 문제점은 거친 수동 초기화(Hand-crafted contour initialization)로 인한 변형 경로의 교차 현상입니다. 기존의 다단계 윤곽선 모델들은 객체를 감싸는 사각형 경계 상자를 찾은 후, 그 상자를 기준으로 타원이나 팔각형과 같은 인위적인 다각형을 먼저 생성했습니다. 그런 다음 이 다각형의 정점들을 이동시켜 실제 객체의 윤곽선에 맞추는 방식을 취했습니다. 만약 객체의 형태가 둥글거나 사각형에 가깝다면 문제가 적지만, 사람의 팔다리나 자전거, 별 모양처럼 길쭉하거나 굴곡이 심한 객체라면 문제가 발생합니다. 초기 팔각형의 정점들이 정답 위치로 이동하는 과정에서 서로의 경로가 엇갈리거나 꼬이는 비합리적인 변형 경로(Unreasonable deformation paths)가 형성되는 것입니다. 이는 신경망의 학습 방향을 혼란스럽게 만들고 최적화 난이도를 극도로 높이는 원인이 되었습니다.

 

두 번째 문제점은 정보 활용의 국소성(Local information limitation)입니다. 1단계 윤곽선 모델인 PolarMask나 LSNet은 객체의 중심점에 위치한 극히 제한적인 특징(Feature) 정보만을 바탕으로 모든 윤곽선 좌표를 한 번에 회귀(Regression)하려다 보니 경계선의 미세한 굴곡을 표현하는 데 한계를 보였습니다. 반면 다단계 모델인 Deep Snake 등은 원형 합성곱(Circular convolution)을 사용하여 각 정점을 다듬었습니다. 이 방식은 특정 정점을 이동시킬 때 바로 인접한 몇 개의 정점 정보만을 참고하는 국소적 집계 메커니즘이었습니다. 코끼리의 형체를 파악할 때 전체적인 윤곽을 보지 못하고 더듬어가며 모양을 추측하는 것과 같아서, 초기 예측에서 큰 오차가 발생했을 때 이를 효과적으로 교정하지 못했습니다. 전체적인 맥락을 파악하기 위해 국소 연산을 비효율적으로 여러 번 반복해야만 했습니다.

 

세 번째 문제점은 고정된 정점 짝짓기(Fixed vertex pairing)의 비효율성입니다. 신경망을 학습시키기 위해서는 모델이 예측한 정점의 위치와 사람이 라벨링한 정답 정점 간의 거리(Loss)를 계산하여 이를 최소화해야 합니다. 기존 방식들은 모델의 1번 정점은 반드시 정답의 1번 정점과 비교하고, 2번 정점은 2번 정점과 비교하는 식의 고정된 인덱스 페어링을 사용했습니다. 이로 인해 모델이 예측한 정점이 이미 정답 윤곽선 위의 다른 위치에 완벽하게 안착해 있더라도, 자신에게 할당된 인덱스의 정답 위치와 멀다는 이유로 막대한 페널티(Loss)를 부여받았습니다. 이 불합리한 규제는 모델이 뾰족한 모서리나 급격한 곡률을 표현하는 것을 방해하고, 결과적으로 경계선이 뭉툭하고 과도하게 부드러워지는(Over-smoothing) 현상을 초래했습니다.

 

연구자들은 이러한 기존 윤곽선 모델들의 태생적 한계에 깊이 공감했습니다. 사람이 편의상 지정해 준 초기 도형의 형태, 인접한 점들만 바라보는 좁은 시야, 그리고 강압적인 정점 짝짓기 규칙이 오히려 인공지능의 성능을 제한하고 있다는 결론에 도달했습니다. "만약 네트워크가 중심점의 특징을 보고 스스로 가장 최적화된 초기 윤곽선을 그려내고, 전체 정점의 상태를 한눈에 파악하여 전역적으로 형태를 조율하며, 가장 가까운 정답 위치를 스스로 찾아가도록 유연함을 부여한다면 어떨까?"라는 질문이 바로 E2EC(End-to-End Contour-based Method) 연구의 출발점이 되었습니다.

 

3. 이 논문의 뿌리 (Key Reference)

E2EC 모델은 컴퓨터 비전 분야에서 중요한 이정표가 되었던 여러 선행 연구들의 성과를 비판적으로 계승하고 조합하여 탄생했습니다. 이 논문이 완성되기까지 가장 큰 영감을 주었거나 직접적인 비교 대상이 된 핵심 논문들과의 관계를 살펴보면 E2EC의 학문적 위치를 명확히 이해할 수 있습니다.

  • Mask R-CNN (2017) 및 PANet (2018): 이 논문들은 E2EC가 극복하고자 했던 기존의 강력한 기준점(Baseline)입니다. 관심 영역 추출 후 픽셀 단위로 분할을 수행하는 마스크 기반의 접근법을 정립하여, 딥러닝 기반 인스턴스 분할의 표준을 제시했습니다. E2EC는 이 논문들의 압도적인 정확도를 인정하면서도 연산 효율성 측면에서의 치명적인 속도 저하를 지적합니다. E2EC는 이들의 픽셀 단위 예측 패러다임에서 벗어나 윤곽선 정점 예측이라는 가벼운 회귀 작업으로 전환해야 할 필요성을 학계에 역설하는 논리적 기반으로 이 논문들을 인용했습니다.
  • Deep Snake (2020): E2EC의 구조적 뼈대를 제공함과 동시에 가장 직접적으로 비판하고 개선한 대상입니다. Deep Snake는 객체 탐지기로 찾은 경계 상자를 바탕으로 초기 팔각형을 생성하고, 이를 능동 윤곽선 모델(Active contour model)의 개념을 빌려와 신경망을 통해 반복적으로 변형시키는 혁신적인 방식을 제안했습니다. E2EC는 Deep Snake가 보여준 점진적 외곽선 미세 조정이라는 파이프라인의 우수성은 적극적으로 차용했습니다. 그러나 Deep Snake의 핵심이었던 수작업 기반의 팔각형 초기화와, 인접한 정점 정보만을 교환하는 원형 합성곱(Circular Convolution)의 한계를 극복하기 위해 아키텍처의 전반부를 완전히 새롭게 재설계했습니다.
  • Dense RepPoints (2020): E2EC의 가장 창의적인 부분인 학습 가능한 윤곽선 초기화(Learnable contour initialization) 개념에 결정적인 영감을 준 논문입니다. Dense RepPoints는 객체를 묘사할 때 경계 상자가 아닌, 중심점에서부터의 오프셋(Offset) 벡터를 예측하여 점들의 집합(Point sets)으로 객체를 표현했습니다. 다만 이 점들은 순서가 없는 무질서한 형태였기 때문에 윤곽선으로 변환하기 위해 복잡한 후처리가 필요했습니다. E2EC는 이 논문의 오프셋 회귀 아이디어를 빌려오되, 객체의 중심점 특징만을 바탕으로 순서가 있는 정렬된 윤곽선 정점들을 직접 예측하도록 개선했습니다. 이로써 후처리 없이도 실제 객체 모양에 가까운 윤곽선을 네트워크가 스스로 초기화할 수 있게 되었습니다.
  • PolarMask (2020) 및 LSNet (2021): 이 논문들은 객체의 중심점에서 방사형으로 뻗어 나가는 광선(Ray)의 길이를 예측하여 다각형을 구성하는 방식을 제안했습니다. 매우 빠르다는 장점이 있지만, 객체의 형태가 오목하거나 복잡할 경우 방사형 광선이 외곽선을 제대로 포착하지 못하는 구조적 결함이 있었습니다. E2EC는 이들의 한계를 분석하여 다방향 정렬(Multi-direction alignment, MDA)이라는 개념을 확립했습니다. E2EC의 관점에서 보면 PolarMask는 정렬해야 할 기준점(Anchor)의 수와 총 정점의 수가 동일한 극단적인 샘플링 케이스이며, LSNet은 기준점이 0개인 반대의 케이스로 해석됩니다. E2EC는 이 두 연구 사이의 최적의 균형점을 찾아 학습 난이도와 성능의 상한선을 동시에 만족시키는 해법을 도출해 냈습니다.

 

4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)

E2EC가 이전의 윤곽선 기반 분할 모델들과 확연히 구분되는 혁신성은 복잡한 알고리즘 이전에 직관적인 발상의 전환 세 가지에서 출발합니다.

 

첫 번째 전환: 고정된 기하학 도형 ➔ 학습하는 초기 윤곽선

이전의 접근법은 "모든 객체는 일단 네모 상자나 팔각형으로 감싸놓고 시작한다"는 고정관념에 갇혀 있었습니다. 비유하자면, 사람의 형태를 조각할 때 무조건 직육면체의 돌덩이에서부터 깎아 내려가는 것과 같습니다. 이는 길쭉한 팔이나 튀어나온 머리 부분을 묘사하기 위해 너무 많은 변형을 요구하며, 불필요한 경로 교차를 유발합니다. E2EC는 중심점 특징(Center point features) 하나만을 보고 "이 객체는 대략 이런 형태의 오프셋을 가질 것이다"라고 예측하여 초기 윤곽선을 구성합니다. 조각의 시작을 찰흙을 덧붙여 사람의 뼈대 형태와 유사하게 만들어 놓고 세부 묘사를 시작하는 발상의 전환을 통해, 변형 경로를 최적화하고 학습 과정의 혼란을 근본적으로 차단했습니다.

 

두 번째 전환: 국소적인 시야 ➔ 전역적인 시야 (Global Deformation)

이전의 모델들이 사용한 원형 합성곱은 정점을 이동시킬 때 자신의 왼쪽과 오른쪽에 있는 몇 개의 이웃 점들 정보만 참조했습니다. 이는 마치 여러 사람이 안대를 쓰고 코끼리의 일부분만 만져보며 코끼리의 전체 형태를 빚어내려는 것과 같습니다. 한 부분에서 큰 오차가 발생하면 전체적인 맥락을 모르기 때문에 수정하기 어렵습니다. E2EC는 128개의 모든 정점 특징과 중심점 특징을 하나의 긴 벡터로 결합(Concatenation)한 후, 다층 퍼셉트론(MLP)이라는 네트워크 구조에 통과시킵니다. MLP는 이웃의 말만 듣는 것이 아니라 전체 정점의 분포와 상태를 한눈에 내려다보고 각각의 정점이 어느 방향으로 이동해야 할지 지휘합니다. 이러한 전역적 윤곽선 변형(Global contour deformation) 메커니즘 덕분에 형태가 크게 어긋난 부분도 단숨에 제자리로 교정할 수 있게 되었습니다.

 

세 번째 전환: 고정된 짝짓기 ➔ 유연한 짝짓기 (Dynamic Matching Loss)

학습 시 예측한 점과 정답 라벨 점 사이의 오차(Loss)를 계산할 때, 기존에는 '예측 인덱스 $i$'와 '정답 인덱스 $i$'를 무조건 1대1로 짝지었습니다. 만약 예측한 점이 정답의 테두리 위를 미끄러지듯 이동하여 완벽하게 경계선에 위치해 있더라도, 하필 그 위치가 인덱스 $i$의 위치가 아니라면 신경망은 오답으로 간주하여 강제로 원래 위치로 끌고 갔습니다. E2EC는 동적 매칭 손실(DML)을 통해 이 억지스러운 규칙을 깼습니다. 예측한 점이 정답 윤곽선 위 어느 곳이든 가장 가까운 위치에 도달했다면 이를 정답으로 인정해 주는 관용을 베풉니다. 이와 동시에 정답 윤곽선 중에서 특히 형태를 결정짓는 중요한 꺾임점(Key vertices)들은 자신과 가장 가까이 있는 예측 점을 향해 자석처럼 강한 인력을 발생시켜 끌어당기도록 설계했습니다. 예측 점들이 고정된 위치를 고집할 필요 없이 춤을 추듯 가장 적절한 위치로 능동적으로 정렬됨으로써, 자전거의 얇은 뼈대나 사람의 손가락 같은 복잡한 곡률과 날카로운 모서리를 기가 막히게 표현해 냅니다.

 

5. 작동 원리: 어떻게 돌아가는가? (The "How")

이제 E2EC 네트워크에 이미지가 입력되어 최종 윤곽선이 도출되기까지 데이터가 어떻게 흘러가는지(Flow) 전체 아키텍처의 처리 과정을 단계별로 살펴보겠습니다. 복잡한 수식 증명은 제외하고 직관적인 메커니즘을 중심으로 설명합니다.

  1. 객체의 중심점 검출 (Center Detection): 모델은 이미지를 입력받으면 백본 네트워크(주로 CenterNet 구조를 활용)를 통과시켜 특징 맵(Feature map)을 추출합니다. 이 특징 맵을 바탕으로 이미지 내에서 객체들이 위치한 곳을 찾아내기 위해 히트맵(Heatmap)을 생성합니다. 가장 활성화 값이 높은 픽셀들이 객체의 중심점으로 지정됩니다.
  2. 초기 윤곽선 형성 (Contour Initialization): 각 객체의 중심점에서 추출된 특징(Center point features)만을 기반으로 신경망은 위치를 추정합니다. 모델은 중심점을 기준으로 외곽선이 될 128개의 정점이 각각 $x, y$ 방향으로 얼마나 떨어져 있어야 하는지 나타내는 오프셋(Offsets)을 회귀(Regression) 방식으로 예측합니다. 중심점 좌표에 이 128개의 오프셋을 더하면, 사람의 개입 없이 네트워크가 순수하게 데이터에 기반하여 추측한 초기 윤곽선(Initial Contour)이 만들어집니다.
  3. 전역 변형을 통한 거친 윤곽선 도출 (Global Deformation to Coarse Contour): 초기 윤곽선이 형성되면, 이 128개 정점 각각의 위치에서 이미지 특징을 추출합니다. 그리고 128개의 정점 특징과 1개의 중심점 특징을 모두 이어 붙여 하나의 긴 정보 벡터(길이: $(128+1) \times C$, 여기서 $C$는 특징의 채널 수)를 만듭니다. 이 벡터를 다층 퍼셉트론(MLP) 모듈에 입력합니다. MLP 모듈은 모든 점의 정보를 종합적으로 고려하여 각 정점이 이동해야 할 추가적인 세부 오프셋(길이: $128 \times 2$)을 출력합니다. 초기 윤곽선에 이 두 번째 오프셋을 더하면 실제 객체 외곽선에 꽤 근접한 거친 윤곽선(Coarse Contour) 상태가 됩니다. 이 단계까지만 연산해도 매우 빠른 속도와 준수한 성능을 보장합니다.
  4. 반복 변형을 통한 최종 정밀 조정 (Refinement to Final Contour): 거친 윤곽선을 더욱 날카롭고 정교하게 다듬기 위해, 모델은 윤곽선을 미세하게 조정하는 반복 변형 모듈(Iterative deformation module)을 두 차례 더 거칩니다. 이 단계의 마지막 부분에서 앞서 설명한 동적 매칭 손실(DML) 함수가 작동합니다. DML의 엄격한 가이드에 따라 정점들은 정답 경계선의 뾰족한 곡률을 향해 정밀하게 이동하게 되며, 비로소 세밀한 윤곽 묘사가 살아있는 최종 윤곽선(Final Contour)이 출력됩니다.

 

6. 작동 원리: 어떻게 학습하는가? (The "How")

E2EC 모델이 스스로 객체의 모양을 인지하고 유연하게 윤곽선을 추출하는 능력을 갖추기 위해서는 방대한 양의 데이터와 이를 효율적으로 주입하기 위한 영리한 정답 라벨링 규칙이 필요합니다.

 

입력 및 출력 데이터 포맷 (Input & Output Data Format)

  • 입력 데이터 (Input Data): 학습을 위해서는 실제 카메라나 라이다 센서 등을 통해 수집된 2D 이미지 데이터가 필요합니다. 본 모델은 실험에서 해상도 $512 \times 512$ 또는 $1216 \times 2432$ 크기의 이미지를 주로 입력값으로 사용했습니다. 입력 이미지와 함께 학습 가이드 역할을 할 정답 데이터(Ground Truth)도 제공되어야 합니다. 정답 데이터는 마스크 이미지가 아니라, 객체의 실제 경계선을 따라 지정된 연속적인 이산 정점(Discrete vertices)들의 순서 있는 리스트 포맷으로 주어집니다.
  • 사용된 데이터셋 예시: 모델 학습에는 엄청난 수량의 벤치마크 데이터셋이 동원되었습니다. 가려진 객체를 추론해야 하는 자율주행 특화 KINS 데이터셋(학습용 7,474장), 복잡한 외곽선을 가진 SBD 데이터셋(학습용 5,623장, 20개 클래스), 고해상도 도로 주행 이미지인 Cityscapes(학습용 2,975장, 8개 클래스), 그리고 일상적인 80개 종류의 범용 객체가 포함된 대규모 COCO 데이터셋(학습용 11만 5천 장) 등이 입력 데이터로 활용되었습니다.
  • 출력 데이터 (Output Data): 신경망의 처리 과정을 거쳐 최종적으로 산출되는 출력 데이터는 입력 이미지 내에 존재하는 각 인스턴스의 경계선을 나타내는 $N$개의 꼭짓점 좌표값입니다. 본 연구에서는 대부분의 객체 형태를 표현하기에 충분한 $N=128$로 설정하였습니다. 즉, 한 객체당 128개의 $(x, y)$ 좌표 쌍으로 이루어진 배열 리스트 포맷이 출력됩니다.

 

학습 난이도를 낮추는 기법: 다방향 정렬 (Multi-direction alignment, MDA)

모델이 무작위로 위치한 정답 점들을 무작정 학습하려고 하면 혼란에 빠집니다. E2EC는 학습 난이도를 획기적으로 낮추기 위해 입력 정답 데이터를 가공하는 MDA라는 새로운 레이블 샘플링 방식을 적용합니다. 이 기법은 객체의 중심점을 기준으로 특정 방향에 위치한 정점들을 일종의 닻(Anchor)처럼 고정시켜 놓는 방식입니다. 예를 들어, 고정점의 개수인 $M$을 4로 설정하면 객체의 상, 하, 좌, 우 4방향 끝에 위치한 점들을 기준점으로 고정합니다. 그리고 이 고정된 점들 사이의 구간을 동일한 간격으로 다시 나누어 균일하게 정답 점들을 추출합니다. 기준점이 전혀 없는 상태로 점을 찍는 것(LSNet 방식)보다 방향에 대한 가이드라인이 생겨 학습의 난이도가 대폭 감소하며, 반대로 모든 방향을 고정해 버리는 것(PolarMask 방식)보다 점들의 분포가 유연해져 성능의 상한선이 낮아지는 문제를 방지합니다. 연구팀은 실험을 통해 $M=4$일 때 학습 난이도 완화와 성능 유지라는 최적의 균형을 이룬다는 사실을 증명했습니다.

 

7. 결과: 얼마나 좋아졌나? (Results)

E2EC는 학계에서 가장 도전적인 인스턴스 분할 벤치마크 데이터셋들을 대상으로 실험을 진행하였으며, 정확도와 추론 속도 양면에서 기존의 패러다임을 압도하는 결과를 보여주었습니다.

 

최고 수준의 정확도 (SOTA 달성)

가장 형태가 복잡하고 정밀한 외곽선 묘사를 요구하는 의미론적 경계 데이터셋(SBD)에서의 검증 결과를 살펴보겠습니다. 성능 지표로는 분할 영역이 정답과 얼마나 일치하는지를 평가하는 $AP^{msk}$와, 얇고 날카로운 경계선 자체의 위치 정확도를 평가하는 더욱 엄격한 지표인 $AP^{bdy}$가 사용되었습니다.

 

모델 방법 (Method) 백본 네트워크 (Backbone) 분할 AP (APmsk) 경계선 AP (APbdy) 추론 속도 (FPS)
Deep Snake DLA-34 54.4 10.8 27.3
DANCE ResNet-50 56.2 - -
E2EC (제안 모델) DLA-34 59.2 19.1 30.1

 

표에 나타나듯, E2EC는 윤곽선 모델의 대표 격인 Deep Snake에 비해 마스크 기반 정확도를 4.8 포인트 상승시켰습니다. 더욱 놀라운 점은 경계선의 미세한 디테일을 평가하는 $AP^{bdy}$ 수치가 10.8에서 19.1로 무려 8.3 포인트 폭증했다는 것입니다. 동적 매칭 손실(DML)을 통해 예측 정점이 객체의 뾰족한 모서리나 굴곡진 테두리에 유연하게 안착하도록 유도한 아이디어가 객체의 정밀 묘사력을 극대화했음을 실증하는 데이터입니다.

 

한계를 넘어서는 추론 속도 (Speed)

실시간 분석이 생명인 응용 분야에서 모델의 추론 속도는 정확도만큼이나 중요합니다. E2EC는 엔비디아의 하이엔드 그래픽 카드인 RTX 3090 또는 A6000 GPU 환경에서 $512 \times 512$ 해상도의 이미지를 처리할 때 전체 파이프라인 가동 시 초당 36프레임(FPS)으로 동작하며, 변형 모듈을 최소화하여 속도를 극대화할 경우 초당 최대 58프레임(FPS)의 엄청난 처리 속도를 기록했습니다. (COCO 데이터셋 기준 54.3 FPS 달성)  비디오 영상이 통상 초당 30프레임으로 구성되는 것을 감안하면, 입력되는 영상을 밀림 없이 완벽한 실시간(Real-time)으로 분할할 수 있는 수준입니다. 더욱 흥미로운 점은, 속도와 정확도의 타협안(Trade-off)을 제공한다는 것입니다. 반복 변형 모듈을 완전히 제거하고 전역 변형을 거친 거친 윤곽선(Coarse Contour)만 출력하도록 아키텍처를 최소화할 경우, 기존 Deep Snake 모델의 최종 결과물과 유사한 정확도를 달성하면서도 추론 속도는 초당 56프레임 이상으로 수직 상승하는 압도적인 효율성을 보여주었습니다.

 

8. 이 논문의 계보와 발전 (Impact & Follow-ups)

E2EC 논문은 단순히 성능 좋은 모델 하나를 제시한 것을 넘어, 이후 윤곽선 기반 인스턴스 분할 연구의 방향성을 '수작업 탈피'와 '전역적 정보 교환'으로 이끄는 강력한 계보의 기원이 되었습니다. 2022년 발표 이후 수많은 후속 연구들이 E2EC의 구조를 비판적으로 계승하거나 응용하며 새로운 트렌드를 만들어가고 있습니다.

  • PolySnake (2023): 이 논문은 E2EC가 확립한 중심점 기반의 학습 가능한 초기 윤곽선 세팅을 기본 뼈대로 채택했습니다. 다만, E2EC가 반복적인 형태 조정을 위해 다층 퍼셉트론을 사용한 것과 달리, PolySnake는 순환 신경망(GRU) 기반의 시퀀스 모델링(Sequence modeling)을 윤곽선 변형 과정에 도입했습니다. 각 정점의 이동 궤적을 시간적 흐름으로 모델링하여 E2EC보다 더욱 매끄러운 다각형 윤곽선을 유도하려는 시도였습니다.
  • ContourFormer (2024~2025): 자연어 처리에서 시작해 컴퓨터 비전의 대세로 자리 잡은 트랜스포머(Transformer) 아키텍처를 윤곽선 분할에 전면적으로 접목한 최신 연구입니다. E2EC가 정점 간의 전역 정보를 교환하기 위해 단순한 1차원 결합과 MLP를 사용했다면, ContourFormer는 어텐션(Attention) 메커니즘을 기반으로 DETR 패러다임을 차용했습니다. 특히 전체 윤곽선을 '부분 윤곽(Sub-contour)' 단위로 분리하여 학습하는 정밀한 메커니즘을 추가함으로써, E2EC를 강력한 베이스라인 성능으로 삼아 정확도와 추론 속도의 상한선을 한 단계 더 끌어올리는 데 성공했습니다.
  • 자율주행 및 원격 탐사(Remote Sensing)로의 응용 확장: 초당 50프레임에 육박하는 E2EC의 빠른 속도와 다각형 좌표를 직접 출력하는 효율적인 데이터 포맷은 산업계의 실무적 요구와 완벽히 맞아떨어졌습니다. 최근에는 고해상도 위성 및 항공 사진에서 복잡한 형태의 건물 외곽선(Building footprint)을 정형화된 다각형으로 즉시 추출하거나(예: P2PFormer 등의 연구), 자율주행 차량의 엣지 컴퓨팅(Edge computing) 환경 및 V2X 네트워크에서 실시간으로 보행자와 차량을 추적하는 데 E2EC의 구조론적 장점을 응용한 시스템들이 활발히 개발되고 있습니다. 또한, YOLO 객체 탐지기에 E2EC와 유사한 윤곽선 회귀 개념을 결합한 YOLO-CORE, ASF-YOLO 등의 경량화 프레임워크가 등장하며 엣지 디바이스 생태계의 확장을 주도하고 있습니다.

 

9. 마무리

E2EC(End-to-End Contour-based Method)는 인간 연구자가 직관적 편의를 위해 설정해 둔 자의적인 제약(예: 팔각형 초기화, 인접 점끼리의 고정된 통신, 경직된 정점 짝짓기)을 과감히 제거하고, 모델에게 중심 특징만을 바탕으로 자유롭게 데이터를 탐색할 수 있는 자율성을 부여했을 때 최적화의 병목이 어떻게 풀리는지를 명확한 수치로 입증했습니다. 픽셀을 일일이 칠해야 하는 마스크 기반 모델의 무거운 연산량과, 속도는 빠르지만 세밀함이 부족했던 이전 윤곽선 기반 모델들의 한계 사이에서 기가 막힌 타협점을 제시하며 실시간 인스턴스 분할 기술의 새로운 지평을 열었습니다.

 

실무에 적용할 때의 인사이트 및 주의점

현업 엔지니어나 연구자가 E2EC 모델을 실제 서비스 파이프라인에 적용하고자 할 때는 다음과 같은 실무적 특성을 반드시 고려해야 합니다.

  1. 엣지(Edge) 환경 최적화 및 메모리 효율성: 이 모델은 마스크 기반 알고리즘과 달리 공간 해상도에 비례하는 거대한 행렬 연산을 수행하지 않습니다. 128개의 정점 좌표만을 추적하는 구조이므로 VRAM(비디오 메모리) 소모량이 현저히 적습니다. 따라서 컴퓨팅 자원이 제한된 스마트 팩토리의 로봇 비전, 드론 기반의 실시간 모니터링 시스템, 자율주행 차량의 SoC(System on Chip) 등 이른바 엣지 디바이스 환경에 포팅(Porting)하여 운용하기에 매우 매력적인 대안이 됩니다.
  2. 톱니 형상 처리를 위한 후처리 파이프라인 구축: 앞서 실패 케이스에서 지적했듯, 동적 매칭 손실(DML) 기능은 경계선 묘사를 극대화하는 대신 윤곽선의 매끄러움을 훼손하여 톱니바퀴 같은 다각형을 산출합니다. 의료 영상의 종양 크기 측정이나 정밀한 이미지 편집 툴과 같이 시각적 매끄러움이 필수적인 도메인에서는 이 출력을 그대로 사용하기 어렵습니다. 따라서 추론 단계에서 설정을 통해 스플라인 보간법(Spline interpolation)이나 평활화(Smoothing) 알고리즘을 덧붙이는 가벼운 후처리 파이프라인을 필수적으로 구축해야 합니다. 혹은 학습 단계에서 디테일을 일부 포기하더라도 동적 매칭 손실 기능을 비활성화하여 부드러운 외곽선을 유도하는 기회비용을 저울질해야 합니다.
  3. 학습 최적화 전략: 실제 데이터를 투입하여 모델을 재학습시킬 경우, 초기에는 Adam 옵티마이저를 사용하여 전체적인 수렴 속도를 높이고, 이후 SGD 옵티마이저로 전환하여 파인 튜닝(Fine-tuning)을 진행하는 전략이 성능을 극대화하는 데 효과적입니다.

 

반응형