일러두기 (Disclaimer)
본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.
논문 링크 : https://arxiv.org/abs/1704.05548
Annotating Object Instances with a Polygon-RNN
We propose an approach for semi-automatic annotation of object instances. While most current methods treat object segmentation as a pixel-labeling problem, we here cast it as a polygon prediction task, mimicking how most current datasets have been annotate
arxiv.org
초록 (Abstract)
본 연구는 객체 인스턴스(Object Instances)의 반자동 주석(Semi-automatic annotation)을 위한 새로운 접근법을 제안합니다. 현재 대부분의 방법론이 객체 분할(Object segmentation)을 픽셀 단위의 라벨링 문제로 취급하는 반면, 본 연구는 이를 다각형 예측(Polygon prediction) 작업으로 재정의하여 현재 대부분의 데이터셋이 인간에 의해 주석 처리되는 방식을 모방합니다. 구체적으로 본 모델은 이미지 크롭(Image crop)을 입력으로 받아 객체의 외곽선을 그리는 다각형의 꼭짓점(Vertices)들을 순차적으로 생성합니다. 이러한 구조는 인간 주석자(Annotator)가 언제든지 개입하여 필요시 꼭짓점을 수정할 수 있도록 허용하며, 결과적으로 주석자가 원하는 수준의 정밀한 분할 결과를 생성할 수 있게 합니다. 실험 결과, 이 접근법은 Cityscapes 데이터셋의 모든 클래스에 걸쳐 주석 작업 속도를 4.7배 향상시켰으며, 원본 정답(Ground-truth) 데이터와 78.4%의 IoU(Intersection over Union) 일치도를 달성하여 실제 인간 주석자들 사이의 전형적인 일치도와 맞먹는 성능을 입증했습니다. 특히 자동차(Car) 클래스의 경우, 작업 속도는 7.3배 향상되었고 일치도는 82.2%에 달했습니다. 나아가 본 연구는 학습에 사용되지 않은 미본 데이터셋(Unseen datasets)에 대해서도 이 접근법이 뛰어난 일반화(Generalization) 능력을 갖추고 있음을 보여줍니다.
1. 한줄 요약 & 3줄 핵심 (Executive Summary)
이미지 내 객체의 영역을 픽셀로 칠하는 기존의 방식을 탈피하여, 인간이 마우스로 점을 찍어 윤곽선을 그리는 다각형(Polygon) 생성 방식을 순환 신경망(RNN)으로 구현한 데이터 라벨링 자동화 연구입니다.
- 기존의 문제점 (Pain point): 고성능 컴퓨터 비전 모델을 학습시키기 위한 인스턴스 분할 데이터셋을 구축하려면 인간 작업자가 객체 하나당 수십 초의 시간을 들여 픽셀 단위로 외곽선을 칠해야 하는 막대한 비용과 시간이 소모되었습니다.
- 이 논문의 해결책 (Solution): 합성곱 신경망(CNN)으로 이미지의 특징을 추출하고 순환 신경망(RNN)을 사용하여 다각형의 꼭짓점을 순차적으로 예측하며, 인간이 실시간으로 오답 꼭짓점을 수정하면 모델이 이를 반영해 남은 꼭짓점을 다시 그리는 대화형(Interactive) 모델을 개발했습니다.
- 달성한 성과 (Key Result): Cityscapes 데이터셋에서 주석자의 개입 횟수를 크게 줄여 라벨링 속도를 평균 4.7배 향상시켰으며, 사람이 직접 작업한 결과물과 비교해도 손색이 없는 78.4%의 IoU 일치도를 달성했습니다.
2. 들어가며: 왜 이 연구가 필요했나? (The "Why")
현대의 컴퓨터 비전 분야에서 가장 중요하게 다루어지는 과제 중 하나는 이미지 내에 존재하는 모든 객체의 정확한 경계를 찾아내는 인스턴스 분할(Instance Segmentation)입니다. 단순한 이미지 분류(Image Classification)가 사진 속에 '자동차가 있다'는 사실만을 알려준다면, 인스턴스 분할은 사진 속 여러 대의 자동차가 각각 어디서부터 어디까지인지 픽셀 단위로 구분해 냅니다. 이러한 기술은 자율주행 차량이 주변 보행자와 차량을 인식하고, 의료 영상 시스템이 종양의 정확한 크기와 위치를 파악하며, 위성 사진에서 건물의 면적을 추출하는 데 필수적인 역할을 합니다.
하지만 이처럼 정교한 딥러닝 모델, 특히 합성곱 신경망(CNN) 기반의 모델들은 본질적으로 엄청난 양의 데이터를 필요로 합니다. 딥러닝 알고리즘의 성능은 학습에 사용된 데이터의 양과 질에 크게 좌우되며, 이는 곧 연구 커뮤니티와 산업계가 대규모의 데이터셋을 구축해야만 한다는 것을 의미합니다. 문제는 이 주석(Annotation) 작업이 극도로 고통스럽고 비용이 많이 든다는 점입니다. Cityscapes나 MS COCO와 같은 대규모 데이터셋을 구축할 때, 인간 작업자들은 이미지에 등장하는 수많은 객체의 테두리를 하나하나 마우스로 클릭하여 윤곽을 따야 했습니다. 한 연구에 따르면, 복잡한 이미지에서 객체 하나를 수동으로 추적하고 라벨링하는 데 인간 작업자는 평균적으로 약 30~40회의 마우스 클릭이 필요합니다. 수백만 개의 객체가 포함된 자율주행 데이터셋을 구축한다고 가정할 때, 이는 천문학적인 인건비와 시간의 낭비를 초래합니다.
이러한 노동 집약적인 과정을 단축하기 위해 연구자들은 다양한 반자동 라벨링(Semi-automatic annotation) 도구들을 고안해 왔습니다. 초기에는 사용자가 객체 위에 몇 개의 점이나 선(Scribble)을 그으면 알고리즘이 객체와 배경의 색상 분포를 계산하여 나머지 영역을 칠해주는 방식이 사용되었습니다. 또한 이미지 전체에 태그를 달거나 바운딩 박스(Bounding Box)만 제공하면 이를 바탕으로 분할 모델을 학습시키는 약지도 학습(Weakly-supervised learning) 방법론도 연구되었습니다.
그러나 기존의 픽셀 기반 분할 방법론이나 대화형 이미지 분할 기술들은 공통적인 한계를 가지고 있었습니다.
첫째, 구조적 일관성을 보장하지 못합니다. 픽셀 기반 모델들은 각 픽셀이 객체인지 배경인지를 독립적으로 혹은 국소적인 주변 정보만으로 판단합니다. 이로 인해 빛 반사, 그림자, 혹은 객체의 낮은 해상도로 인해 경계가 모호해지는 영역에서는 객체 내부에 구멍(Hole)이 뚫리거나 형태가 찌그러지는 현상이 발생합니다. 자동차를 인식했는데 자동차 한가운데 픽셀들이 배경으로 분류되는 식입니다.
둘째, 수정의 어려움입니다. 인공지능이 픽셀 단위로 잘못된 결과를 내놓았을 때, 인간 작업자가 이를 바로잡는 과정은 또 다른 노동을 요구합니다. 잘못 칠해진 영역을 지우개 도구로 지우고, 누락된 영역을 붓 도구로 다시 칠해야 합니다. 모델이 객체의 경계선을 매끄럽게 잡지 못하면, 작업자는 픽셀 하나하나를 다듬어야 하므로 결국 수동으로 처음부터 작업하는 것과 크게 다르지 않은 시간을 소모하게 됩니다.
연구진은 바로 이 지점에서 근본적인 질문을 던졌습니다. 대규모 분할 데이터셋을 구축할 때, 실제 인간 작업자들은 픽셀 단위로 색칠을 하지 않습니다. 대신 그들은 객체의 외곽선을 따라 30번에서 40번 정도 마우스를 클릭하여 다각형(Polygon)을 닫는 방식으로 라벨링을 진행합니다. 그렇다면 딥러닝 모델이 픽셀을 칠하게 할 것이 아니라, 인간처럼 객체의 외곽선을 따라 다각형의 꼭짓점을 순차적으로 찍도록 가르치면 어떨까 하는 공감대가 형성되었습니다. 이러한 발상의 전환은 구조적으로 일관된 형태를 유지하면서도 인간 작업자의 개입을 극도로 단순화시킬 수 있는 기반이 되었고, 이것이 본 논문이 제시하는 Polygon-RNN 연구의 출발점입니다.
3. 이 논문의 뿌리 (Key Reference)
Polygon-RNN 모델은 컴퓨터 비전 분야에서 오랫동안 연구되어 온 분할과 신경망 아키텍처의 핵심 연구들을 비판적으로 수용하고 계승하여 탄생했습니다. 이 연구가 탄생하기까지 가장 큰 영감을 주었거나 베이스로 사용된 논문들과의 관계는 다음과 같습니다.
대화형 전경 추출: GrabCut (2004)
사용자가 제공한 정보를 바탕으로 객체를 분리해내는 대화형 모델의 조상 격인 연구입니다. GrabCut은 사용자가 객체를 포함하는 2D 바운딩 박스를 그리면, 박스 내부의 픽셀들을 전경(Foreground)과 배경(Background) 모델로 나누어 EM(Expectation-Maximization) 알고리즘과 그래프 컷(Graph-cuts)을 통해 픽셀 라벨링을 수행합니다. 본 논문의 연구진은 이 '바운딩 박스를 입력으로 받는다'는 사용자 경험(UX) 구조를 그대로 차용했습니다. 하지만 GrabCut은 색상과 명암 모델에만 의존하기 때문에 형태적 사전 지식(Shape Prior)이 없다는 치명적인 단점이 있었습니다. Polygon-RNN은 입력 방식은 GrabCut의 아이디어를 가져오되, 분할을 수행하는 내부 엔진을 딥러닝 기반의 형태 학습 모델로 교체하여 한계를 보완했습니다.
자유 형태 다각형 국소화 (Free-shape polygonal object localization, 2012-2014)
이 논문이 다각형이라는 출력 형태를 선택하는 데 가장 직접적인 연관을 가진 선행 연구들입니다. 기존 분할 모델들이 픽셀 라벨링에 집중할 때, 이 연구들은 객체 주변에 다각형을 생성하는 것을 목표로 했습니다. 이들은 이미지에서 윤곽선 조각(Edge fragments)들을 검출한 다음, 최적화 알고리즘을 사용해 이 조각들을 일관된 하나의 영역으로 연결하는 사이클(Cycle)을 찾으려 시도했습니다. 하지만 조각을 조립하는 과정이 수학적으로 복잡하고 다양한 객체 형태에 유연하게 대응하기 어려웠습니다. Polygon-RNN은 '다각형 형태의 결과물'이라는 컨셉을 계승하면서도, 선분 조각을 조립하는 방식을 버리고 신경망이 직접 꼭짓점 좌표를 예측하는 훨씬 간결하고 강력한 방식을 도입했습니다.
시각적 특징 추출과 순차적 예측: VGG (2014) 및 ConvLSTM (2015)
형태를 인식하고 점을 찍기 위한 딥러닝 뼈대로 채택된 연구들입니다. 연구진은 이미지에서 특징을 추출하기 위해 널리 입증된 VGG-16 구조를 베이스로 사용했습니다. 그러나 윤곽선을 그리기 위해서는 공간 정보가 유지되어야 하므로 VGG의 후반부 구조를 수정했습니다. 다각형의 점을 예측하는 과정은 본질적으로 시계열 데이터(Time-series data)의 처리와 같습니다. 이를 위해 순환 신경망(RNN)이 도입되었는데, 일반적인 LSTM은 1차원 벡터를 다루기 때문에 이미지의 2차원 공간 정보를 잃어버립니다. 이에 연구진은 2015년에 발표된 합성곱 LSTM(Convolutional LSTM, ConvLSTM) 구조를 채택했습니다. ConvLSTM은 2차원 공간 정보를 보존하면서도 과거의 맥락(이전에 찍은 점의 위치)을 다음 예측에 전달할 수 있어, 이미지 위에서 다각형이 그려지는 과정을 모델링하는 데 결정적인 역할을 했습니다.
4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)
이 논문이 학계와 산업계에 던진 가장 큰 충격은 문제를 정의하는 방식의 완전한 전환에 있습니다. 본 연구의 "Aha!" 모멘트는 '분류(Classification)' 기반의 픽셀 칠하기에서 '시퀀스 생성(Sequence Generation)' 기반의 다각형 그리기로 패러다임을 바꾼 것입니다.
기존의 픽셀 기반 모델은 도화지 위의 모든 점(픽셀)에게 일일이 "너는 자동차니? 아니면 배경이니?"라고 묻는 '색칠 공부'와 같습니다. 모델은 붓을 들고 자동차 영역이라고 생각되는 곳을 파란색으로 빈틈없이 칠합니다. 하지만 붓터치가 정교하지 못해 자동차 바퀴의 틈새나 창문 너머의 배경까지 파란색으로 잘못 칠해지면, 인간 작업자는 지우개를 꺼내 이를 지우고 세밀한 붓으로 다시 경계를 다듬어야 합니다.
반면 Polygon-RNN은 유치원생들이 즐겨하는 '점 잇기 퍼즐(Connect-the-dots)' 방식을 채택했습니다. 이 모델은 도화지 위의 윤곽을 따라가며 1번 점을 찍고, 2번 점, 3번 점을 순서대로 찾아 선으로 연결합니다. 이 방식이 강력한 이유는 결과물이 항상 닫혀 있는 하나의 다각형 형태로 보장되므로 중간에 구멍이 뚫릴 일이 없다는 점입니다.
더욱 획기적인 것은 인간과의 상호작용(Human-in-the-loop) 메커니즘입니다. 모델이 윤곽을 따라 점을 찍다가 사이드미러 부분에서 실수로 엉뚱한 곳에 점을 찍었다고 가정해 보겠습니다. 픽셀 모델이었다면 이 오차 영역을 지우고 칠하는 데 수초가 걸렸겠지만, Polygon-RNN 구조에서는 인간 작업자가 마우스로 그 잘못된 점을 잡아당겨(Drag and Drop) 올바른 사이드미러 끝부분에 올려놓기만 하면 됩니다.
이 한 번의 수정이 마법을 일으킵니다. 모델은 자신이 틀렸음을 인지하고, "아, 방금 찍은 점이 여기가 아니라 저기였구나. 그럼 다음 점의 방향도 수정해야겠다"라고 스스로 궤도를 수정합니다. 탈선한 기차를 인간이 선로 위에 살짝 올려주면, 기차가 다시 올바른 방향으로 나아가는 것과 같습니다. 이 메커니즘 덕분에 작업자는 전체를 처음부터 그릴 필요 없이, 모델이 방향을 잃을 때만 가끔 개입하여 꼭짓점을 바로잡아 주면 완벽한 다각형 분할 결과를 얻을 수 있게 되었습니다.
5. 작동 원리: 어떻게 돌아가는가? (The "How")
Polygon-RNN의 아키텍처는 크게 '이미지에서 특징을 뽑아내는 과정(CNN)'과 '그 특징을 바탕으로 점을 이어나가는 과정(RNN)'으로 구성됩니다. 데이터가 들어와서 다각형이 완성될 때까지의 흐름을 단계별로 살펴보겠습니다.
전체적인 흐름도를 구성하는 컴포넌트 간의 상호작용은 다음과 같이 요약할 수 있습니다.
| 처리 단계 | 모델 구성 요소 | 역할 및 목적 |
| 1. 이미지 입력 및 전처리 | Image Cropping | 인간이 설정한 바운딩 박스를 기준으로 이미지를 잘라내어 모델의 입력 크기로 맞춥니다. |
| 2. 특징 추출 | Modified VGG-16 | 잘라낸 이미지에서 객체의 윤곽과 의미를 파악하는 고해상도 특징 지도를 만듭니다. |
| 3. 시작점 탐색 | Boundary 예측 분기(CNN) | 다각형을 그리기 시작할 첫 번째 꼭짓점을 찾아냅니다. |
| 4. 순차적 점 예측 | ConvLSTM (RNN) | 현재 정보와 과거의 점 위치를 종합하여 다음 점의 위치를 반복적으로 계산합니다. |
| 5. 인간 개입 (선택) | Annotator in the loop | 예측이 틀렸을 때 인간이 수정한 좌표를 모델에 다시 주입하여 궤도를 수정합니다. |
Step 1. 데이터 준비 (Image Cropping)
먼저 주석 시스템은 사용자가 객체 주위에 대략적으로 친 바운딩 박스를 입력으로 받습니다. 시스템은 이 박스를 기준으로 이미지를 잘라내되, 주변의 문맥(Context)을 파악할 수 있도록 바운딩 박스의 크기를 10%에서 20% 정도 확장하여 잘라냅니다. 이 잘라낸 이미지는 네트워크 처리를 위해 224x224 픽셀 해상도로 크기가 조정됩니다.
Step 2. 특징 추출 (CNN Backbone과 Skip Connections)
잘라낸 224x224 크기의 이미지는 변형된 VGG-16 신경망에 통과됩니다. 원래의 VGG-16은 이미지를 분류하기 위해 설계되었으므로 네트워크 마지막에 공간 정보를 압축해 버리는 완전 연결 계층(Fully Connected Layer)과 풀링 층(pool5)을 가지고 있습니다. 윤곽선의 위치를 정확히 알아야 하는 본 연구에서는 공간 정보 손실을 막기 위해 이 계층들을 과감히 제거했습니다.
여기서 가장 중요한 설계는 스킵 커넥션(Skip Connections) 구조의 도입입니다. 신경망의 앞부분은 모서리나 직선 같은 세밀한 시각적 특징을 잘 잡아내고, 신경망의 뒷부분은 이것이 자동차인지 사람인지와 같은 의미론적인 특징을 잘 파악합니다. 윤곽선을 잘 따라가기 위해서는 두 가지 정보가 모두 필요합니다. 따라서 뒷부분의 특징 맵을 해상도를 두 배로 키운(Upscaling) 뒤 앞부분의 특징 맵과 이어 붙이는(Concatenation) 방식을 통해, 의미와 형태를 모두 담은 28x28 크기의 풍부한 특징 지도(Feature Map)를 생성합니다.
Step 3. 첫 번째 점 찍기 (Initial Vertex Prediction)
객체의 윤곽선을 따라 다각형을 그릴 때, 어느 점에서 시작해도 상관없기 때문에 첫 번째 꼭짓점을 정하는 것은 매우 특수한 작업입니다. 이를 해결하기 위해 모델은 특징 추출 단계와 유사한 별도의 CNN 가지(Branch)를 활용하여 객체의 경계선(Boundary)을 예측하고, 그 경계선 위에서 적절한 시작 꼭짓점 하나를 예측해 냅니다.
Step 4. 순차적 점 이어가기 (ConvLSTM Decoder)
첫 번째 점이 찍히면 본격적으로 RNN을 통한 점 잇기가 시작됩니다. 매 시간 단계(Time step $t$)마다 ConvLSTM 모델은 다음의 정보들을 모두 결합하여 새로운 꼭짓점을 예측합니다.
- 이미지 특징: Step 2에서 만든 28x28 특징 지도
- 바로 직전 꼭짓점 ($y_{t-1}$): 방금 내가 어디에 점을 찍었는지
- 두 번 전 꼭짓점 ($y_{t-2}$): 그 전에는 어디에 점을 찍었는지
- 시작 꼭짓점 ($y_{1}$): 처음에 어디서 출발했는지
과거의 점을 두 개나 알려주는 이유는 점들이 시계 방향으로 흘러가도록 일종의 방향성과 가속도를 모델에 인지시키기 위함입니다. 또한 시작 꼭짓점을 계속 상기시키는 이유는, 모델이 객체를 한 바퀴 빙 돌아 다시 시작점 근처에 도달했을 때 "이제 다 그렸으니 다각형을 닫아야겠다"고 스스로 판단하게 만들기 위해서입니다.
Step 5. 사용자의 실시간 궤도 수정 (Inference and Annotators in the Loop)
추론 시에 모델은 각 단계마다 가장 확률이 높은 좌표를 다음 꼭짓점으로 반환합니다. 만약 예측된 점의 위치가 부정확하다면 인간 작업자는 해당 점을 정답 위치로 옮깁니다. 그러면 시스템은 다음 시퀀스를 예측할 때 모델이 원래 예측했던 오답 대신 '인간이 수정한 좌표'를 과거의 정보로 주입(Feed in)합니다. 이를 통해 모델은 올바른 경로로 다시 돌아오게 됩니다.
6. 작동 원리: 어떻게 학습하는가? (The "How")
다각형을 예측하도록 모델을 학습시키는 과정은 기존의 픽셀 분류 학습과는 다른 특별한 입출력 데이터 처리 방식이 요구됩니다. 딥러닝 모델이 다각형의 점을 잘 찍도록 가르치기 위해 사용된 실제 데이터 구성을 구체적으로 살펴보겠습니다.
입력 데이터 형식 및 포맷
학습을 위해서는 자율주행 데이터셋인 Cityscapes의 데이터가 주로 사용되었습니다.
- 포맷 및 종류: 2D 컬러(RGB) 이미지 작물(Crop) 형태입니다. 자율주행 차량의 카메라가 촬영한 거리 풍경 이미지 중에서, 자동차, 보행자, 자전거, 버스 등 8개 객체 범주의 주변에 인간이 지정한 정답 바운딩 박스를 기준으로 잘라낸 이미지입니다.
- 수량 및 증강(Augmentation): Cityscapes 데이터셋의 훈련 데이터에는 약 2975장의 이미지 내에 수만 개의 객체 인스턴스가 존재합니다. 객체의 크기는 가장 긴 변을 기준으로 28픽셀 크기의 아주 작은 객체부터 1792픽셀에 달하는 거대한 객체까지 매우 다양합니다.
- 데이터 부풀리기: 제한된 데이터로 모델을 튼튼하게 학습시키기 위해 3가지 증강 기법을 적용했습니다.
- 이미지와 정답 다각형을 통째로 좌우로 뒤집기 (Random flip)
- 바운딩 박스의 여백을 원래 객체 크기의 10%~20% 범위에서 무작위로 넓히기 (Context expansion)
- 다각형의 여러 꼭짓점 중에서 '시작 꼭짓점'을 임의로 변경하기 (Start vertex randomization)
출력 데이터 형식 및 정답 스무딩
모델이 "어디에 점을 찍어야 하는지"를 출력하는 방식을 흥미롭게 설계했습니다.
- 분류 문제로의 전환: 모델은 이미지 상의 정확한 X, Y 실수 좌표를 계산(Regression)하는 대신, 예측 영역을 $D \times D$ 크기의 바둑판(이 논문에서는 $28 \times 28$) 격자로 나눕니다. 모델의 임무는 784개의 격자 칸 중에서 어느 칸에 점을 찍을지 고르는 분류(Classification) 문제가 됩니다. 여기에 '다각형 그리기 종료(End-of-sequence)'를 나타내는 특수 기호 1개를 추가하여, 매 단계마다 총 785개의 선택지($28 \times 28 + 1$) 중 하나를 예측합니다.
- 부드러운 정답 처리 (Target Smoothing): 모델을 학습시킬 때 "정답이 아니면 모두 0점"이라고 가혹하게 평가하면 학습이 잘 되지 않습니다. 예를 들어 정답 꼭짓점이 바둑판의 (10, 10) 칸에 있는데 모델이 (10, 11) 칸에 점을 찍었다면, 완벽하지는 않지만 꽤 훌륭한 예측을 한 것입니다. 이를 반영하기 위해 연구진은 교차 엔트로피(Cross-entropy) 손실 함수를 계산할 때, 정답 격자와의 체스보드 거리(Chessboard distance)가 2칸 이내인 주변 격자 칸들에도 일정 부분 정답 확률을 부여하는 스무딩 기법을 적용했습니다. 이렇게 하면 모델이 정답 근처만 예측해도 덜 혼나게 되어 부드럽게 학습이 진행됩니다.
7. 결과: 얼마나 좋아졌나? (Results)
Cityscapes 데이터셋을 이용한 실험 결과는 반자동 라벨링 도구의 새로운 기준을 제시했습니다. 평가 기준으로는 생성된 다각형의 품질을 나타내는 IoU(Intersection over Union, 정답 픽셀과 예측 픽셀이 겹치는 비율)와 예측을 바로잡기 위해 소요된 주석자의 클릭 횟수를 사용했습니다.
SOTA(State-of-the-Art) 달성 및 베이스라인 비교
사용자의 아무런 개입 없이 모델 스스로 다각형을 닫도록 둔 '자동 모드(Prediction Mode)'에서 Polygon-RNN은 당대의 주요 픽셀 분할 모델들을 압도했습니다.
| 모델 / 클래스 | 자전거 | 버스 | 보행자 | 자동차 | 평균 IoU (%) |
| Square Box (단순 박스) | 35.41 | 53.44 | 26.36 | 46.04 | 40.11 |
| DeepMask (ResNet-50) | 47.19 | 69.82 | 47.93 | 61.64 | 56.45 |
| SharpMask (ResNet-50) | 52.08 | 73.02 | 53.63 | 65.17 | 60.21 |
| Polygon-RNN (본 논문) | 52.13 | 69.53 | 63.94 | 71.17 | 61.40 |
표에서 보듯, 더 강력한 백본 신경망인 ResNet-50으로 사전 학습된 SharpMask 모델과 비교해도 Polygon-RNN은 자동차, 보행자, 자전거 등의 클래스에서 월등한 성능을 보이며 평균 IoU 61.40%로 SOTA를 달성했습니다. 특히 자율주행에서 가장 중요한 자동차 클래스에서 71.17%라는 압도적인 정밀도를 보였습니다.
작업 속도와 효율성의 극적인 향상
이 모델의 진가는 인간 작업자가 개입하는 '상호작용 모드(Annotator in the loop)'에서 드러납니다. 주석자가 일정 오차(Threshold) 이상을 벗어난 꼭짓점만 수정한다고 가정했을 때의 결과는 다음과 같습니다.
| 허용 오차 (Threshold) | 평균 마우스 클릭 횟수 | 달성한 IoU 일치도 (%) | 라벨링 작업 속도 향상 |
| 수동 작업 (전체 수작업) | 약 33.56회 | 100% (정답 기준) | 1.00배 |
| Threshold = 4 픽셀 | 4.6회 | 82.2% | 7.31배 |
| Threshold = 3 픽셀 | 5.6회 | 84.0% | 6.01배 |
| Threshold = 2 픽셀 | 6.6회 | 85.7% | 5.11배 |
| Threshold = 1 픽셀 | 9.3회 | 87.7% | 3.61배 |
표에 나타난 바와 같이, 자동차 클래스에 대해 약간의 오차를 허용(T=4)할 경우 단 4.6번의 마우스 클릭만으로 82.2%의 높은 일치도를 달성했습니다. 인간이 직접 윤곽선을 따기 위해 약 33번 이상 클릭해야 했던 것과 비교하면 라벨링 속도가 무려 7.31배나 빨라진 것입니다. 전체 8개 클래스 평균으로도 4.74배의 속도 향상을 이루어냈으며, 일반화 성능을 검증하기 위해 다른 데이터셋인 KITTI에 적용했을 때도 5.84번의 클릭만으로 84.11%의 IoU를 달성하여 우수한 이식성을 입증했습니다.
한계점 및 실패 케이스 (Limitations)
이 접근법에도 명확한 약점이 존재했습니다. 버스나 트럭, 기차처럼 크기가 매우 큰 객체의 경우 픽셀 기반의 베이스라인 모델(SharpMask)보다 오히려 성능이 낮게 측정되었습니다. 이는 다각형 꼭짓점을 예측하는 바둑판의 해상도가 $28 \times 28$로 제한되어 있었기 때문입니다. 크기가 큰 객체에서는 바둑판 한 칸이 실제 이미지의 넓은 영역을 덮게 되므로, 점을 찍었을 때 선이 부드럽게 이어지지 못하고 계단 현상처럼 거칠어지는 양자화 오류(Quantization Error)가 크게 작용했습니다. 또한 자기 자신과 교차하는 선분(Self-intersection)이 생성되는 오류가 발생할 가능성도 보고되었습니다.
8. 이 논문의 계보와 발전 (Impact & Follow-ups)
이 논문은 단순히 성능을 약간 높인 연구가 아니라, 자율주행 및 공간 매핑 분야의 데이터 라벨링 효율성을 근본적으로 뒤바꿀 수 있는 구조적 방법론을 제시했습니다. Polygon-RNN이 개척한 '다각형 기반 주석' 트렌드는 이후 학계의 뜨거운 반응을 이끌어내며 후속 연구들의 탄생에 결정적인 역할을 했습니다.
Polygon-RNN++ (CVPR 2018): 해상도와 훈련 방식의 진화
Polygon-RNN 논문 발표 후 불과 1년 뒤, 동일 연구팀은 초기 모델의 단점이었던 $28 \times 28$ 저해상도 문제와 순차 예측의 한계를 해결한 후속 연구 Polygon-RNN++를 발표합니다.
- 발전된 점: 가장 눈에 띄는 것은 그래프 신경망(Graph Neural Network, GNN)의 도입입니다. RNN이 거칠게 찍어 놓은 점들을 그래프의 노드(Node)로 간주하고, 각 노드의 위치를 상호작용을 통해 미세하게 조정하여 고해상도(112x112 등) 다각형을 출력하도록 개선했습니다. 또한, 단순한 분류 문제 손실 함수 대신 실제 평가지표인 IoU 수치 자체를 높이는 방향으로 모델을 학습시키는 강화 학습(Reinforcement Learning, Self-critical method)을 적용했습니다.
- 결과: 이 구조 개선으로 자동 모드에서의 평균 IoU가 10% 상승했으며, 상호작용 모드에서 필요한 클릭 수를 이전 모델 대비 50%나 더 줄이는 데 성공했습니다.
Curve-GCN (CVPR 2019): "동시에 점을 찍어라"
순환 신경망(RNN) 구조의 고질적인 약점은 1번 점을 예측해야만 2번 점을 예측할 수 있는 순차적 병목 현상이었습니다.
- 발전된 점: 연구진은 속도 한계를 극복하기 위해 RNN을 완전히 걷어내고, 객체의 모든 다각형 꼭짓점을 한 번에 동시에 예측하는 Curve-GCN을 제안했습니다. 그래프 합성곱 신경망을 사용해 점들 사이의 연결 관계(Topology)를 한 번에 연산하며, 직선형 다각형뿐만 아니라 곡선(Spline) 형태의 주석까지 지원하게 되었습니다.
- 결과: 순차적 딜레이가 사라짐에 따라 추론 속도가 압도적으로 빨라졌습니다. 상호작용 모드에서 객체당 연산 시간이 2.6ms에 불과하여 Polygon-RNN++보다 최대 100배 빠른 속도를 자랑하게 되었습니다.
최신 윤곽선 모델들의 등장: PolySnake (2024) 및 PDAA (2025)
다각형 기반 분할의 맥락은 최근까지도 활발히 이어지고 있습니다.
- PolySnake (2024): 과거 컴퓨터 비전의 고전 알고리즘인 '스네이크(Active Contour)' 원리를 딥러닝에 결합한 모델입니다. 객체의 윤곽을 둘러싸는 초기 다각형을 던져놓은 뒤, 점진적으로 객체 표면에 밀착되도록 수축시키는(Progressive deformation) 재귀적 업데이트 연산자를 사용해 유연성을 극대화했습니다.
- PDAA (2025): 위성 사진이나 항공 사진에서 복잡한 건물 외곽선을 추출하기 위해 개발된 다각형 동적 조정 알고리즘(Polygon Dynamic Adjustment Algorithm)입니다. 이전 모델들은 다각형의 꼭짓점 개수를 고정해야 했지만, 이 알고리즘은 건물이 사각형인지 복잡한 다각형인지 기하학적 형태에 따라 꼭짓점의 개수를 알아서 조절(Dynamic Adjustment)하고 불필요한 점을 스스로 삭제합니다.
SAM (Segment Anything Model)과의 공존
최근 몇 년간 메타(Meta)가 발표한 SAM(2023)과 SAM 2(2024)가 등장하면서 대화형 이미지 분할 시장의 판도는 크게 흔들렸습니다. SAM은 제로샷(Zero-shot) 프롬프트 분할 성능으로 픽셀 라벨링 시간을 농업, 의료 도메인 등에서 1.6초~2.6초대까지 획기적으로 낮추었습니다. 그러나 SAM의 등장에도 불구하고 Polygon-RNN 계열의 접근법이 사라지지 않는 명확한 이유가 있습니다. 자율주행의 HD 맵(고정밀 지도)이나 위성 지도 정보 구축에서는 시스템이 경로를 계획하고 시뮬레이션하기 위해 데이터가 픽셀 덩어리(Raster)가 아닌 명확한 점과 선이 연결된 다각형 좌표(Vector) 형태를 가져야 합니다. Tesla나 Uber 등의 자율주행 개발사들은 픽셀 마스크를 다시 벡터로 변환하는 복잡한 후처리를 피하기 위해 여전히 다각형을 직접 예측하고 제어하는 폴리라인(Polyline) 및 폴리곤 기반 추론 기술을 실무의 핵심으로 사용하고 있습니다.
9. 마무리
"Annotating Object Instances with a Polygon-RNN"은 딥러닝이 픽셀의 집합을 색칠하는 것을 넘어, 객체의 형태를 기하학적 관점인 다각형으로 이해하도록 문제를 재정의한 선구적인 연구입니다. 사용자가 제공하는 바운딩 박스를 시작으로 CNN을 통한 특징 추출, RNN을 이용한 순차적 예측, 그리고 작업자의 실시간 수정이 가능한 상호작용 메커니즘을 융합하여 주석 작업의 소요 시간과 비용을 획기적으로 줄였습니다.
인사이트 및 실무 적용 시 주의점
이 논문이 딥러닝 분야에 던지는 가장 강력한 통찰은 "완전한 자동화가 어렵다면, 인간과 AI가 가장 효율적으로 협업할 수 있는 인터페이스(UX)를 설계하라"는 점입니다. 많은 연구가 단순히 신경망 계층을 깊게 쌓아 1%의 정확도를 올리는 데 매몰되어 있을 때, 이 연구팀은 딥러닝 모델의 출력 형태 자체를 인간이 마우스로 조작하기 가장 편한 방식(다각형 꼭짓점)으로 변경하여 전체 작업 파이프라인의 생산성을 극대화했습니다.
그러나 이 모델이나 그 후속 기술들을 실무 시스템에 도입하고자 할 때는 신중히 고려해야 할 몇 가지 주의점이 있습니다.
- 위상(Topology) 처리의 한계: 다각형은 본질적으로 하나의 닫힌 폐곡선을 전제로 합니다. 따라서 도넛처럼 가운데 구멍이 뚫려 있거나(Hole), 가로수 뒤에 가려져 반으로 쪼개진 자동차처럼 여러 덩어리로 나뉜 객체는 단일 다각형만으로 온전히 표현하기 어렵습니다. 이런 환경에서는 다중 다각형 병합 알고리즘을 추가로 구성해야 합니다.
- 복잡한 윤곽선 검출의 한계: 엑스레이나 MRI에 나타나는 불규칙한 종양 세포, 나뭇잎의 세밀한 톱니바퀴 윤곽 등 곡률이 심하고 복잡한 형상은 수십 개의 다각형 점만으로 감싸기 부족합니다. 극도로 미세한 경계가 필요한 작업에는 오히려 SAM과 같은 픽셀 마스크 기반 분할이 유리할 수 있습니다.
- 사용자 병목의 잔존: 한 객체의 윤곽을 따는 시간은 극적으로 줄었으나, 이미지 속에 객체가 100개 있다면 사용자가 100개의 바운딩 박스를 먼저 일일이 그려주어야 한다는 초기 개입의 한계는 여전히 남아 있습니다. 논문에서는 바운딩 박스 작업이 다각형 라벨링에 비해 훨씬 저렴하고 빠르다는 점을 전제로 삼고 있습니다.
앞으로의 발전 방향
다각형 분할 기술은 객체를 탐지하는 단계부터 윤곽선 생성까지 인간의 바운딩 박스 개입 없이 한 번에 이루어지는 완전 자동화 형태(End-to-End)로 진화하고 있습니다. 향후에는 거대 언어 모델(LLM) 기반의 시각 모델들과 결합되어, 사용자가 "교차로에 진입하는 모든 차량의 윤곽선을 벡터 다각형 데이터로 추출해"라고 텍스트나 음성으로 명령하면 즉각적으로 정밀한 다각형 좌표 묶음을 반환하는 지능형 에이전트 시스템으로 확장될 것입니다.
결과적으로 이 논문은 인공지능이 인간의 단순 노동을 무조건적으로 흉내 내고 대체하는 것을 넘어, 인간의 피드백을 실시간으로 수용하며 작업 능력을 증폭시키는 진정한 의미의 '협업자(Copilot)'로 기능할 수 있는 프레임워크를 마련했다는 점에서 깊은 학술적, 산업적 의의를 지닙니다. 자율주행과 공간 컴퓨팅 등 벡터화된 세상의 정보가 더욱 중요해지는 환경 속에서, 현실의 객체들을 다각형의 점들로 추상화하여 이해하고자 했던 이들의 철학적 방향성은 앞으로도 강력한 실무적 동력으로 작용할 것입니다.