본문 바로가기

딥러닝

Polygon-RNN++ - 픽셀 대신 다각형을 그려 데이터 라벨링의 한계를 돌파하다

반응형


일러두기 (Disclaimer)

본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.

 

 

논문 링크 : https://arxiv.org/abs/1803.09693

 

Efficient Interactive Annotation of Segmentation Datasets with Polygon-RNN++

Manually labeling datasets with object masks is extremely time consuming. In this work, we follow the idea of Polygon-RNN to produce polygonal annotations of objects interactively using humans-in-the-loop. We introduce several important improvements to the

arxiv.org

 

 

초록 (Abstract)

데이터셋에 수작업으로 객체 마스크(Mask)를 라벨링하는 작업은 극도로 많은 시간을 소모합니다. 본 연구에서는 인간을 반복적인 작업 루프에 포함시켜(Humans-in-the-loop) 상호작용 방식으로 객체의 다각형(Polygonal) 어노테이션을 생성하는 Polygon-RNN의 아이디어를 발전시킵니다. 본 연구는 모델에 몇 가지 중요한 개선 사항을 도입합니다. 첫째, 새로운 합성곱 신경망(CNN) 인코더 아키텍처를 설계합니다. 둘째, 강화학습(Reinforcement Learning)을 활용하여 모델을 효과적으로 훈련하는 방법을 제시합니다. 셋째, 그래프 신경망(Graph Neural Network)을 사용하여 출력 해상도를 크게 높임으로써 모델이 이미지 내의 고해상도 객체를 정확하게 어노테이션할 수 있도록 합니다.

Cityscapes 데이터셋에 대한 광범위한 평가 결과, 본 연구에서 제안하는 Polygon-RNN++ 모델은 완전 자동 모드(평균 IoU 기준 절대 수치 10%, 상대 수치 16% 향상)와 상호작용 모드(작업자의 클릭 수 50% 감소) 모두에서 기존 모델을 크게 능가함을 보여줍니다. 나아가 하나의 데이터셋에서 훈련된 모델을 다양한 도메인의 데이터셋에 별도의 수정 없이 적용하는 교차 도메인(Cross-domain) 시나리오를 분석합니다. 그 결과, Polygon-RNN++는 기존의 픽셀 단위 방법론보다 유의미한 성능 향상을 달성하며 강력한 일반화 능력을 입증합니다. 간단한 온라인 미세 조정(Online fine-tuning)을 사용하면 새로운 데이터셋에 대한 라벨링 시간을 더욱 크게 단축할 수 있으며, 이는 실제 환경에서 사용 가능한 상호작용형 어노테이션 도구에 한 걸음 더 다가선 결과입니다.

 

1. 한줄 요약 & 3줄 핵심 (Executive Summary)

복잡한 이미지의 픽셀을 일일이 칠하는 기존의 분할 방식에서 벗어나, 강화학습과 그래프 신경망을 결합하여 객체의 외곽선을 다각형 꼭짓점의 연결 구조로 빠르고 정확하게 예측해 내는 효율적인 반자동 이미지 라벨링 인공지능 방법론입니다.

  1. 기존의 문제점 (Pain point): 자율주행이나 의료 영상 분석을 위한 딥러닝 모델을 학습시키려면 수많은 이미지 속 객체의 경계를 픽셀 단위로 정확하게 칠하는 정답(Ground Truth) 데이터가 필요하며, 이는 객체당 평균 20~30초가 소요되는 막대한 비용의 수작업을 동반합니다.
  2. 이 논문의 해결책 (Solution): 합성곱 신경망(CNN)으로 이미지의 특징을 파악한 뒤, 순환 신경망(RNN)과 강화학습을 통해 다각형의 꼭짓점을 순차적으로 예측하고, 이를 그래프 신경망(GGNN)으로 고해상도로 보정하여 객체의 윤곽선을 추출합니다.
  3. 달성한 성과 (Key Result): 이전 모델 대비 자동 예측 정확도(IoU)를 10% 이상 상향시켰고, 작업자가 수정해야 하는 클릭 수를 50% 줄였으며, 도로 주행 이미지로 훈련된 모델이 완전히 형태가 다른 의료 및 항공 이미지에서도 뛰어난 분할 성능을 발휘하는 범용성을 입증했습니다.

 

2. 들어가며: 왜 이 연구가 필요했나? (The "Why")

최근 컴퓨터 비전 분야, 특히 자율주행, 정밀 지도 제작, 의료 영상 진단 등에서는 이미지 내에 존재하는 모든 특정 클래스의 객체 위치를 파악하고 그 경계를 픽셀 단위로 분리해 내는 인스턴스 분할(Instance Segmentation) 기술이 필수적으로 요구됩니다. 이러한 시각적 인식 네트워크는 학습 과정에서 노출되는 데이터의 양과 다양성에 따라 실제 환경에서의 성능이 극적으로 달라집니다. 데이터가 많을수록 인공지능은 더 다양한 상황에 대처할 수 있습니다.

 

하지만 고품질의 분할 모델을 만들기 위한 정답 데이터 구축 작업은 산업계와 학계를 통틀어 심각한 병목 현상을 유발합니다. 이미지 내의 자동차, 보행자, 건물, 세포 등의 경계를 사람이 일일이 마우스로 클릭해가며 픽셀 단위의 분할 마스크를 그리는 수작업은 엄청난 인내심과 시간을 요구합니다. 보편적으로 이미지 내 객체 하나를 온전히 분할 라벨링하는 데 작업자 한 명이 20초에서 최대 40초의 시간을 소비합니다. 수백만 장의 이미지를 처리해야 하는 실무 환경에서는 이는 곧 천문학적인 비용과 시간 지연으로 직결됩니다.

 

과거에는 이러한 데이터 라벨링 작업을 가속하기 위해 그래프 컷(Graph-cut) 알고리즘을 기반으로 한 GrabCut이나, 신경망 기반의 DeepMask, SharpMask, DEXTR 같은 픽셀 수준의 상호작용형 분할 도구들이 널리 제안되었습니다. 작업자가 관심 객체 주변에 사각형 박스를 치거나 몇 번의 클릭(Scribble)으로 힌트를 제공하면, 알고리즘이 배경 픽셀과 전경 픽셀을 수학적으로 구분해 내는 방식입니다. 그러나 이 방식들에는 치명적인 단점이 존재합니다. 그림자가 드리워진 영역, 빛 번짐 현상이 있는 구역, 혹은 객체와 배경의 색상이 매우 유사해 경계가 모호한 곳에서는 모델이 엉뚱한 픽셀을 전경으로 묶어버리는 오류를 빈번하게 범합니다. 더 큰 문제는 오류를 수정하는 과정입니다. 모델이 예측한 픽셀 덩어리가 잘못되었을 때, 작업자는 이를 바로잡기 위해 경계면의 픽셀들을 다시 마우스 브러시로 정밀하게 칠하거나 지워야 합니다. 픽셀은 인간이 인지하고 수정하기에 단위가 너무 조밀하여 직관성이 떨어집니다.

 

연구자들은 이러한 현실적인 문제의식에서 출발하여 데이터의 표현 방식 자체를 바꾸는 고민을 시작했습니다. 픽셀 단위를 고집하는 대신 객체의 외곽선을 다각형(Polygon)으로 표현하고자 한 것입니다. 다각형은 단 몇 개의 꼭짓점(Vertex) 좌표만으로도 넓은 영역의 공간을 포괄적으로 정의할 수 있는 희소한(Sparse) 정보 표현 방식입니다. 만약 인공지능이 윤곽선을 따라 꼭짓점을 예측하여 다각형을 생성해 준다면, 작업자는 잘못 찍힌 꼭짓점 한두 개만 마우스로 클릭해서 위치를 이동시키면 됩니다. 수정 과정이 압도적으로 직관적이고 신속해집니다. 이 혁신적인 아이디어를 바탕으로 캐나다 토론토 대학교와 엔비디아(NVIDIA) 연구진이 선행 연구로 제안했던 모델이 Polygon-RNN입니다.

 

하지만 초기 버전인 Polygon-RNN 모델은 명확한 한계를 지니고 있었습니다. 모델의 출력 공간이 저해상도 격자로 제한되어 있어 크기가 큰 물체의 윤곽선이 부자연스럽고 각지게 나타났으며, 학습 과정에 내재된 구조적 결함으로 인해 길이가 긴 윤곽선을 추적할 때 오차가 눈덩이처럼 불어나는 문제가 있었습니다. 본 리뷰에서 심도 있게 다루는 Polygon-RNN++ 모델은 이러한 초기 모델의 맹점을 강화학습 프레임워크와 그래프 신경망 기술을 통해 돌파하며, 상호작용형 데이터 라벨링 도구가 실제 산업 현장에서 널리 쓰일 수 있도록 실용성을 한 단계 도약시킨 연구입니다.

 

3. 이 논문의 뿌리 (Key Reference)

본 연구는 컴퓨터 비전의 특징 추출 기법, 순차적 데이터 생성 모델, 그리고 그래프 기반의 노드 조정 기술이라는 세 가지 중요한 연구 흐름을 비판적으로 계승하고 융합하여 탄생했습니다.

  • Polygon-RNN (2017): 본 연구가 탄생하기 위한 가장 직접적인 기반이자 비판적 극복의 대상이 되는 핵심 선행 논문입니다. 이 논문은 이미지 분할 작업을 픽셀 분류가 아니라 2차원 공간상에서 다각형의 꼭짓점들을 순차적으로 예측해 나가는 문제로 최초로 치환했습니다. 이는 기존의 컴퓨터 비전 패러다임을 바꾼 창의적인 발상이었습니다. 하지만 이 초기 모델은 순환 신경망을 최대 우도 추정(MLE) 방식으로만 훈련시켰기 때문에, 예측 과정에서 이전 스텝의 작은 오차가 다음 스텝의 더 큰 오차를 유발하는 노출 편향(Exposure bias) 문제에 시달렸습니다. 본 연구는 이 다각형 생성 컨셉을 유지하되, 학습 패러다임을 강화학습으로 완전히 개편하여 단점을 보완했습니다.
  • ResNet (2016) 및 DeepLab (2015): 초기 Polygon-RNN은 이미지에서 시각적 특징을 뽑아내기 위해 VGG 아키텍처를 베이스로 사용했습니다. VGG 모델은 구조가 단순하지만, 신경망 층을 깊게 통과할수록 풀링(Pooling) 연산에 의해 원본 이미지의 공간적 해상도가 대폭 축소되는 문제가 발생합니다. 객체의 윤곽선을 정밀하게 포착하려면 픽셀 수준의 공간 정보가 유지되어야 합니다. 본 논문에서는 이 한계를 극복하기 위해 ResNet-50 구조의 스킵 커넥션(Skip Connection) 개념을 차용하여 깊은 신경망에서도 기울기 소실 없이 복잡한 특징을 학습할 수 있게 했습니다. 더 나아가, DeepLab 연구 등에서 제안된 확장 합성곱(Dilated Convolution) 기법을 접목했습니다. 확장 합성곱은 필터의 간격을 띄워서 연산함으로써, 이미지의 공간 해상도를 강제로 축소하지 않으면서도 각 뉴런이 바라보는 수용 영역(Receptive Field)을 넓게 유지합니다. 이를 통해 윤곽선 예측에 필수적인 정밀한 고해상도 특징 맵을 확보할 수 있었습니다.
  • Gated Graph Sequence Neural Networks (GGNN, 2016): 본 논문이 생성된 다각형의 해상도를 획기적으로 높이기 위해 도입한 그래프 신경망 구조입니다. 기존의 딥러닝 영상 분할 기법들은 저해상도 예측 결과를 고해상도로 복원하기 위해 연산량이 많은 디컨볼루션(Deconvolution) 층을 겹겹이 쌓아 올리는 방식을 주로 택했습니다. 하지만 본 연구는 거칠게 예측된 다각형의 꼭짓점들을 그래프의 '노드(Node)'로, 꼭짓점을 연결하는 윤곽선을 '간선(Edge)'으로 새롭게 정의했습니다. 그런 다음 GGNN의 메시지 전달(Message Passing) 메커니즘을 활용해 주변 노드들의 공간적 위치 정보를 교환하며 각 노드의 미세한 위치를 조정했습니다. 이는 픽셀 단위의 방대한 연산을 피하면서도 기하학적 형태의 정밀성을 높인 구조적 차용입니다.

 

4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)

이 논문이 제시한 해결책의 가장 중추적인 아이디어는 딥러닝 모델이 목표를 바라보는 관점을 픽셀의 군집에서 기하학적 형태의 최적화로, 그리고 정답 맞추기 시험에서 목적 달성을 위한 보드게임으로 전환한 것입니다.

 

과거의 인스턴스 분할 모델들은 "이 이미지에 포함된 수십만 개의 픽셀 하나하나가 자동차에 속하는 전경 픽셀인가, 아니면 배경 픽셀인가?"를 독립적으로 판단하려 애썼습니다. 반면 Polygon-RNN++는 시각적 객체를 윤곽선이라는 연속된 점들의 집합으로 봅니다. 모델이 풀어야 할 문제는 "자동차의 경계선을 따라 점을 이어 그린다면, 첫 번째 점의 좌표는 어디고, 그다음 점의 좌표는 어디인가?"로 단순화됩니다.

 

이전의 Polygon-RNN 모델 역시 동일한 질문을 던졌지만, 정답을 가르치는 방식이 강압적인 주입식 교육에 가까웠습니다. 모델은 지도 학습의 기본인 최대 우도 추정(MLE) 방식을 사용하여, 훈련 데이터에 있는 정답 점의 정확한 좌표를 매 순간 그대로 따라 찍도록 강요받았습니다. 하지만 실생활에서 사람이 그림을 그릴 때를 생각해 보면, 꼭 원본 사진의 윤곽선 좌표와 1픽셀의 오차도 없이 완벽하게 똑같은 위치에 점을 찍어야만 좋은 그림이 되는 것은 아닙니다. 다각형의 꼭짓점 위치가 미세하게 다르더라도, 결과적으로 그 점들을 이어서 만들어진 다각형의 형태와 면적이 실제 객체와 잘 겹친다면 그것은 충분히 성공적인 예측입니다. 기존 방식은 점의 위치가 단 1픽셀만 엇나가도 모델에게 치명적인 페널티를 주었고, 이는 모델의 학습을 지나치게 경직되게 만들었습니다.

이 지점에서 연구진의 중요한 발상의 전환이 일어납니다.

"매번 점이 정확히 어디에 찍혔는지 개별적으로 채점하지 말고, 모든 점을 다 찍고 최종적으로 완성된 다각형이 실제 정답 객체와 얼마나 잘 겹치는지(IoU)를 평가하여 점수를 주자."

 

이것이 바로 강화학습(Reinforcement Learning) 개념의 도입입니다. 모델을 훈련할 때, 모델은 확률에 기반하여 스스로 여러 위치에 자유롭게 꼭짓점들을 찍어 다각형을 완성해 보는 탐험(Exploration)을 수행합니다. 다각형이 완성되면, 그 다각형 내부의 면적과 실제 정답 마스크의 면적이 교차하는 비율을 계산하여 이를 보상(Reward)으로 삼습니다. 만약 우연히 시도한 점들의 궤적이 정답과 면적이 많이 겹쳐 높은 보상을 받으면, 모델은 그 점들을 선택했던 확률을 높이는 방향으로 학습을 진행합니다. 이로 인해 모델은 사소한 꼭짓점 하나의 위치 편차에 얽매이지 않고, 전체적인 객체의 형태를 더 유연하고 조화롭게 잡아내는 방법을 터득하게 됩니다.

 

또 다른 차별점은 다각형 해상도의 증강입니다. 이전 모델은 28x28 크기의 제한되고 거친 모눈종이 공간 안에서만 점을 찍도록 설계되었습니다. 그렇기 때문에 화면에 크게 나타나는 물체를 예측할 때는 마치 과거 저해상도 비디오 게임의 그래픽처럼 윤곽선에 계단 현상이 심하게 나타났습니다. 픽셀 공간 전체의 해상도를 키우자니 GPU 메모리 초과 문제가 발생했습니다. 본 연구는 이러한 딜레마를 영리하게 피해 갑니다. 거친 다각형의 점들을 선으로 이은 뒤, 점과 점을 연결하는 선분의 한가운데에 새로운 점을 강제로 하나씩 삽입합니다. 그런 다음, 그래프 신경망(GGNN)을 통해 이 새로운 점과 기존의 점들이 정답 윤곽선에 밀착되도록 위치를 미세하게 보정합니다. 이 과정을 통해 픽셀 단위의 방대한 계산 없이도 수학적인 좌표 연산만으로 112x112 수준의 고해상도 다각형을 매끄럽게 얻어내는 발상의 전환을 이뤄냈습니다.

 

5. 작동 원리: 어떻게 돌아가는가? (The "How")

원본 이미지가 모델에 입력되어 최종적으로 정밀한 다각형의 꼭짓점 좌표로 변환되어 나올 때까지의 데이터 처리 흐름(Flow)을 단계별로 살펴봅니다.

 

전체 아키텍처는 크게 네 부분으로 긴밀하게 연결되어 작동합니다. (1) 잔차 인코더(Residual Encoder), (2) 평가자 네트워크(Evaluator Network) 기반의 첫 번째 점 예측, (3) 어텐션 기반 순환 디코더(Recurrent Decoder), (4) GGNN 업스케일러.

 

Step 1. 이미지 특징 추출 (Residual Encoder)

시스템의 작동은 작업자가 이미지 내에서 관심 있는 객체 주변에 대략적인 사각형의 바운딩 박스(Bounding Box)를 치는 것에서 시작됩니다. 모델은 주변 맥락 정보를 포함하기 위해 이 박스보다 15% 더 넓은 영역의 이미지를 잘라내어 입력으로 받아들입니다. 잘려진 이미지는 ResNet-50 아키텍처를 변형한 특징 추출기를 통과하게 됩니다. 일반적인 CNN은 깊은 층으로 갈수록 풀링 연산으로 인해 이미지의 공간 해상도가 점점 작아지지만, 윤곽선을 세밀하게 따기 위해서는 공간 정보가 유지되어야 합니다. 따라서 네트워크는 보폭(Stride)을 줄이고 확장 인자(Dilation factor)를 적용하여 해상도의 손실을 막습니다. 동시에, 네트워크의 얕은 층에서 추출된 에지나 모서리 같은 저수준(Low-level) 세부 정보와, 깊은 층에서 추출된 객체의 의미적 고수준(High-level) 정보를 모두 보존하기 위해 스킵 커넥션을 이용해 다양한 층의 특징 맵을 가장 높은 해상도에서 하나로 이어 붙입니다. 연구진은 이렇게 융합된 정보를 '스킵 특징(Skip Features)'이라고 명명하며, 이는 이후 다각형을 그리는 모든 과정의 중요한 나침반 역할을 합니다.

 

Step 2. 첫 단추 꿰기와 평가자 네트워크 (First Vertex & Evaluator)

다각형 윤곽선을 순차적으로 그릴 때 성공을 좌우하는 가장 중요한 요소는 "첫 번째 점을 어디에 찍을 것인가?"입니다. 시작점을 잘못 잡으면 이후의 모든 꼭짓점 궤적이 엉망이 됩니다. 특히 두 객체가 겹쳐 있을 때, 예를 들어 주차된 자동차 앞에 보행자가 겹쳐서 서 있을 때 보행자의 경계선에 첫 점을 찍어버리면 모델이 자동차가 아닌 보행자를 따라 다각형을 그려버리는 심각한 오류가 발생합니다. 이 문제를 방지하기 위해 모델은 앞서 구한 스킵 특징을 바탕으로 첫 번째 점이 될 만한 유력한 후보 5개(K=5)를 뽑아냅니다. 그런 다음, 이 5개의 각기 다른 시작점 후보를 기준으로 빔 서치(Beam-search) 기법을 사용하여 임시로 5종류의 서로 다른 다각형 시퀀스를 끝까지 다 생성해 봅니다. 이때 본 연구에서 새로 고안한 평가자 네트워크(Evaluator Network)가 등장합니다. 이 네트워크는 임시로 완성된 5개의 다각형을 각각 살펴보고, "이 다각형이 실제 정답 다각형과 어느 정도의 비율로 겹칠 것(IoU)인가?"를 정량적으로 예측하여 점수를 매깁니다. 이 중 가장 높은 예측 IoU 점수를 받은 다각형의 시작점과 시퀀스를 최적의 궤적으로 채택합니다. (참고로 이 평가자 네트워크는 메인 모델의 강화학습(RL) 파인튜닝이 완료된 이후에, 정답 다각형과의 평균 제곱 오차(MSE)를 최소화하도록 별도로 훈련됩니다.)

 

Step 3. 점 이어 그리기 (Recurrent Decoder with Attention)

첫 번째 점이 확정되면, 공간적 기억 능력을 갖춘 순환 신경망인 ConvLSTM(Convolutional LSTM) 구조가 작동하여 다음 점들을 하나씩 차례로 예측하기 시작합니다. 일반적인 1차원 RNN은 문장을 처리하는 데 적합하지만, 이미지는 2차원 공간 정보를 가지므로 내부에 합성곱 연산을 품고 있는 ConvLSTM을 사용하여 2차원 공간의 맥락을 잃지 않도록 합니다. 이 과정에서 사람이 복잡한 도면을 따라 그릴 때 펜 끝의 위치에 시선을 집중하듯이, 모델도 어텐션(Attention) 메커니즘을 사용합니다. 모델은 자신이 직전 스텝에서 찍었던 점들의 위치와 숨겨진 상태(Hidden state) 정보를 바탕으로, 스킵 특징 맵 전체 중에서 "지금 집중해야 할 윤곽선 근처의 특정 영역"에만 가중치를 부여하여 집중적으로 바라봅니다. 이 집중된 국소 정보와 직전 스텝의 점 좌표를 조합하여, 28x28 크기의 모눈종이 공간 안에서 다음번 점이 위치할 최적의 좌표를 선택합니다. 다각형이 완전히 닫히는 지점에 도달했다고 판단하면 모델은 '종료 신호(End-of-sequence token)'를 출력하고 그리기 과정을 스스로 종료합니다.

 

Step 4. 고해상도로 다듬기 (GGNN Upscaling)

ConvLSTM이 그려낸 다각형은 연산량 제한으로 인해 28x28이라는 다소 거친 공간 해상도 내에서 만들어졌습니다. 이제 이 거친 다각형의 완성도를 극대화할 차례입니다. 모델은 예측된 점들을 선으로 잇고, 점과 점을 잇는 선분의 정중앙에 새로운 점(Midpoint)들을 하나씩 끼워 넣습니다. 이렇게 하면 꼭짓점의 개수가 두 배로 늘어나며 다각형이 더 잘게 쪼개집니다. 새로 추가된 점들과 기존의 점들은 이제 Gated Graph Neural Network(GGNN)의 개별 노드가 됩니다. 이 그래프 신경망은 인접한 노드들끼리 서로의 위치 정보와 이미지 특징을 주고받는 메시지 전달 과정을 수행합니다. 여러 번의 전달 단계를 거치면서, 112x112 해상도의 촘촘한 2D 격자상에서 각 노드가 초기 위치를 기준으로 어느 방향으로 얼마나 이동해야 하는지 좌표의 상대적 변위(Relative displacement)를 계산하여 다중 클래스 분류(Classification) 문제로 해결합니다. 결과적으로 초기 각진 모양의 폴리곤이 실물 윤곽에 딱 들어맞는 정밀하고 부드러운 형태의 고해상도 다각형으로 재구성됩니다.

 

이러한 전 과정을 거쳐 예측된 다각형이 작업자의 마음에 들지 않는 부분이 있다면, 상호작용 모드가 작동합니다. 작업자는 잘못 찍힌 특정 꼭짓점을 마우스로 잡아당겨 올바른 위치에 갖다 놓습니다. 그러면 모델은 작업자가 수정한 그 올바른 점을 새로운 기준 입력으로 삼아, 그 이후에 이어질 나머지 점들의 좌표를 순식간에 다시 계산하여 전체 다각형을 즉각적으로 수정해 냅니다. 이것이 바로 이 논문이 지향하는 효율적인 작업자 루프(Human-in-the-loop)의 정수입니다.

 

6. 작동 원리: 어떻게 학습하는가? (The "How")

뛰어난 구조를 갖춘 신경망이라 하더라도, 목표에 맞게 최적화된 학습 데이터 포맷과 훈련 시뮬레이션 방식이 없다면 무용지물입니다. 본 연구는 모델이 실제 산업 현장에서 작업자와 유기적으로 상호작용하는 상황을 가정하여 학습 과정을 세밀하게 구성했습니다.

 

  • 입력 데이터 포맷 및 종류: 학습을 진행하기 위해 필요한 입력 데이터는 크게 두 가지 요소의 쌍(Pair)으로 구성됩니다. 첫째는 RGB 채널을 가진 2D 원본 이미지 데이터이고, 둘째는 해당 이미지 속 대상 객체의 정답 바운딩 박스 및 다각형 꼭짓점 좌표 시퀀스(Text/Numeric Label)입니다. 예를 들어, 학습 데이터로 주어진 것이 "도로 위에 주차된 트럭" 이미지라고 가정합니다. 모델 학습을 위해서는 이 트럭의 대략적인 위치와 크기를 나타내는 사각형 박스의 [x_min, y_min, x_max, y_max] 좌표 데이터가 필요합니다. 동시에 트럭의 실제 윤곽선을 따라 시계 방향 혹은 반시계 방향으로 순차적으로 찍혀 있는 수십 개의 [x, y] 정답 좌표 리스트가 함께 제공되어야 합니다. 데이터 전처리 과정에서 모델은 이미지 전체를 한꺼번에 학습하지 않습니다. 주어진 바운딩 박스를 기준으로 객체 주변부를 15% 정도 확장하여 잘라낸(Crop) 후, 고정된 해상도(예: 224x224)로 크기를 재조정하여 입력 이미지로 사용합니다. 이를 통해 모델은 주변 배경 맥락을 유지하면서도 객체의 세부적인 윤곽에 집중할 수 있습니다.
  • 출력 데이터 포맷: 순환 신경망(RNN) 디코더가 최종적으로 산출하는 출력 데이터는 이미지 형태의 마스크 픽셀이 아니라, 수학적 이산 좌표의 확률 분포(Discrete Coordinate Probability Distribution)입니다. 모델의 1차 출력 공간은 가로와 세로를 28칸으로 나눈 28x28의 이산화된 격자 공간입니다. 따라서 RNN 디코더는 매 타임 스텝마다 총 $(28 \times 28) + 1 = 785$ 차원을 가지는 원-핫 인코딩(One-hot encoding) 형태의 벡터를 출력합니다.
    • 앞의 784개 차원은 모눈종이 위에서 점이 위치할 특정한 칸을 나타냅니다. 예측 과정은 "이번 꼭짓점은 28x28 격자 중 어느 칸에 속하는가?"를 맞추는 다중 클래스 분류(Classification) 문제의 형태를 띱니다.
    • 마지막 785번째 차원은 종료 기호(End-of-sequence token)를 나타냅니다. 예측된 다각형이 폐곡선을 이루어 출발점으로 돌아왔을 때, 이 기호를 출력하여 예측 시퀀스를 종료합니다.
    • 이후 GGNN 단계를 거쳐 출력되는 2차 데이터는 기존 좌표를 기준으로 112x112 격자 단위 상에서 노드가 이동해야 할 방향과 거리를 담은 수치적 변위(Relative displacement) 데이터입니다.
  • 강화학습 시뮬레이션을 통한 학습 훈련: 가장 눈여겨볼 학습 방식은 바로 상호작용 상황을 훈련 단계에 시뮬레이션하고, 강화학습을 적용했다는 점입니다. 모델 훈련 초기 단계에서는 정답 좌표를 알려주며 그대로 따라 하도록 하는 지도 학습(MLE)을 짧게 수행합니다. 하지만 이후 본격적인 미세 조정은 강화학습(RL)으로 이루어집니다. 학습 중 모델이 확률에 따라 다각형의 꼭짓점을 샘플링하여 완성하면, 시뮬레이터는 이 예측 다각형 내부의 면적과 실제 정답 다각형 면적 사이의 교집합 비율(IoU)을 계산합니다. 이를 보상 함수(Reward function)로 설정하여, 모델이 얻은 IoU가 기준선(자신의 평균 예측 성능)보다 높으면 해당 좌표를 선택했던 경로의 확률 가중치를 강화하고, 낮으면 확률을 낮추는 셀프 크리티컬 정책 경사(Self-Critical Policy Gradients) 기법을 사용합니다. 이와 동시에 훈련 환경 내에서 가상의 인간 작업자를 시뮬레이션합니다. 예측한 꼭짓점이 정답 위치에서 일정 임계거리(Threshold) 이상 벗어나면, 가상 작업자가 개입하여 강제로 해당 꼭짓점을 정답 위치로 바로잡아 줍니다. 모델은 이렇게 교정된 좌표를 현재 상태로 받아들여 다음 꼭짓점 예측을 계속 이어갑니다. 이러한 교정 시뮬레이션을 통해 모델은 실제 런타임 환경에서 인간이 중간에 꼭짓점을 수정하더라도 당황하지 않고 나머지 윤곽선을 자연스럽게 이어나가는 능력을 체득하게 됩니다.

 

7. 결과: 얼마나 좋아졌나? (Results)

본 연구진은 도출한 모든 구조적 개선 사항을 결합하여, 완전 자동화된 객체 분할과 상호작용 라벨링 양쪽 분야 모두에서 압도적인 성과를 입증했습니다. 성능 검증은 자율주행 연구에서 가장 널리 쓰이는 고해상도 독일 도시 주행 데이터셋인 Cityscapes 환경에서 이루어졌습니다.

 

완전 자동 모드의 SOTA 달성 (정확도 대폭 향상)

단 한 번의 인간 개입 없이 오직 모델의 추론만으로 만들어진 다각형의 품질을 비교했습니다. 기존의 픽셀 단위 예측 모델들과, 개선 전 초기 모델인 Polygon-RNN 간의 정답 교집합 비율(IoU, 높을수록 우수함)을 측정하여 비교한 결과는 아래 표와 같습니다.

평가 모델 (Cityscapes 데이터셋) 자동차 (Car) 사람 (Person) 자전거 (Bicycle) 트럭 (Truck) 평균 IoU (Mean)
DeepMask (픽셀 기반) 61.64% 47.93% 47.19% 63.15% 56.45%
SharpMask (픽셀 기반) 65.17% 53.63% 52.08% 65.49% 60.21%
기존 Polygon-RNN 71.17% 63.94% 52.13% 68.03% 61.40%
제안된 Polygon-RNN++ 79.08% 72.41% 63.06% 78.90% 71.38%

 

표에서 알 수 있듯, Polygon-RNN++ 모델은 모든 클래스에서 경쟁 모델들을 압도하며 최종 평균 IoU 71.38%를 달성했습니다. 기존 최고 성능 모델인 Polygon-RNN과 비교하여 절대 수치로 약 10%, 상대 수치로는 16%라는 괄목할 만한 성능 도약을 이뤘습니다. 특히 트럭, 버스, 자동차와 같은 주요 객체에서는 인공지능이 생성한 다각형과 사람이 그린 정답 간의 일치율이, 인간 작업자들끼리 동일 물체를 그렸을 때 나타나는 상호 일치도(Human agreement) 수준에 도달하는 기염을 토했습니다.

 

작업 속도 향상과 클릭 수 절감

상호작용형 툴의 존재 이유는 결국 인간 작업자의 시간을 얼마나 아껴주는가에 있습니다. 시뮬레이션 테스트 결과, 최종 다각형의 품질이 정답 대비 IoU 80% 이상의 높은 퀄리티를 달성하기 위해 작업자가 마우스로 개입하여 수정해야 하는 평균 꼭짓점 클릭 수를 측정했습니다. 그 결과, 이전 Polygon-RNN 모델에 비해 수정 요구 빈도가 50%나 급감했습니다. 객체당 평균 5번의 클릭 교정만 거치면 실무 데이터로 손색없는 고품질의 분할 마스크를 확보할 수 있었습니다. 나아가 연구진이 자체적으로 구성원들을 대상으로 실시한 실제 인간 작업(Human in the loop) 실험 결과는 작업 시간 단축의 효용을 여실히 증명합니다.

 

작업 방식 (Cityscapes 자동차 기준) 객체당 소요 시간 (초) 달성 정확도 (IoU)
수작업 완전 수동 라벨링 39.7 초 76.2%
Polygon-RNN++ 보조 라벨링 14.7 초 75.4%

 

툴을 사용하지 않고 자동차 한 대의 윤곽선을 따는 데는 무려 40초 가까이 소요되었지만, Polygon-RNN++ 모델의 예측을 기반으로 틀린 곳만 잡아당겨 수정하는 데는 단 14.7초만이 걸렸습니다. 약 2.7배의 가속이며, 그럼에도 얻어낸 데이터의 정확도는 수작업과 대등했습니다. 모델의 내부 예측 연산 속도 역시 Titan XP GPU 기준 객체 하나당 295ms에 불과하여, 사용자가 지연을 거의 느끼지 못하는 실시간 상호작용이 가능했습니다.

 

범용성 및 미세 조정을 통한 교차 도메인 성공

일반적인 픽셀 기반 딥러닝 모델은 학습 환경의 특성에 크게 좌우됩니다. 도로 주행 이미지로 훈련된 모델은 병원에서 촬영된 의료 이미지에 적용할 경우 형편없는 결과를 도출합니다. 그러나 본 모델은 픽셀의 질감보다는 객체의 "경계를 따라가는 기하학적 궤적" 자체를 이해하도록 학습되었기에, 놀라운 교차 도메인(Cross-Domain) 일반화 능력을 보여줍니다. Cityscapes(도로 주행) 데이터로만 훈련된 모델을 그대로 의료 현장의 세포 조직망 이미지(ssTEM), 심장 MRI(Cardiac MR), 그리고 하늘에서 내려다본 위성 항공 사진(Aerial Rooftop)에 투입하여 윤곽선을 추론하게 했습니다. 그 결과, 모델 구조를 전혀 바꾸지 않고도 기존 픽셀 분할 모델인 DeepMask 등이 해당 도메인에서 보여주는 성능을 큰 폭으로 앞지르는 윤곽선 추론 능력을 발휘했습니다. 여기에 간단한 온라인 미세 조정(Online Fine-tuning) 기법을 적용하여 새로운 도메인의 이미지를 소량(20~200장 내외) 추가 학습시키자, 작업자의 수정 클릭 요구량이 곧바로 65% 이상 감소했으며, 심장 MRI 데이터 같은 특정 의료 도메인에서는 거의 수정이 필요 없는 100% 절감률을 기록하기도 했습니다.

 

실패 케이스와 구조적 한계

물론 완벽한 모델은 아니며 특정 상황에서 실패 케이스가 뚜렷하게 관찰됩니다. 모델은 사용자에게 입력받은 하나의 바운딩 박스 내에서 가장 핵심적인 단일 객체만을 하나의 폐곡선(Closed Polygon)으로 예측하도록 구조화되어 있습니다. 따라서 자동차가 큰 가로등에 가려져 있어 시각적으로 두 부분으로 분리된 경우(Occlusion), 이 모델은 분리된 두 영역을 별도로 그리지 못하고 가려진 기둥 영역까지 포함하여 억지로 하나의 커다란 다각형으로 이어 붙이려는 실패 경향을 보입니다. 또한, 형태적 특성상 내부에 '구멍(Hole)'이 뚫린 복잡한 형태의 다각형(예: 손잡이가 있는 머그컵)의 윤곽을 온전히 표현하는 데에는 구조적인 한계가 있음을 논문에서도 한계점으로 적시하고 있습니다.

 

8. 이 논문의 계보와 발전 (Impact & Follow-ups)

Polygon-RNN++가 컴퓨터 비전 역사에 남긴 가장 가치 있는 유산은 "이미지 인스턴스 분할을 픽셀 분류 문제에만 국한하지 않고 기하학적 벡터(다각형 좌표)의 연속적인 추론 문제로도 훌륭하게 풀어낼 수 있다"는 사실을 실증한 것입니다. 이 논문의 큰 성공 이후, 산업계와 학계에서는 다각형 좌표 예측 구조의 한계를 보완하고 처리 속도를 극대화하는 방향으로 라벨링 도구 연구의 트렌드를 발전시켜 나갔습니다. 독자분들이 추가로 살펴보면 좋을 흥미로운 최신 연구 계보들을 소개합니다.

  • Curve-GCN (2019) - "순차적 그리기 방식의 완전한 탈피": 본 논문 발표 1년 후, 동일한 토론토 대학교와 엔비디아(NVIDIA) 연구진이 후속작으로 내놓은 매우 결정적인 연구입니다. Polygon-RNN++ 모델이 지닌 가장 큰 구조적 병목은 순환 신경망(RNN)이 가지는 태생적인 '순차성'에 있었습니다. 한 점을 찍고, 그 점을 바탕으로 다음 점을 찍는 과정을 반복해야 하므로 점의 개수가 많아질수록 추론 시간이 길어질 수밖에 없습니다. Curve-GCN 연구는 이 한계를 깨기 위해 RNN을 완전히 버리고, 그래프 합성곱 신경망(Graph Convolutional Network, GCN)을 도입하여 객체를 구성하는 다각형의 모든 꼭짓점 위치를 한꺼번에(Simultaneously) 동시에 예측해 버리는 또 한 번의 발상 전환을 이뤄냈습니다. 그 결과, 모델의 작동 속도는 Polygon-RNN++ 대비 완전 자동 모드에서 10배(29.3ms), 상호작용 모드에서는 무려 100배(2.6ms)나 더 빨라졌으며 분할 성능조차 우위를 점했습니다. 이 연구를 기점으로 실시간 인터랙티브 다각형 라벨링 효율성이 한 차원 더 높은 수준으로 도약하게 됩니다.
  • PolyFormer (2023) - "트랜스포머 시대를 맞이한 벡터 예측": 자연어 처리 분야를 평정한 트랜스포머(Transformer) 아키텍처가 컴퓨터 비전 분야로 광범위하게 유입되면서 다각형 예측 모델들도 진화했습니다. PolyFormer 연구는 Polygon-RNN의 초기 기하학적 아이디어를 발전시켜, 시각 정보뿐만 아니라 언어까지 융합했습니다. 사용자가 "오른쪽에 있는 빨간색 차"와 같은 텍스트 설명을 입력하면, 모델이 해당 객체를 스스로 탐색하여 트랜스포머 기반의 인코더-디코더 구조로 다각형 좌표의 시퀀스를 유창하게 생성해 냅니다. 과거 RNN이 겪었던 기억 소실 문제 없이 어텐션(Attention)만을 활용하여 훨씬 복잡하고 가려진 형상도 정밀하게 잘라내는 놀라운 성과를 보여줍니다.
  • Segment Anything Model (SAM) 시리즈 (2023-2026) - "파운데이션 모델과 융합의 시대": 가장 최근 컴퓨터 비전 생태계를 뒤흔든 지각변동은 메타(Meta)에서 발표한 SAM(1, 2, 3) 시리즈와 같은 초거대 파운데이션 모델(Foundation Models)의 등장입니다. SAM은 수십억 개의 픽셀 마스크 데이터로 사전 학습된 거대 모델로, 사용자가 점 하나만 찍거나 텍스트 프롬프트를 입력하면 제로샷(Zero-shot) 수준으로 이미지 내 어떤 객체든 즉각적으로 마스크를 씌워 분할해 냅니다. 그렇다면 SAM의 등장으로 Polygon-RNN과 같은 다각형 기반 모델은 수명을 다했을까요? 그렇지 않습니다. SAM 시리즈는 여전히 출력 결과물을 픽셀 단위의 비트맵 마스크(Mask) 형태로 제공합니다. 실제 정밀한 지리 정보 시스템(GIS), 위성 항공 지도 건물의 형태 추출, 3D 모델링, 혹은 자율주행 차선 추출 등의 응용 분야에서는 수많은 픽셀 덩어리보다는 용량이 작고 위상 수학적 구조가 명확한 '벡터(Vector) 다각형 좌표' 정보가 직접적으로 필요한 경우가 많습니다. 따라서 가장 최근의 연구 트렌드(2025-2026년형 모델)는 SAM이나 SAM3와 같은 막강한 파운데이션 모델을 통해 1차적으로 객체의 의미론적 특징과 대략적인 마스크를 추출해 내고, 그 결과물을 Polygon-RNN, PolyGeom 혹은 PDAA 같은 그래프 벡터 모델이 이어받아 산업용 표준 규격인 부드럽고 매끄러운 다각형 좌표로 최종 정제하는 융합 하이브리드(Hybrid) 아키텍처 형태로 진화하고 있습니다.

 

9. 마무리

지금까지 심도 있게 살펴본 Polygon-RNN++ 연구는 단순하게 수치적인 모델 성능 개선을 이룬 논문을 넘어서, 컴퓨터 비전 시스템 설계 및 인간-컴퓨터 상호작용(HCI) 관점에 있어 매우 귀중한 설계적 인사이트를 제시합니다.

 

이 연구가 딥러닝 산업계에 끼친 가장 독창적인 영향은 "기계가 내뱉는 데이터의 출력 방식을, 인간이 개입하고 상호작용하기 가장 편리한 구조로 강제적으로 맞추었다"는 점입니다. 딥러닝 모델이 수학적으로 최적화하기 편한 픽셀 단위 확률 맵 출력이 아니라, 인간 작업자가 마우스로 직관적으로 클릭하고 수정하기 쉬운 '꼭짓점과 선형 연결'이라는 공간 벡터 구조(Spatial Vector Structure)로 문제의 정의 자체를 비틀었습니다. 더 나아가, 이 과정에서 필연적으로 발생하는 수학적 채점의 괴리(이산화된 좌표계를 평가하는 문제)를 강화학습의 IoU 보상 설계라는 창의적인 수단으로 우회하여 성공적으로 안착시켰습니다.

 

하지만 실제로 이 훌륭한 모델 아키텍처를 실무 프로젝트나 파이프라인에 직접 구축하고자 할 때는 간과해서는 안 될 치명적인 주의점(Pitfalls)들이 존재합니다.

  1. 메모리 압박과 순차 연산의 한계 (GPU Memory & Unroll Constraints): 다각형을 구성해야 하는 꼭짓점의 수가 많아질수록 내부의 순환 신경망(ConvLSTM)은 그 길이만큼 시퀀스를 풀어서(Unroll) 연속 예측 연산을 수행해야 합니다. 복잡한 형태의 물체일수록 더 많은 타임 스텝이 필요하며, 이는 곧바로 GPU 메모리의 기하급수적인 점유로 이어집니다. 순환 신경망(RNN) 구조의 특성상 시퀀스가 지나치게 길어지면 연산량과 메모리 점유율이 폭증하므로, 실제 실무 적용 시에는 연산 한계를 고려하여 최대 타임 스텝(Time steps)을 적정 수준(예: 70회 내외)으로 강제 제한해야 하는 경우가 많습니다. 즉, 매우 복잡한 해안선이나 엄청나게 구불구불한 산맥의 지형 윤곽선처럼 수백 개의 정밀한 점이 필요한 대형 객체를 추론해야 하는 프로젝트에 이 모델을 원형 그대로 적용할 경우, 심각한 성능 병목 현상에 직면할 위험이 큽니다.   
  2. 데이터 전처리의 과도한 의존성 (Bounding Box Dependency): 이 모델은 이미지를 입력받았을 때 처음부터 완전히 자율적으로 어떤 객체가 있는지 탐지하는 모델이 아닙니다. 사용자가, 혹은 다른 선행 알고리즘이 '정답 바운딩 박스(Bounding Box)'를 명시적으로 제공해야만 그 내부의 윤곽선을 추론하기 시작합니다. 만약 선행 작업에서 제공된 바운딩 박스가 15% 이상 어긋나 있거나 박스 내에 다른 노이즈가 과하게 포함되어 있다면, 모델의 추론 정확도(IoU)는 급락하기 시작합니다. 따라서 실무 파이프라인을 설계할 때는 객체 탐지 전용 모델(예: Faster-RCNN 또는 YOLO 계열)과 결합하여 신뢰할 수 있는 1차 바운딩 박스를 자동으로 얻어내는 파이프라인의 전단 설계가 필수불가결하게 요구됩니다.   
  3. 다중 분리 객체의 형태적 한계: 앞선 결과 분석에서도 언급했듯, 모델은 하나의 시작점에서 출발하여 끊기지 않고 원래 자리로 돌아와 폐곡선을 형성하는 위상 구조를 상정합니다. 만약 나뭇가지 뒤에 숨어있는 사람이나, 구조물에 의해 완전히 몸체가 둘로 분리되어 보이는 객체 데이터를 수집하는 프로젝트라면 이 다각형 생성 알고리즘은 픽셀 기반 모델보다 현격히 떨어지는 성과를 보일 수 있습니다.   

 

결론적으로 Polygon-RNN++는 "인공지능이 스스로 모든 것을 끝내는 것이 아니라, 인간 라벨러(Labeler)의 손발이 되어 가장 효율적으로 협업하는 방법"의 가능성을 한 차원 끌어올린 연구입니다. 지금의 시대에는 메타(Meta)의 SAM 시리즈와 같은 초거대 비전 파운데이션 모델들이 압도적인 성능으로 화려한 스포트라이트를 받고 있지만, 이러한 거대 파라미터 모델은 중소기업이나 연구실의 현장 로컬 디바이스에 배포하여 구동하기에는 지나치게 무겁고 값비싸며 출력 포맷을 입맛에 맞게 조작하기가 매우 까다롭습니다.   

 

건축 평면도의 구조적 생성, 도로망의 차선 벡터 네트워크 추출, 위성 지도의 건물 외곽선 변환 등 픽셀 이미지 자체가 아니라 '벡터 그래픽의 위상(Topology) 정보'가 최종 결과물로 요구되는 산업 분야에서는, 무거운 마스크를 출력하는 대신 경량화된 구조로 점과 선, 다각형 좌표를 직접 예측해 내는 Polygon-RNN 계열의 기본 철학이 앞으로도 여전히 실용적이고 강력한 도구로 살아남을 것입니다. 앞으로의 시각 인공지능 연구는 거대 모델의 압도적이고 범용적인 특징 추출 능력과, Polygon-RNN++가 선구적으로 고안했던 강화학습 기반의 정교하고 직관적인 기하학적 제약 기술이 결합되어, 최소한의 컴퓨팅 자원으로도 최고의 벡터 데이터를 생산해 내는 도메인 특화 라벨링 도구 시스템을 완성하는 방향으로 나아갈 것으로 전망합니다.   

 

반응형