본문 바로가기

딥러닝

PIDNet - 고전 제어 이론은 어떻게 딥러닝의 경계 번짐(Overshoot) 문제를 해결했나?

반응형


일러두기 (Disclaimer)

본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.

 

 

논문 링크 : https://arxiv.org/abs/2206.02066

 

PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers

Two-branch network architecture has shown its efficiency and effectiveness in real-time semantic segmentation tasks. However, direct fusion of high-resolution details and low-frequency context has the drawback of detailed features being easily overwhelmed

arxiv.org

 

 

초록 (Abstract)

Two-branch network 아키텍처는 실시간 의미론적 분할(Real-time semantic segmentation) 작업에서 효율성과 효과성을 입증해 왔습니다. 그러나 고해상도 세부 정보(High-resolution details)와 저주파 문맥(Low-frequency context)을 직접 융합하는 방식은 세부적인 특징들이 주변의 문맥 정보에 의해 쉽게 압도되는 단점을 가지고 있습니다. 이러한 Overshoot 현상은 기존 투 브랜치 모델들의 분할 정확도 향상을 제한합니다. 본 논문에서는 합성곱 신경망(CNN)과 비례-적분-미분(PID) 제어기 사이의 연관성을 제시하고, Two-branch network가 비례-적분(PI) 제어기와 동등하며 본질적으로 유사한 Overshoot 문제를 겪고 있음을 밝힙니다. 이 문제를 완화하기 위해 우리는 새로운 Three-branch netowrk 아키텍처인 PIDNet을 제안합니다. 이 네트워크는 각각 세부 정보, 문맥, 그리고 경계 정보를 분석하는 세 개의 브랜치를 포함하며, 세부 정보와 문맥 브랜치의 융합을 안내하기 위해 경계 어텐션(Boundary attention)을 사용합니다. 우리가 제안한 PIDNet 제품군은 추론 속도와 정확도 사이에서 최상의 균형을 달성하였으며, Cityscapes 및 CamVid 데이터셋에서 유사한 추론 속도를 가진 모든 기존 모델들의 정확도를 능가합니다. 구체적으로, PIDNet-S는 Cityscapes에서 93.2 FPS의 추론 속도로 78.6% mIOU를, CamVid에서 153.7 FPS의 속도로 80.1% mIOU를 달성했습니다.

 

1. 한줄 요약 & 3줄 핵심 (Executive Summary)

이 논문은 고전적인 기계 제어 이론인 PID(비례-적분-미분) 제어기의 원리를 딥러닝 아키텍처에 차용하여 실시간 이미지 분할 모델의 고질적인 경계선 뭉개짐 현상을 해결한 Three-branch Network를 제안합니다.

  1. 기존의 문제점 (Pain point): Two-branch 모델은 넓은 시야를 보는 문맥 정보와 좁은 시야를 보는 세부 정보를 단순히 융합하는 과정에서, 물체의 얇은 경계선이나 작은 객체의 정보가 거대한 배경 정보에 먹혀버리는 'Overshoot' 문제가 발생했습니다.
  2. 이 논문의 해결책 (Solution): 제어 공학의 PID 제어기 개념에서 영감을 얻어, 객체의 경계선(미분, Derivative)을 전담으로 추출하는 세 번째 브랜치를 추가하고 이를 바탕으로 세부 정보와 문맥 정보의 융합 비율을 조절하는 새로운 구조(PIDNet)를 설계했습니다.
  3. 달성한 성과 (Key Result): Cityscapes 데이터셋 기준 초당 93.2장의 이미지를 처리하면서도(93.2 FPS) 78.6%의 높은 정확도(mIOU)를 기록하여, 현존하는 실시간 분할 모델 중 속도와 정확도 면에서 최고 수준(SOTA)을 달성했습니다.

 

2. 들어가며: 왜 이 연구가 필요했나? (The "Why")

자율주행 자동차, 의료 영상 진단, 로봇 수술, 그리고 원격 탐사와 같은 최첨단 지능형 시스템에서 '의미론적 분할(Semantic Segmentation)'은 컴퓨터 비전의 핵심적인 인지 기술로 자리 잡았습니다. 이 기술은 입력된 2D 이미지의 모든 개별 픽셀이 어떤 객체 클래스(예: 자동차, 보행자, 도로, 하늘, 나무 등)에 속하는지 픽셀 단위로 분류하는 고도의 작업입니다. 컴퓨터가 세상을 이해하는 가장 세밀한 방식이라고 할 수 있습니다.

 

초기 의미론적 분할 분야는 FCN(Fully Convolutional Networks)이나 U-Net과 같은 인코더-디코더(Encoder-Decoder) 구조가 지배했습니다. 이 방식은 입력 이미지를 깊은 합성곱 계층을 통해 점진적으로 압축하여 전체적인 형태와 문맥(Context)을 파악한 뒤, 다시 원래의 이미지 크기로 점진적으로 확장하며 잃어버렸던 세부적인 위치 정보(Detail)를 복원하는 방식을 취합니다. 이후 DeepLab, PSPNet 등과 같이 확장된 수용 영역(Receptive Field)을 활용하여 다중 스케일의 문맥 정보를 포착하는 모델들이 등장하며 분할 정확도는 괄목할 만큼 향상되었습니다.

 

하지만 이러한 고정밀 모델들은 치명적인 단점을 안고 있었습니다. 수백만에서 수천만 개에 달하는 매개변수와 방대한 연산량으로 인해 이미지를 처리하는 데 막대한 시간이 소요된다는 점입니다. 자율주행 자동차는 시속 100km로 달리는 와중에도 밀리초(ms) 단위로 변화하는 도로 상황을 즉각적으로 인식해야 합니다. 연산에 수백 밀리초가 걸리는 무거운 모델은 실제 산업 현장에 배포하기에 부적합했습니다.

 

이러한 속도 문제를 해결하기 위해 연구자들은 파라미터를 대폭 줄인 ENet, MobileNet 기반의 경량화 모델들을 대안으로 내놓았습니다. 깊이별 분리 합성곱(Depth-wise separable convolution) 등을 도입해 연산량을 획기적으로 줄여 모바일 기기나 임베디드 보드에서도 실시간(Real-time)으로 동작할 수 있게 만들었습니다. 그러나 속도를 얻은 대신 분할 정확도가 크게 훼손되었습니다. 도로 위의 작은 표지판이나 멀리 있는 보행자를 배경으로 오인하는 등, 정확도의 하락은 곧바로 안전과 직결되는 위험 요소가 되었습니다.

 

정확도와 속도라는 상충하는 두 가지 목표를 동시에 달성하기 위한 치열한 연구 끝에 등장한 구원투수가 바로 Two-Branch Network 아키텍처입니다. Two-Branch Network는 이미지를 처리하는 신경망의 경로를 두 갈래로 나눕니다. 첫 번째 경로는 공간적 해상도를 줄이지 않고 얕게 연산하여 이미지의 기하학적 윤곽이나 픽셀의 세밀한 위치(Detail)를 유지합니다. 두 번째 경로는 해상도를 빠르게 축소하면서 깊은 연산을 수행하여 현재 픽셀이 도로인지 보행자인지를 판별하는 넓은 시야의 문맥(Context)을 파악합니다. 두 경로에서 평행하게 추출된 정보를 마지막에 결합함으로써, 무거운 디코더 과정 없이도 실시간 처리 속도와 높은 정확도를 동시에 확보할 수 있었습니다. BiSeNet이나 DDRNet과 같은 모델들이 이 방식을 채택하여 학계의 표준으로 자리 잡았습니다.

 

하지만 Two-Branch Network 역시 완벽하지 않았으며, 실전 배포 과정에서 치명적인 한계가 관찰되었습니다. 바로 이 논문의 저자들이 'Overshoot' 현상이라고 명명한 문제입니다. 공간적 디테일을 담은 고해상도 특징과 의미론적 문맥을 담은 저해상도 특징을 직접적으로 더하거나 합치는 과정에서, 강력하고 덩치가 큰 저주파 문맥 정보가 작고 얇은 객체의 고주파 세부 정보를 덮어버리는 현상이 발생한 것입니다.

 

예를 들어, 넓은 도로(거대한 문맥) 위에 서 있는 얇은 가로등 기둥이나 멀리 위치한 작은 보행자(세부 정보)가 주변의 도로 픽셀 특징에 동화되어 화면에서 지워지거나, 물체와 물체가 만나는 경계선 부근의 픽셀들이 모호하게 뭉개지는 현상이 반복되었습니다. 연구자들은 "어떻게 하면 문맥 정보의 풍부한 의미를 유지하면서도, 작은 물체와 경계선의 뚜렷한 세부 정보를 잃지 않게 융합할 수 있을까?"라는 근본적인 벽에 부딪혔습니다. 놀랍게도 이들은 컴퓨터 과학의 범주를 넘어 기계 공학 및 자동 제어 분야에서 수십 년간 널리 쓰이던 'PID 제어기'에서 그 돌파구를 찾아냈습니다.

 

3. 이 논문의 뿌리 (Key Reference)

이 연구는 실시간 영상 분할 분야의 핵심 선행 연구들을 비판적으로 수용하고 계승하는 동시에, 딥러닝 외부의 제어 이론을 창의적으로 융합하여 탄생했습니다. PIDNet을 이해하기 위해 알아야 할 세 가지 핵심 뿌리를 아래와 같이 정리합니다.

  • 고전 PID 제어기 (Classic PID Controller): 1922년 공식화된 이후 화학 공정, 모터 제어 등에 쓰이는 산업계의 표준 피드백 제어 기법입니다. 현재 오차(비례, P), 누적 오차(적분, I), 오차의 변화율(미분, D)을 조합합니다. PIDNet은 Two-Branch Network가 P와 I로만 구성된 불완전한 상태임을 수학적으로 증명하고, 미싱 링크였던 D(미분)를 인공지능 네트워크 공간에 시각적으로 구현하는 핵심 아이디어를 차용했습니다.
  • BiSeNet (2018): 실시간 의미론적 분할의 새로운 표준을 제시한 초기 Two-Branch Network입니다. 공간 세부 정보를 유지하는 'Spatial Path'와 문맥을 파악하는 'Context Path'를 물리적으로 분리한 선구적인 모델입니다. PIDNet은 이러한 경로 분리 개념을 기초 백본 구조의 영감으로 받아들였습니다.
  • DDRNet (2021): BiSeNet을 발전시켜, 두 브랜치가 완전히 독립적으로 동작하는 대신 학습 과정 중간중간 지속적으로 정보를 교환(Bilateral connection)하도록 만들어 성능을 극대화했습니다. PIDNet은 DDRNet의 하드웨어 친화적인 'Cascaded residual blocks' 구조를 기본 뼈대로 계승하되, 두 브랜치만으로는 경계선이 뭉개진다는 단점을 지적하며 세 번째 브랜치를 추가하는 발전의 토대로 삼았습니다.

 

4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)

이 논문의 가장 돋보이는 학술적 성취는 복잡한 다중 경로 딥러닝 아키텍처를 직관적인 물리적 제어 시스템에 비유(Analogy)하여 수학적 등가성을 증명한 대목입니다

 

우리가 자동차의 '크루즈 컨트롤(정속 주행 장치)'을 사용하여 목표 속도인 시속 100km에 도달하려 한다고 가정해 보겠습니다.

  • P (Proportional, 비례) 제어기: 현재 속도와 목표 속도(100km/h)의 차이에 비례해서 가속 페달을 밟습니다. 속도가 90km/h이면 페달을 세게 밟고, 99km/h이면 살짝만 밟습니다. 하지만 목표에 극도로 가까워질수록 페달을 밟는 힘이 너무 약해져, 저항을 이기지 못하고 정확히 100km/h에 도달하지 못한 채 98km/h쯤에 머무는 한계가 있습니다.
  • I (Integral, 적분) 제어기: 과거부터 지금까지 속도가 목표치에 도달하지 못한 '누적 오차'를 기억해 두었다가 가속 페달을 추가로 더 밟습니다. 이렇게 하면 결국 100km/h를 달성할 수 있지만, 과거에 누적된 가속 관성 때문에 100km/h에서 멈추지 못하고 105km/h까지 속도가 위로 튀어버립니다. 이를 제어 공학에서는 'Overshoot'이라고 부릅니다.
  • D (Derivative, 미분) 제어기: 속도가 변하는 '가속도(기울기)'를 감지합니다. 속도가 100km/h를 향해 너무 빠르게 치솟고 있다면, D 제어기가 일종의 브레이크(댐퍼) 역할을 하여 Overshoot이 발생하지 않고 목표 속도에 부드럽게 안착하도록 억제합니다.

저자들은 푸리에 변환(Fourier domain)을 통한 주파수 해석을 통해, 기존의 Two-branch Network가 정확히 'PI 제어기'와 동일한 수학적 동작을 수행한다고 분석했습니다.

  1. 세부 정보 브랜치(Detail Branch) = P 제어기: 이 브랜치는 원본 해상도를 유지하므로 픽셀 주변의 좁은 영역(Local)만 관찰합니다. 즉, 현재 위치의 공간적 특성에 민감하게 반응합니다. 하지만 넓은 시야가 없어 전체적인 문맥을 보지 못하므로 픽셀이 어떤 객체인지 정확히 판단하는 데 한계가 있습니다.
  2. 문맥 브랜치(Context Branch) = I 제어기: 이 브랜치는 해상도를 줄이면서 넓은 영역의 픽셀 정보(History)를 계속 누적하여 관찰합니다. 객체의 종류를 정확히 맞추는 능력이 탁월하지만, 정보가 방대하게 누적되다 보니 픽셀 값이 급격히 변하는 부분에 빠르게 반응하지 못합니다. 그 결과, 경계선 픽셀들을 부드럽게 뭉개버리며 자동차가 차선을 덮어버리는 형태의 공간적 Overshoot이 발생합니다.
"이전 모델들은 PI(세부 정보 + 문맥 정보) 결합으로 인해 필연적으로 경계가 뭉개지는 오류를 안고 있었는데, 본 논문은 공간적 D(미분) 브랜치를 추가하는 발상의 전환을 이루어냈습니다."

 

2D 이미지 공간상에서 픽셀 값의 '미분(변화율)'이 가장 급격하게 일어나는 곳은 어디일까요? 바로 물체와 물체가 만나는 경계선(Boundary) 영역입니다. 예를 들어, 검은색 자동차 타이어 픽셀에서 밝은 회색 도로 픽셀로 넘어가는 찰나의 순간에 픽셀 값은 급격한 기울기를 가집니다.

 

따라서 연구진은 자동차의 가속 관성을 제어하는 D 제어기처럼, Two-Branch Network에 '미분(경계선 추출) 브랜치'를 세 번째 브랜치로 추가했습니다. 이 세 번째 브랜치는 이미지에서 엣지(Edge, 윤곽선)만을 집중적으로 찾아내는 특수 임무를 부여받습니다. 이후 P(세부) 브랜치와 I(문맥) 브랜치를 최종적으로 합칠 때, 이 D(경계) 정보를 길잡이로 삼아 "이 픽셀은 물체의 경계선이므로 둔탁한 문맥 정보(I)의 반영을 줄이고 날카로운 세부 정보(P)를 더 강하게 적용하라"고 지시를 내립니다. 이를 통해 거대한 문맥 정보가 세부 정보를 덮어버리는 Overshoot 문제를 수학적이고 구조적으로 차단한 것이 바로 PIDNet의 설계 철학입니다.

 

5. 작동 원리: 어떻게 돌아가는가? (The "How")

PIDNet의 전체 아키텍처는 P(비례), I(적분), D(미분)를 담당하는 세 개의 병렬 브랜치로 구성되어 데이터가 물 흐르듯 유기적으로 처리됩니다. 복잡한 수식과 증명을 제외하고, 실제 입력된 이미지가 어떻게 분할 지도(Segmentation Map)로 출력되는지 데이터의 처리 흐름을 Step-by-step으로 살펴보겠습니다.

 

초기 특징 추출 및 분배 (Feature Extraction)

처음 이미지가 신경망에 입력되면, 하드웨어 연산 효율이 높은 잔차 블록(Cascaded residual blocks)으로 구성된 초기 계층(Stage 0~2)을 통과하며 엣지, 색상, 질감 등 기초적인 시각적 특징들이 추출됩니다. 이후 데이터의 흐름은 각자의 특화된 역할을 위해 세 갈래로 나뉩니다.

  • P 브랜치 (Proportional / 세부 정보): 이 경로는 해상도를 크게 줄이지 않습니다(원본의 1/8 크기로 고정 유지). 또한 합성곱 계층의 깊이가 얕아 연산이 가볍습니다. 이 경로의 목적은 오직 픽셀의 정확한 물리적 위치와 기하학적 윤곽 디테일을 잃지 않고 끝까지 보존하는 것입니다.
  • I 브랜치 (Integral / 문맥 정보): 이 경로는 이미지를 과감하게 반복적으로 축소합니다(1/16, 1/32, 1/64 크기까지 다운샘플링). 해상도가 작아진 만큼 동일한 크기의 필터로도 훨씬 더 넓은 영역의 이미지를 한눈에 파악할 수 있게 되어 시야(Receptive Field)가 극대화됩니다. 네트워크의 깊이 또한 가장 깊어, 화면 전체의 의미론적 문맥을 폭넓고 깊게 학습합니다.
  • D 브랜치 (Derivative / 경계 정보): P와 I 브랜치가 본격적으로 깊어지기 전의 얕은 계층에서 새롭게 파생되어 나옵니다. 픽셀 간의 의미론적 차이가 발생하는 객체의 고주파 특징, 즉 윤곽선과 경계 영역만을 집중적으로 추출하는 파수꾼 역할을 수행합니다.

 

똑똑하게 정보 넘겨주기: Pag 모듈 (Pixel-attention-guided fusion)

P 브랜치는 해상도가 높지만 연산 깊이가 얕아 이미지의 '깊은 의미(Semantic)'를 이해하지 못합니다. 반면 I 브랜치는 깊은 의미를 잘 알지만 위치 정보가 뭉뚱그려져 있습니다. 따라서 신경망 중간중간에 I 브랜치의 깊은 지식을 P 브랜치로 넘겨주어 학습을 도와야 합니다. 이때 무턱대고 두 텐서(데이터 덩어리)를 덧셈하면 앞서 언급한 Overshoot이 일어납니다. 이를 방지하기 위해 Pag (Pixel-attention-guided fusion) 모듈을 통과시킵니다.

  • 작동 방식: 어텐션 메커니즘(Attention Mechanism)을 활용합니다. P와 I의 동일한 위치에 있는 픽셀 특징 벡터를 서로 곱해, 해당 픽셀들이 같은 객체에 속할 확률(시그모이드 함수를 통과한 0~1 사이의 값)을 산출합니다.
  • 확률이 높다면 두 픽셀이 객체의 안정적인 내부에 위치한다는 뜻이므로, 깊고 정확한 I 브랜치의 정보를 더 강하게 수용합니다. 반대로 확률이 낮다면 경계선 부근이나 노이즈일 가능성이 크므로, I 브랜치의 정보가 P의 섬세한 디테일을 훼손하지 못하도록 수용을 차단하고 P의 기존 정보를 유지합니다. 일종의 '스마트 정수기 필터'와 같습니다.

 

문맥 정보의 초고속 압축: PAPPM (Parallel Aggregation PPM)

가장 깊은 계층까지 도달한 I 브랜치의 끝단에는, 전체 이미지의 다양한 스케일을 아우르는 글로벌 문맥을 최종 융합하는 모듈이 필요합니다. 기존 DDRNet 등에서는 깊은 피라미드 형태의 DAPPM(Deep Aggregation PPM)이라는 모듈을 사용했습니다. 이 모듈은 성능은 좋았지만 여러 계층이 직렬(Series)로 깊게 연결되어 있어, 병렬 연산을 수행하는 GPU 환경에서도 순차적인 처리를 기다려야 하므로 실시간 속도에 치명적인 병목(지연)을 일으켰습니다.

  • PIDNet 연구진은 이 구조를 완전히 병렬(Parallel)로 뜯어고친 PAPPM (Parallel Aggregation Pyramid Pooling Module)을 새롭게 도입했습니다. 해상도가 다른 다양한 스케일의 풀링(Pooling) 연산을 직렬이 아닌 병렬로 동시에 독립적으로 처리한 뒤, 마지막에 채널 수를 줄여 한 번에 병합하는 방식을 채택했습니다. 이를 통해 모델의 상황 인식 능력(정확도)은 그대로 유지한 채, 연산 지연을 획기적으로 줄여 초고속 실시간 처리를 가능하게 했습니다.

 

최종 융합의 지휘자: Bag 모듈 (Boundary-attention-guided fusion)

이제 P 브랜치(세부 정보)와 I 브랜치(문맥 정보)의 독립적인 특징 추출이 모두 끝났습니다. 최종적으로 이 두 가지 해상도의 데이터를 하나로 합쳐 분할 맵을 출력할 차례입니다. 여기서 바로 제3의 브랜치인 D 브랜치(경계선)가 최종 오케스트라의 지휘자로 나서는 Bag 모듈이 가동됩니다. 이 모듈에서의 역할 및 작동 흐름은 다음과 같습니다.

  • 입력 데이터: P 브랜치의 출력 텐서, I 브랜치의 출력 텐서, D 브랜치의 윤곽선 예측 맵
  • 가중치 생성: D 브랜치가 추출한 윤곽선 예측 지도를 시그모이드(Sigmoid) 함수에 통과시켜 픽셀 단위의 가중치 지도(0~1)를 생성합니다. 경계선에 가까울수록 1에 가까운 값을 가집니다.
  • 선택적 융합: 만약 특정 픽셀이 '경계선'에 위치한다면(가중치가 높음), 세부 정보를 담은 P 브랜치의 픽셀 값을 신뢰하도록 융합 스위치를 조정합니다. 반대로 픽셀이 객체의 '중앙 덩어리'에 위치한다면(가중치가 낮음), 문맥을 잘 파악하는 I 브랜치의 값을 우선적으로 반영합니다.
  • 결과: 객체의 내부는 I 브랜치의 풍부한 의미론적 정보로 안정적으로 채워지며, 경계선이나 얇은 물체 주변은 P 브랜치의 날카로운 윤곽선 정보로 보존됩니다. 문맥 정보가 경계를 녹여버리는 현상이 원천적으로 차단됩니다.

 

6. 작동 원리: 어떻게 학습하는가? (The "How")

아무리 훌륭하게 설계된 아키텍처라도 학습(Training) 과정에서 올바른 방향을 제시하지 못하면 무용지물이 됩니다. PIDNet이 구조적 장점을 온전히 발휘하려면, 각 브랜치(특히 경계선 추출을 담당하는 D 브랜치)가 설계 의도대로 완벽하게 작동하도록 철저하게 훈련시켜야 합니다. 이를 위해 연구진은 세심하게 정제된 데이터와 매우 정교한 다중 손실 함수(Loss function) 전략을 구사했습니다.

 

학습에 필요한 데이터 (Input / Output)

이 모델은 입력 이미지와 정답지(마스크)가 짝을 이루어 제공되는 지도 학습(Supervised Learning) 방식으로 훈련됩니다. 논문에서는 자율주행 도메인의 사실상 표준인 Cityscapes와 CamVid 데이터셋을 중점적으로 활용했습니다.

  • 입력 데이터 (Input Data): 차량 전면 유리에 장착된 카메라로 실제 도심 도로를 주행하며 촬영한 2D RGB 이미지 데이터입니다. Cityscapes 데이터셋의 경우 2048 x 1024 픽셀의 초고해상도를 가집니다. 학습용으로 2,975장, 검증용으로 500장이 사용됩니다.
  • 데이터 증강 (Augmentation): 모델이 카메라의 위치, 빛의 양, 객체의 크기 변화에 둔감해지도록(일반화 성능 향상) 인위적인 데이터 변형을 가합니다. 이미지를 원본 대비 0.5배에서 2.0배 사이로 무작위 축소/확대(Random Scaling)하거나, 1024x1024 크기로 무작위로 잘라내고(Random Cropping), 좌우를 거울처럼 뒤집는(Horizontal Flipping) 등의 공격적인 데이터 증강 기법을 매 학습 반복마다 무작위로 적용합니다.
  • 출력/정답 데이터 (Semantic Label): 입력 이미지와 동일한 2D 해상도를 가지며, 각 픽셀이 속한 클래스를 0~18 사이의 정수(Class ID)로 기록한 마스크 라벨 파일입니다. 예를 들어 자동차 픽셀은 '10', 도로는 '0', 보행자는 '11' 등으로 정답이 칠해져 있습니다.
  • 경계선 정답 데이터 (Boundary Label): 원본 클래스 마스크 라벨의 윤곽선을 전통적인 컴퓨터 비전 알고리즘(Canny edge detection 등)을 활용해 얇은 선으로 추출한 데이터입니다. 경계선에 해당하는 픽셀은 1, 배경은 0으로 표시된 별도의 이진(Binary) 지도 형태로 생성되어 D 브랜치의 채점 기준으로 별도 투입됩니다.

 

손실 함수 설계 (Loss Functions)

PIDNet은 네트워크 마지막 단에서만 정답을 비교하는 것이 아니라, 학습 중간중간 각 브랜치마다 엄격하게 별도의 채점을 진행하여 오차를 역전파(Backpropagation)합니다. 전체 손실 함수는 다음과 같은 네 개의 독립적인 손실의 가중합으로 구성됩니다: $Loss = \lambda_0l_0 + \lambda_1l_1 + \lambda_2l_2 + \lambda_3l_3$.

  • $l_0$ (의미론적 보조 손실 - Semantic Head): P 브랜치가 학습 초반에 지나치게 위치 정보에만 매몰되지 않도록, 중간 단계에 임시 출력 헤드를 달아 문맥을 잘 파악하고 있는지 점검합니다. 전체 학습 안정성을 돕는 보조 바퀴 역할을 합니다. ($\lambda_0=0.4$)
  • $l_1$ (경계선 손실 - Boundary Loss): 이 논문의 핵심입니다. D 브랜치가 생성한 윤곽선 예측 지도가 실제 정답 윤곽선과 일치하는지 평가합니다. 일반적인 2D 이미지에서 경계선 픽셀의 수는 내부 픽셀 수에 비해 극히 적으므로, 클래스 불균형(Class Imbalance) 문제가 발생합니다. 이를 극복하기 위해 경계선 픽셀을 틀렸을 때 일반 픽셀을 틀렸을 때보다 훨씬 더 큰 페널티를 부여하는 '가중치가 부여된 이진 교차 엔트로피(Weighted BCE)'를 사용합니다. ($\lambda_1=20$ 으로 가장 높은 가중치를 가집니다)
  • $l_2$ (최종 분할 손실 - CE Loss): Bag 모듈을 거쳐 융합된 모델의 최종 결과물이 정답 마스크와 얼마나 일치하는지 일반적인 교차 엔트로피(Cross-Entropy) 방식으로 전체 픽셀을 평가합니다. ($\lambda_2=1$)
  • $l_3$ (경계-인식 분할 손실 - BAS-Loss): 객체의 안쪽 중심 픽셀을 틀린 것보다, 분류가 어려운 경계선 부근의 픽셀을 틀렸을 때 벌점을 극대화합니다. 추가적으로 OHEM(Online Hard Example Mining)이라는 기법을 적용하여, 모델이 이미 잘 맞추는 쉬운 픽셀은 채점에서 배제하고 계속해서 틀리는 '어려운 문제(경계선, 작고 복잡한 객체 등)' 위주로 반복 학습하게 유도합니다. ($\lambda_3=1$).

 

7. 결과: 얼마나 좋아졌나? (Results)

제안된 PIDNet은 동일한 하드웨어(단일 RTX 3090 GPU) 및 소프트웨어 환경에서 엄격하게 실측 속도와 정확도를 측정하여, 모든 실시간 분할 모델을 압도하는 결과를 증명했습니다.

 

다음 표는 도로 주행 데이터셋의 표준인 Cityscapes에서 최근 제시된 최신 모델들과 PIDNet의 성능을 비교한 결과입니다.

모델 계열 세부 모델명 해상도 (입력) mIOU (정확도)  FPS (초당 프레임) 파라미터 수
Two-Branch (과거 SOTA) BiSeNetV2-L 1024 x 512 75.8% 47.3 49M
Two-Branch  (과거 SOTA) DDRNet-23 2048 x 1024 79.4% 51.4 20.1M
Three-Branch (본 연구) PIDNet-S (소형) 2048 x 1024 78.6% 93.2 7.6M
Three-Branch (본 연구) PIDNet-L (대형) 2048 x 1024 80.6% 31.1 36.9M

 

  • SOTA(State-of-the-Art) 달성 및 극강의 가성비: 소형 모델인 PIDNet-S는 파라미터 수가 기존 DDRNet-23의 1/3 수준(7.6M)에 불과함에도 불구하고, 유사한 수준의 높은 정확도(78.6%)를 유지하면서 초당 무려 93장의 이미지를 처리(93.2 FPS)하는 압도적인 연산 효율을 증명했습니다. 더욱이 모델의 깊이를 키운 대형 모델 PIDNet-L은 실시간 도메인 모델 중 최초로 Cityscapes 테스트 셋에서 80%의 벽을 허물며 80.6%라는 전례 없는 최고 정확도 SOTA 타이틀을 거머쥐었습니다. CamVid 데이터셋에서도 PIDNet-S는 153.7 FPS라는 초고속 속도로 80.1%의 정확도를 달성하여 타의 추종을 불허했습니다.
  • 시각적 정성 평가 (경계선 뭉개짐의 실질적 해결): 정성적 시각화 결과를 살펴보면 숫자로 표현된 성능 향상보다 그 효과가 더욱 극명하게 드러납니다. 기존 투 브랜치 모델인 DDRNet은 배경에 섞여 있는 얇은 교통 표지판 기둥이나 멀리 있는 자전거 탑승자를 주변의 아스팔트나 건물 픽셀로 뭉개버리는 전형적인 Overshoot 에러를 발생시켰습니다. 반면, PIDNet은 D 브랜치와 Bag 모듈의 적극적인 개입을 통해 전봇대, 사람, 얇은 구조물의 날카로운 경계 윤곽선을 원본 영상에 극도로 가깝게 정밀 분할해 내는 데 성공했습니다.

실패 케이스 및 한계점 분석

저자들과 후속 연구자들은 모델의 신뢰도를 높이기 위해 실패하는 시나리오 역시 정직하게 명시했습니다. 모델이 경계선(Derivative) 정보에 절대적으로 의존하는 만큼, 환경적 요인으로 인해 엣지 추출이 방해받는 상황에 취약함을 보였습니다.

  1. 복잡한 도심 환경에서 여러 보행자나 차량이 빈틈없이 겹쳐 있는 픽셀 밀집 영역(Dense objects)에서는 명확한 경계선을 그리지 못해 분할 성능이 크게 떨어졌습니다.
  2. 도로의 물웅덩이나 유리에 의한 강한 빛 반사(Specular reflections) 현상이 일어나는 경우, D 브랜치가 빛의 산란을 객체의 윤곽선으로 오인하는 노이즈 예측 오류를 범했습니다.
  3. 정형화된 도심 도로가 아닌, 불규칙한 바위나 덤불이 혼재된 비정형 오프로드 환경(Unstructured terrain)에 적용했을 경우 내부 실험 결과 정확도가 50%대까지 급락하는 한계를 보였습니다. 이는 사전 정의된 도심 객체 클래스에 최적화된 학습 데이터의 한계이자, 텍스처가 무작위적인 자연 환경에서 경계선의 의미론적 구분이 모호해지기 때문입니다.

 

8. 이 논문의 계보와 발전 (Impact & Follow-ups)

PIDNet이 제안한 '미분(경계) 브랜치 도입을 통한 공간적 Overshoot 극복'이라는 신선한 패러다임은 학계에 큰 충격을 주었으며, 발표 직후부터 자율주행이라는 단일 도메인을 넘어 스마트 농업, 무인 항공기(UAV) 원격 탐사, 엣지 컴퓨팅 등 다양한 시각 인지 응용 분야로 파생되며 거대한 후속 계보를 형성하고 있습니다. 단순한 백본 모델 교체를 넘어, 각 산업의 특수성에 맞춘 파생 모델들이 활발히 개발되는 최신 트렌드를 다음과 같이 소개합니다.

  • 스마트 농업 로봇 (Cherry-Net, 2025): 스마트 팜 환경에서 스스로 체리 열매의 성숙도를 판별하고 수확하는 로봇을 개발하기 위해 PIDNet 구조를 개량한 최신 연구입니다. 나뭇잎에 의한 체리 열매 가림 현상(Occlusion), 잦은 광원 변화 등 과수원 특유의 환경으로 인해 기존 모델들은 체리의 윤곽선을 잡아내지 못했습니다. Cherry-Net 연구진은 PIDNet의 백본 구조를 RepViTBlock으로 교체하고 빛 융합 강화(LFE) 모듈을 결합해 고주파 경계 정보 추출에 어려움을 겪던 약점을 보완했습니다. 그 결과 72.2%의 mIoU를 달성하며, 전력 소모가 적은 임베디드 보드(Jetson TX2) 위에서도 실시간 체리 윤곽 인식에 성공했습니다.
  • UAV 고해상도 원격 탐사 (Remote Sensing, 2024): 무인 항공기(드론, UAV)가 공중에서 촬영한 지형 영상은 지상 촬영에 비해 객체가 매우 작고 밀집되어 있어 세밀한 인식이 필수적입니다. 일반적인 분할 모델은 고도화된 소형 객체의 형태를 빠르게 뭉개버리지만, PIDNet 특유의 '세부 정보 보존(P)'과 '경계선 의존(D)' 메커니즘은 인프라 모니터링이나 교통량 분석과 같은 고해상도 원격 탐사 분할 작업에 가장 이상적인 백본 아키텍처로 주목받으며 적용되고 있습니다.
  • 도로 환경 맞춤형 최적화 (Tan et al., 2025): PIDNet이 도심 환경에서 좋은 성능을 냈지만 여전히 다중 스케일 객체(멀리 있는 차와 가까이 있는 차) 인식에는 미흡하다는 점을 보완한 연구입니다. 이들은 HRNet 기반의 다중 브랜치 고해상도 특징 추출 모듈을 도입하고, I 브랜치의 PAPPM 모듈을 'Dense Atrous Spatial Pyramid Pooling'으로 교체하여 다중 스케일 대응 능력을 강화했습니다. 또한 Bag 모듈 내부에 교차 어텐션(Cross-Attention) 메커니즘을 통합시켜 특징 교환 효율을 높임으로써, Cityscapes 기준 정확도를 기존 78.6%에서 81.1%까지 한 단계 더 끌어올렸습니다.
  • MCU 탑재 초경량화 모델 (HARD-Edge, 2024): PIDNet은 연산량 자체는 적지만, 3개의 병렬 경로를 동시에 메모리에 올려두고 연산해야 하므로 메모리 캐시가 극도로 제한된 마이크로컨트롤러(MCU)에 탑재하기에는 병목이 심했습니다. HARD-Edge 연구는 PIDNet의 높은 정확도 유지 철학에서 영감을 받되, 이를 하드웨어 가속에 친화적인 단일/이중 브랜치 융합 기법으로 다시 압축하는 방식을 제안하여 엣지 디바이스 생태계로 기술을 진화시켰습니다.

또한, PIDNet에서 사용된 경계선-인식(Boundary-awareness) 융합 아이디어는 SDN 등 후속 연구에서 이방성 경계 픽셀 보정 방식 등으로 확장되며 실시간 분할 분야의 필수적인 기능 블록으로 편입되고 있는 추세입니다.

 

9. 마무리

PIDNet은 컴퓨터 비전이라는 소프트웨어 중심의 최신 딥러닝 트렌드에, 고전 물리학 및 기계 제어 이론의 정수인 'PID 컨트롤러'를 융합하여 패러다임의 혁신을 이끌어냈다는 점에서 학술적 의미가 매우 깊은 논문입니다. 단순히 "계층(Layer)을 몇 개 더 쌓자"거나 "합성곱 커널을 더 가볍게 만들자"는 기존의 천편일률적인 데이터 엔지니어링 접근 방식에서 벗어났습니다. Two-Branch Network가 근본적으로 겪고 있던 공간적 뭉개짐(Overshoot) 현상을 주파수 해석 관점과 수학적 제어 피드백 모델로 추상화하여 해석한 연구진의 직관은, 딥러닝 아키텍처 연구가 지향해야 할 학제 간 융합 사고의 매우 훌륭한 모범 답안을 보여줍니다.

 

이 논문이 딥러닝 실무계에 던지는 메시지는 강력하지만, 이를 실제 자율주행이나 산업 현장에 도입하고 배포할 엔지니어들이 반드시 주의해야 할 실무적 제약 사항들도 뚜렷하게 존재합니다.

  1. 초정밀 라벨링 비용의 폭발적 증가 (데이터 품질 의존성): PIDNet 모델의 탁월한 Overshoot 억제 성능은 오로지 D 브랜치(경계선 추출)가 올바르게 학습되었을 때만 발휘됩니다. 이는 역설적으로, 모델 학습을 위한 초기 데이터 셋 구축 시 작업자가 물체의 경계선 픽셀을 한 치의 오차도 없이 완벽하고 정교하게 분리해 낸 '최고 품질의 마스크 라벨(Precise annotation)'이 필수적이라는 뜻입니다. 엉성하게 칠해진 라벨 데이터로 학습할 경우 D 브랜치가 혼란을 겪어 전체 융합 성능이 망가질 수 있으므로, 데이터 라벨링 파이프라인의 구축 시간과 비용이 기존 단일 브랜치 모델 대비 증가할 수 있음을 고려해야 합니다.
  2. 엣지(Edge) 인프라 환경의 구조적 제약: 논문에서 90 FPS 이상의 실시간 속도를 달성했다고 강조하지만, 이는 연산 유닛이 풍부하고 메모리 대역폭이 넓은 고성능 데스크톱 GPU(RTX 3090) 환경에서의 벤치마크 결과입니다. 모델 내부에 특징 추출 브랜치가 3개로 늘어남에 따라 파라미터 수 대비 구조적 복잡성과 캐시 메모리 병목 현상이 발생합니다. 따라서 연산량이 제한되고 메모리 스왑이 느린 모바일 자율주행 칩셋(NPU)이나 산업용 임베디드 장비에 직접 포팅할 때에는, 브랜치 통합 재매개변수화(Reparameterization) 등 하드웨어 친화적인 추가적인 텐서(Tensor) 최적화 작업이 강제될 수 있습니다.
  3. 다중 센서 융합(Sensor Fusion)의 필요성: 앞서 실패 케이스 분석에서 지적되었듯, 다수의 군중이 빽빽하게 겹쳐 있는 밀집 객체 환경이나 비가 온 뒤 노면에 강한 빛 반사가 일어나는 악천후 환경에서는 D 브랜치가 추출하는 경계선 노이즈가 급증하여 안전에 치명적인 오분류를 초래합니다. 이러한 가혹한 시각 환경에 노출될 자율주행 시스템이나 로봇을 기획한다면, 순수 RGB 2D 이미지에만 의존하는 PIDNet을 단독으로 사용하기보다는, 심도(Depth) 카메라, 열화상 카메라, 혹은 라이다(LiDAR)와 같은 다중 모달(Multi-modal) 물리 센서를 함께 융합하여 딥러닝 모델의 경계선 판단 오류를 상호 보완하는 강건한 인지 아키텍처를 설계해야만 합니다.

 

반응형