본문 바로가기

딥러닝

DeepLab v2 - 구글은 어떻게 공간 해상도를 보존하며 시맨틱 분할의 한계를 극복했나?

반응형


일러두기 (Disclaimer)

본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.

 

 

논문 링크 : https://arxiv.org/abs/1606.00915

 

DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

In this work we address the task of semantic image segmentation with Deep Learning and make three main contributions that are experimentally shown to have substantial practical merit. First, we highlight convolution with upsampled filters, or 'atrous convo

arxiv.org

 

 

초록 (Abstract)

본 연구에서는 딥러닝을 활용한 시맨틱 이미지 분할(Semantic Image Segmentation) 작업을 다루며, 실험을 통해 상당한 실용적 가치가 입증된 세 가지 주요 기여를 제안합니다.

첫째, 밀집 예측(Dense Prediction) 작업에서 강력한 도구로서 업샘플링된 필터를 사용하는 컨볼루션, 즉 'Atrous Convolution'을 조명합니다. Atrous Convolution은 심층 컨볼루션 신경망(DCNN) 내에서 특징 응답이 계산되는 해상도를 명시적으로 제어할 수 있게 해줍니다. 또한, 파라미터의 수나 연산량을 늘리지 않고도 필터의 시야각(Field-of-View)을 효과적으로 확장하여 더 넓은 문맥(Context)을 통합할 수 있도록 합니다.

둘째, 다중 크기(Multiple scales)의 객체를 견고하게 분할하기 위해 Atrous 공간 피라미드 풀링(Atrous Spatial Pyramid Pooling, ASPP)을 제안합니다. ASPP는 다중 샘플링 비율과 효과적인 시야각을 가진 필터들을 통해 입력되는 컨볼루션 특징 계층을 탐색하여, 다양한 크기의 이미지 문맥과 객체를 포착합니다.

셋째, DCNN과 확률적 그래피컬 모델(Probabilistic Graphical Models)의 방법을 결합하여 객체 경계의 지역화(Localization) 성능을 향상시킵니다. DCNN에서 흔히 배포되는 최대 풀링(Max-pooling)과 다운샘플링의 조합은 불변성(Invariance)을 달성하지만 지역화 정확도에는 악영향을 미칩니다. 본 연구는 최종 DCNN 계층의 응답을 완전 연결 조건부 무작위장(Fully Connected Conditional Random Field, CRF)과 결합하여 이 문제를 극복하며, 이는 정성적 및 정량적 모두에서 지역화 성능을 향상시키는 것으로 나타났습니다.

제안된 "DeepLab" 시스템은 PASCAL VOC-2012 시맨틱 이미지 분할 작업에서 테스트 세트 기준 79.7%의 mIOU를 기록하며 새로운 최고 성능(State-of-the-art)을 달성했으며, PASCAL-Context, PASCAL-Person-Part, Cityscapes 등 세 가지 다른 데이터셋에서도 결과를 진일보시켰습니다. 모든 코드는 온라인에 공개되어 있습니다.

 

1. 한줄 요약 & 3줄 핵심 (Executive Summary)

해상도 저하를 방지하는 확장된 필터(Atrous Convolution)와 다양한 크기를 포착하는 다중 시야각(ASPP)을 도입하고, 조건부 무작위장(CRF)으로 경계선을 다듬어 픽셀 단위의 분할 정확도를 극대화한 연구입니다.

  1. 기존의 문제점 (Pain point): 이미지 분류 목적으로 설계된 신경망의 풀링과 다운샘플링 연산은 객체의 위치 정보와 윤곽선 등 공간적 디테일을 심각하게 훼손합니다. 또한, 다양한 크기로 존재하는 객체들을 한 번에 인식하기 어렵습니다.
  2. 이 논문의 해결책 (Solution): Atrous Convolution을 통해 해상도 손실 없이 수용 영역(Receptive Field)을 넓히고, ASPP를 통해 다중 스케일 객체를 인식한 뒤, DenseCRF를 후처리로 사용하여 흐릿해진 경계선을 원본 이미지의 픽셀 정보를 바탕으로 복원했습니다.
  3. 달성한 성과 (Key Result): PASCAL VOC-2012 데이터셋에서 79.7%의 mIOU를 기록하며 당시 최고 성능을 달성했으며, 객체의 정밀한 경계선 분할에 대한 새로운 표준 방법론을 제시했습니다.

 

2. 들어가며: 왜 이 연구가 필요했나? (The "Why")

시맨틱 세그먼테이션(Semantic Segmentation)은 단순히 이미지 안에 무엇이 있는지를 맞추는 것을 넘어, 이미지 내의 모든 픽셀이 각각 어떤 객체 클래스에 속하는지를 픽셀 단위로 분류하는 고난도의 컴퓨터 비전 작업입니다. 자율주행 자동차가 주행 가능한 도로와 보행자를 명확히 구분하거나, 의료 인공지능이 MRI 영상에서 종양의 정확한 경계를 짚어내기 위해서는 이러한 공간적 이해가 필수적입니다.

 

2010년대 중반, 컴퓨터 비전 분야는 심층 컨볼루션 신경망(Deep Convolutional Neural Networks, DCNN)의 등장으로 큰 도약을 이루고 있었습니다. VGG-16이나 ResNet과 같은 모델들은 이미지 분류(Image Classification) 대회에서 인간의 인식률에 근접하는 성과를 거두었습니다. 자연스럽게 연구자들은 이렇게 강력한 분류 성능을 가진 모델들을 시맨틱 세그먼테이션 작업에 적용하고자 시도했습니다. 하지만, 이미지 분류에 최적화된 DCNN을 분할 작업에 그대로 가져왔을 때 세 가지 치명적인 단점이 발생했습니다.

 

첫 번째 단점은 공간 해상도의 심각한 저하입니다. 분류 네트워크는 고양이가 이미지의 좌측 상단에 있든 우측 하단에 있든 동일하게 '고양이'로 인식해야 합니다. 이를 공간적 불변성(Spatial Invariance)이라고 부릅니다. 분류 모델은 이러한 불변성을 확보하고 연산량을 줄이기 위해 여러 번의 스트라이드(Stride) 연산과 최대 풀링(Max-pooling) 계층을 거칩니다. 이 과정을 통해 신경망은 점점 더 추상적인 특징을 학습하게 되지만, 그 대가로 특징 맵(Feature Map)의 공간적 해상도는 원본 이미지 대비 32분의 1 수준으로 심각하게 축소됩니다. 픽셀 단위의 정밀한 위치 파악이 필수적인 밀집 예측(Dense Prediction) 작업에서 이러한 위치 정보의 소실은 치명적인 한계로 작용합니다.

 

두 번째 단점은 다중 스케일(Multi-scale) 객체 대응의 어려움입니다. 실제 환경의 이미지에는 멀리 작게 보이는 자동차와 카메라 바로 앞에 크게 찍힌 자동차가 동시에 존재합니다. 기존 시스템들은 이러한 크기 변화에 대응하기 위해, 원본 이미지를 여러 크기 비율로 복사하여(예: 0.5배, 1배, 1.5배) 각각의 이미지를 별도의 네트워크에 통과시킨 뒤 그 결과를 취합하는 방식을 사용했습니다. 하지만 이 방식은 모든 신경망 계층의 연산을 이미지 크기별로 반복해야 하므로 계산 비용과 시간이 기하급수적으로 증가하는 부작용이 있었습니다.

 

세 번째 단점은 모델이 예측한 객체의 경계선이 매우 흐릿하다는 점입니다. 앞서 언급한 불변성 확보를 위한 다운샘플링의 결과로, 신경망이 예측하는 객체의 윤곽은 둥글고 뭉툭하게 나타납니다. 손실된 해상도를 단순한 보간법(Interpolation)으로 확대하여 원본 크기로 맞추다 보니, 자전거의 얇은 바퀴살이나 사람의 정교한 손가락 형태와 같은 세밀한 경계를 찾아내는 데 근본적인 한계를 보였습니다.

 

따라서 딥러닝 연구자들 사이에서는 "이미지 분류 네트워크의 강력한 특징 추출 능력은 그대로 활용하되, 공간 해상도를 보존하면서 다양한 크기의 객체를 인식하고, 동시에 픽셀 단위의 정교한 윤곽선까지 살려낼 수 있는 새로운 아키텍처가 필요하다"는 강한 공감대가 형성되었습니다. 구글의 연구진은 이러한 고민을 바탕으로 DeepLab 시스템을 개발하게 됩니다.

 

3. 이 논문의 뿌리 (Key Reference)

DeepLabv2는 당대 최고의 아이디어들을 비판적으로 수용하고 다른 학문 분야의 수학적 개념을 융합하여 탄생한 결과물입니다. 이 모델이 완성되기 위해 가장 큰 영감을 제공했거나 비판적으로 계승한 핵심 논문들의 관계를 살펴봅니다.

  • Fully Convolutional Networks (FCN, Long et al., 2015): 이 논문은 시맨틱 분할 분야의 패러다임을 바꾼 핵심 연구입니다. 기존 분류 모델들이 마지막에 완전 연결 계층(Fully Connected Layer)을 사용하여 1차원적인 확률 벡터를 출력했던 반면, FCN은 이를 1x1 컨볼루션으로 대체하여 2차원 형태의 밀집 예측(Dense Prediction) 지도(Map)를 출력할 수 있게 만들었습니다. DeepLab은 이 FCN의 '완전 컨볼루션 연산' 철학을 기본 백본으로 채택했습니다. 하지만 FCN이 손실된 해상도를 복원하기 위해 사용한 단순한 건너뛰기 연결(Skip-connection) 방식만으로는 경계선이 여전히 흐릿하다는 한계를 지적하며, 이를 극복하기 위한 새로운 모듈들을 추가했습니다.
  • Spatial Pyramid Pooling in Deep Convolutional Networks (SPPNet, He et al., 2014): 이미지의 크기에 상관없이 다중 스케일의 특징을 추출하기 위해 피라미드 형태의 풀링 개념을 도입한 논문입니다. 이 연구는 다양한 크기의 영역에서 특징을 추출하여 하나로 병합하는 방식을 제안했습니다. DeepLabv2의 연구진은 이 공간 피라미드 풀링 구조에서 강한 영감을 얻었습니다. 다만 일반적인 풀링 대신, 자신들이 고안한 Atrous Convolution을 다양한 비율로 병렬 배치하는 ASPP(Atrous Spatial Pyramid Pooling) 모듈로 구조를 진화시켰습니다.
  • Efficient Inference in Fully Connected CRFs (Krähenbühl & Koltun, 2011): 딥러닝이 컴퓨터 비전 분야를 장악하기 이전, 전통적인 이미지 처리에서 주로 사용되던 확률론적 마르코프 무작위장(MRF) 모델의 일종입니다. 이 논문은 이미지 내의 모든 픽셀 간의 관계를 고려하여 윤곽선을 깔끔하게 다듬는 빠르고 효율적인 추론 알고리즘을 제안했습니다. DeepLabv2는 신경망이 대략적인 물체의 위치와 영역을 예측하면, 이 DenseCRF 알고리즘을 후처리(Post-processing) 모듈로 결합하여 픽셀의 RGB 색상 차이를 기반으로 경계선을 정밀하게 끊어내는 융합 방식을 채택했습니다.
  • Algorithme à trous (Holschneider et al., 1989): 신호 처리 분야에서 손실 없는 웨이블릿 변환(Wavelet Transform)을 효율적으로 계산하기 위해 개발된 오랜 역사를 가진 수학적 알고리즘입니다. 프랑스어로 구멍(Trous)을 의미하며, 필터 연산 사이에 빈 공간을 두는 기법입니다. 구글 연구진은 이 고전적인 1차원 신호 처리 기법을 2차원 신경망의 컨볼루션 연산으로 가져와 공간 해상도를 유지하는 가장 핵심적인 무기인 'Atrous Convolution'으로 재탄생시켰습니다.

 

4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)

DeepLabv2를 성공으로 이끈 가장 큰 발상의 전환은 두 가지입니다. 바로 Atrous Convolution의 도입과 ASPP(Atrous Spatial Pyramid Pooling) 구조의 설계입니다. 복잡한 수식을 배제하고 비유를 통해 이 핵심 아이디어들이 기존 방식과 어떻게 다른지 설명합니다.

 

Atrous Convolution: 구멍 뚫린 돋보기의 마법

일반적인 컨볼루션 연산은 작은 돋보기로 그림의 픽셀들을 한 땀 한 땀 살피는 과정에 비유할 수 있습니다. 신경망이 데이터를 깊게 처리할수록 더 넓은 풍경(문맥, Context)을 보아야 하므로, 기존 방식에서는 돋보기의 배율을 줄이거나 이미지 자체를 축소(다운샘플링)했습니다. 앞서 문제 제기에서 언급했듯, 이미지를 축소하면 픽셀 단위의 세밀한 디테일이 뭉개지는 현상이 발생합니다.

이때 연구진은 "돋보기의 유리를 조각내어 일정한 간격으로 띄워놓고 보는 방식"을 고안했습니다. 이것이 바로 Atrous Convolution입니다. 파라미터(렌즈 조각)의 개수는 늘리지 않으면서, 그 사이사이에 0이라는 빈 공간(구멍)을 삽입하여 돋보기의 전체 크기를 넓히는 원리입니다. 결과적으로 모델의 연산량은 동일하게 유지하면서도, 더 넓은 시야(확장된 수용 영역, Receptive Field)를 확보할 수 있습니다. 이전에는 해상도를 줄이는 방식으로 넓은 맥락을 파악했다면, 여기서는 필터 자체의 구멍 간격을 벌리는 발상의 전환을 이룩한 것입니다

 

ASPP: 여러 배율의 쌍안경을 동시에 사용하기

실제 사진 안에는 거대한 버스와 멀리 있는 작은 보행자가 함께 존재합니다. 고정된 크기의 필터 하나만으로는 이렇게 다양한 크기(Scale)의 두 객체를 동시에 완벽하게 분리해 낼 수 없습니다.

 

ASPP 모듈은 "간격(Rate)이 서로 다른 여러 개의 Atrous 쌍안경을 병렬로 동시에 들이대는 것"에 비유할 수 있습니다.

  • Rate가 작은 쌍안경 (예: $r=6$): 좁은 시야각으로 객체의 세밀한 디테일이나 작은 물체(예: 멀리 있는 사람)를 면밀하게 관찰합니다.
  • Rate가 큰 쌍안경 (예: $r=24$): 아주 넓은 시야각으로 객체의 전체적인 형태나 화면을 가득 채우는 큰 물체(예: 가까이 있는 버스)를 한 번에 파악합니다.

이전에는 이미지 자체를 크게 축소하고 확대해서 신경망에 여러 번 통과시켜야 했기 때문에 속도가 매우 느렸습니다. 반면 ASPP는 특징 맵(Feature Map) 단계에서 여러 간격의 필터를 나란히 배치하여 한 번의 연산만으로 다양한 크기의 특징을 동시에 잡아냅니다. 이는 다중 스케일 처리에 있어 획기적인 효율성 향상을 가져왔습니다.

 

5. 작동 원리: 어떻게 돌아가는가? (The "How")

DeepLabv2 시스템은 여러 모듈이 파이프라인처럼 연결된 구조를 가지고 있습니다. 디테일한 하이퍼파라미터나 수학적 증명은 제외하고, 이미지가 모델에 입력되어 최종적인 분할 지도가 출력될 때까지 데이터가 처리되는 흐름(Flow)을 단계별로 설명합니다.

 

단계별 데이터 처리 흐름

  1. 입력 및 특징 추출 (Feature Extraction with Backbone)
    • 모델에 원본 이미지가 입력됩니다. 기본 뼈대(Backbone)로는 이미지넷(ImageNet) 데이터셋으로 사전 학습된 VGG-16이나 ResNet-101 신경망을 사용합니다.
    • 기존 분류 신경망은 이미지를 통과시킬 때마다 크기를 반씩 줄여 최종적으로 원본의 $1/32$ 해상도로 만듭니다. DeepLab은 이 과정을 수정하여, 마지막 두 단계의 풀링(Pooling) 계층에서 이미지를 줄이는 다운샘플링(Stride) 작업을 비활성화합니다.
    • 그 결과, 특징 맵의 해상도가 $1/32$가 아닌 $1/8$ 크기 수준에서 방어됩니다. 이는 픽셀 단위 예측을 위한 최소한의 공간 정보를 보존하는 핵심적인 첫 단추입니다.
  2. Atrous Convolution의 적용
    • 다운샘플링을 멈춘 대신, 그 이후의 계층부터는 일반 컨볼루션 대신 앞서 설명한 Atrous Convolution을 적용합니다.
    • 해상도는 $1/8$로 높게 유지하면서도, 망이 깊어질수록 필터의 구멍 간격을 넓혀 수용 영역(Receptive Field)을 점진적으로 확장시킵니다. 이를 통해 모델은 해상도의 손실 없이 객체의 전체적인 맥락을 파악할 수 있게 됩니다.
  3. ASPP를 통한 다중 크기 융합 (Multi-scale Fusion)
    • $1/8$ 크기의 고해상도 특징 맵은 ASPP 모듈로 전달됩니다.
    • 특징 맵은 내부적으로 4개의 갈래로 나뉘어, 각각 $r=6, 12, 18, 24$의 확장 비율을 가진 Atrous Convolution 필터들을 동시에 통과합니다.
    • 각 갈래에서 연산된 결과물들을 한데 모아 이어 붙입니다(Concatenation). 이 과정을 통해 아주 작은 물체부터 화면을 가득 채우는 큰 물체까지 다양한 객체의 크기 정보가 하나의 특징 맵 안에 모두 융합됩니다.
  4. 쌍선형 보간법 (Bilinear Interpolation)
    • ASPP를 거친 특징 맵(예측 점수 맵)은 여전히 원본 이미지 크기보다 가로세로가 8배 작습니다.
    • 이를 원래 해상도로 복구하기 위해 쌍선형 보간법이라는 수학적 확대 방식을 사용합니다. DCNN이 생성한 확률 점수(Log-probabilities) 맵은 픽셀 간의 변화가 비교적 부드럽기 때문에, 복잡한 역합성곱(Deconvolution) 과정 없이 단순 확대 연산만으로도 충분히 효과적인 결과를 얻을 수 있습니다.
  5. DenseCRF를 통한 경계선 후처리 (Post-processing):
    • 쌍선형 보간법으로 확대된 분할 지도는 객체의 위치는 잘 맞추지만, 픽셀 경계가 다소 뭉뚱그려져 둥글둥글한 형태를 띱니다.
    • 이를 날카롭게 깎아내기 위해 최종 단계에서 완전 연결 조건부 무작위장(Fully Connected CRF)을 적용합니다.
    • CRF는 단순한 규칙에 따라 작동합니다. "인접해 있는 두 픽셀의 물리적 거리가 가깝고, 원본 이미지에서 픽셀의 RGB 색상이 비슷하다면 두 픽셀은 같은 객체일 확률이 높다"는 에너지 함수(Energy Function)를 계산합니다.
    • 이 로직을 통해 뭉툭했던 예측 결과가 실제 객체의 뾰족한 가장자리나 뚜렷한 색상 경계선에 맞추어 마치 자석이 달라붙듯 날카롭게 정렬됩니다.

 

6. 작동 원리: 어떻게 학습하는가? (The "How")

모델이 실제 데이터를 보고 분할 능력을 기르기 위해 필요한 학습 데이터의 구체적인 형태와 훈련 과정을 살펴봅니다.

 

입력 데이터 (Input Data)

  • 종류 및 포맷: 주로 2차원 형태의 원본 RGB 이미지 파일(.jpg 또는.png 포맷)을 입력 데이터로 사용합니다.
  • 수량 및 데이터셋: 논문의 실험에서는 시맨틱 분할의 가장 권위 있는 벤치마크인 PASCAL VOC 2012 데이터셋을 주력으로 사용했습니다. 이 데이터셋은 사람, 비행기, 자전거, 고양이, 개 등 20개의 전경(Foreground) 클래스와 1개의 배경(Background) 클래스를 포함합니다. 모델의 학습 정확도를 높이기 위해 기본 데이터셋 외에도 약 10,582장의 주석 처리된(Annotated) 이미지가 훈련 과정에 추가로 투입되었습니다.
  • 구체적 예시: 복잡한 교차로에 서 있는 사람과 그 옆에 주차된 자동차가 찍힌 사진. 학습 시 모델이 다양한 물체의 크기와 위치에 적응하도록, 입력 이미지를 $0.5$배에서 $1.5$배 사이로 무작위 확대/축소(Random Scaling)하거나 임의의 크기로 자르는(Random Cropping) 데이터 증강(Data Augmentation) 과정을 거쳐 모델에 입력합니다.

 

출력 데이터 및 정답 (Ground Truth)

  • 종류 및 포맷: 출력 데이터는 원본 입력 이미지와 가로세로 크기가 정확히 일치하는 2D 픽셀 라벨 매트릭스입니다. 시각적으로는 컬러 이미지처럼 보일 수 있으나, 실제 포맷은 각 픽셀마다 정수(Integer) 인덱스 값이 기록된 8-bit 마스크 형태입니다.
  • 구체적 예시: 입력 이미지에서 '사람'이 존재하는 픽셀의 위치에는 15(사람의 클래스 ID)라는 정수값이 할당되고, '자전거' 영역에는 2가, 그 외의 도로나 하늘 같은 배경 픽셀에는 모두 0이 기록되어 있습니다. 예측 결과 시각화를 위해 이 정수값들을 특정한 색상표(Color Palette)와 매핑하여 사람은 분홍색, 자전거는 초록색 등으로 보여주게 됩니다.

 

학습 과정 (Training Process)

  • 목적 함수 (Loss Function): 신경망이 최종적으로 예측한 픽셀별 확률 점수와 사람이 직접 레이블링한 정답 마스크 간의 차이를 계산합니다. 모든 픽셀 위치에 대해 개별적으로 교차 엔트로피(Cross-Entropy) 손실을 구한 뒤 이를 합산하여 모델의 오차를 측정합니다.
  • 파라미터 최적화: 측정된 오차를 줄이는 방향으로 확률적 경사 하강법(SGD)을 사용하여 네트워크 내부의 가중치들을 업데이트합니다.
  • 학습 스케줄링: 기존 딥러닝 훈련에서는 일정 주기마다 학습률(Learning Rate)을 계단식으로 깎는 'Step' 방식을 많이 썼습니다. 하지만 DeepLabv2 연구진은 훈련 반복 횟수(Iteration)에 비례하여 학습률을 다항식 곡선 형태로 부드럽게 감소시키는 'Poly' 학습률 정책을 도입했습니다. 이 정책은 모델이 최적점에 안정적으로 도달하게 만들어 예측 성능을 1% 이상 유의미하게 끌어올리는 데 기여했습니다.

 

7. 결과: 얼마나 좋아졌나? (Results)

DeepLabv2 모델은 당시 시맨틱 분할 분야에 새로운 기준을 제시하며 압도적인 성과를 기록했습니다. 이 모델이 달성한 정량적 성능과 실용적 속도, 그리고 한계점을 명확히 보여주는 실패 사례를 정리합니다.

 

SOTA(State-of-the-Art) 성능 달성

연구진은 네트워크 백본을 VGG-16에서 더 깊은 ResNet-101로 교체하고, 다중 스케일 융합(Multi-scale Inputs), MS-COCO 데이터셋을 활용한 사전 학습(Pre-training), ASPP 모듈, 그리고 CRF 후처리까지 모든 기법을 영혼까지 끌어모은 최종 모델을 구축했습니다. 그 결과, 가장 권위 있는 평가 지표인 PASCAL VOC-2012 테스트 세트에서 79.7%의 mIOU(평균 교차 결합 비율)라는 경이로운 점수를 달성했습니다. 이는 이전까지 리더보드 상위에 있던 모든 모델들의 성적을 넉넉한 격차로 따돌린 결과입니다. 또한, PASCAL-Context, PASCAL-Person-Part, Cityscapes 등 자율주행과 복잡한 장면 분할을 요구하는 다른 데이터셋에서도 일제히 성능을 진일보시켰습니다.

 

적용된 모델 및 기법 mIOU 성능 향상폭
ResNet-101 기본 (Before CRF) 68.72% -
+ 다중 스케일 입력 (MSC) 71.27% + 2.55%
+ MS-COCO 사전 학습 73.28% + 2.01%
+ 데이터 증강 (Data Augmentation) 74.87% + 1.59%
+ ASPP 적용 76.35% + 1.48%
+ DenseCRF 후처리 (최종) 77.69% + 1.34%

 

실용적인 처리 속도

성능뿐만 아니라 실제 서비스 적용 가능성을 가늠할 수 있는 처리 속도 면에서도 합리적인 결과를 보였습니다. Atrous Convolution을 활용하여 연산 파라미터의 폭발적인 증가를 억제한 덕분에, 밀집 DCNN 연산은 NVidia Titan X GPU를 기준으로 초당 8프레임(8 FPS)이라는 비교적 실용적인 속도로 구동되었습니다. 해상도 복원과 경계를 정밀하게 다듬는 DenseCRF 후처리 단계는 별도의 CPU를 사용해 처리되었으며 이미지당 약 0.5초가 소요되었습니다.

 

실패 케이스 및 한계 (Failure Modes)

모든 연구가 완벽할 수는 없으며, 논문 역시 모델의 한계점을 솔직하게 시각화하여 공유했습니다. 가장 대표적인 실패 사례는 자전거의 얇은 바퀴살이나 의자의 가느다란 다리와 같이 매우 얇고 정교한 구조물을 가진 객체입니다. 객체의 부피가 너무 작거나 가느다랄 경우, 초기 DCNN 단계에서 해당 픽셀들이 특정 객체에 속한다는 강력한 특징을 추출하지 못합니다. 신경망이 대략적인 위치조차 확신하지 못하는 상황에서는, 이후에 적용되는 CRF 알고리즘이 아무리 픽셀 간의 색상 차이를 분석하더라도 경계를 살려낼 단서가 부족하여 분할에 실패하게 됩니다. 또한, 겹쳐 있는 고양이와 소파처럼 객체들이 복잡하게 뒤엉켜 있거나(Occlusion), 스케치 형태처럼 시각적 특징이 심하게 왜곡된 경우에도 픽셀 분류에 혼동을 겪는 한계가 발견되었습니다.

 

8. 이 논문의 계보와 발전 (Impact & Follow-ups)

DeepLabv2는 특정 대회에서 1등을 하고 사라진 모델이 아니라, 이후 수년간 시맨틱 분할 아키텍처의 트렌드를 주도하며 DeepLab 패밀리라는 거대한 계보를 형성했습니다. 이 논문이 제시한 아이디어들은 후속 연구들에 의해 단점이 보완되며 계속해서 진화했습니다.

  • DeepLabv3 (2017): CRF의 퇴출과 ASPP의 완성 DeepLabv2의 가장 큰 단점은 후처리 도구인 DenseCRF가 딥러닝 네트워크 외부(CPU)에서 돌아가기 때문에 전체 시스템이 End-to-End로 한 번에 학습되지 않고, 처리 속도를 저하시킨다는 점이었습니다. 후속작인 DeepLabv3에서는 CRF를 과감히 버립니다. 대신 ASPP 모듈을 한층 강화하여, 이미지 전체의 전역적 문맥을 파악하는 글로벌 평균 풀링(Global Average Pooling)과 배치 정규화(Batch Normalization) 계층을 추가했습니다. 이 진화된 ASPP 덕분에 CRF라는 외부 도구 없이도 V2를 능가하는 우수한 성능을 독립적으로 달성하게 되었습니다.
  • DeepLabv3+ (2018): 인코더-디코더 구조와의 결합 의심할 여지 없이 현재 실무에서 가장 널리 사용되는 종착지격 모델입니다. v3가 강력한 특징 추출기(인코더)를 완성했다면, v3+는 U-Net 등에서 영감을 받은 디코더(Decoder) 구조를 덧붙였습니다. 신경망 초반 계층의 풍부한 픽셀 공간 정보를 디코더로 직접 넘겨주어(Skip-connection), 객체의 윤곽선을 복원하는 능력을 극대화했습니다. 또한 Xception 백본과 깊이별 분리 가능 컨볼루션(Depthwise Separable Convolution) 연산을 도입하여 연산 속도와 효율성을 동시에 잡아냈습니다.
  • Panoptic-DeepLab (2020): 새로운 분할 패러다임으로의 확장 단순히 배경이나 객체 종류만 나누는 시맨틱 분할(Semantic Segmentation)을 넘어, 각 사람이나 자동차가 개별적으로 '몇 번째' 객체인지까지 구분하는 인스턴스 분할(Instance Segmentation)을 하나로 통합한 팬옵틱 분할(Panoptic Segmentation) 모델로 발전했습니다. 인스턴스의 중심점(Center)을 회귀(Regression) 방식으로 예측하는 단순하면서도 강력한 구조를 채택했습니다.
  • 트랜스포머 시대로의 전환 (SegFormer, Mask2Former): 최근 딥러닝 트렌드는 컴퓨터 비전에서도 컨볼루션(CNN) 구조에서 벗어나 Attention 매커니즘을 기반으로 하는 트랜스포머(Transformer) 구조로 패러다임이 이동했습니다. Mask2Former와 같은 모델들은 전역적인 정보를 한 번에 파악하는 트랜스포머의 장점을 살려, 별도의 ASPP 모듈 없이도 시맨틱, 인스턴스, 팬옵틱 분할을 모두 단일 구조로 완벽하게 처리해내며 DeepLab 패밀리의 최고 기록을 갈아치우고 있습니다. 하지만 이 거대한 트랜스포머 모델들 역시 여전히 Atrous Convolution의 원리를 부분적으로 차용하는 등 DeepLab이 남긴 유산을 활용하고 있습니다.

 

9. 마무리

DeepLabv2는 이미지 분류를 위해 탄생한 기존의 딥러닝 네트워크를 '픽셀 단위 밀집 예측'이라는 완전히 다른 목적에 맞게 성공적으로 튜닝해 낸 훌륭한 공학적 성취를 보여준 논문입니다. 단순히 신경망의 레이어를 무작위로 깊게 쌓는 접근에서 벗어나, 네트워크의 시야(Receptive Field)를 연산량 증가 없이 지능적으로 팽창시키는 Atrous Convolution이라는 수학적 무기를 컴퓨터 비전의 표준 기술로 정착시켰다는 점에서 그 학술적 의미가 깊습니다.

 

다만, 이 기술을 현업 실무에 도입하거나 직접 모델을 훈련하려 할 때 반드시 고려해야 할 몇 가지 중요한 제약 사항과 인사이트가 존재합니다.

 

첫째, GPU 메모리 병목 현상입니다. 일반 분류 모델은 신경망 후반부로 갈수록 특징 맵의 크기가 $1/32$로 급격히 줄어들어 메모리 소모가 적습니다. 그러나 DeepLab 계열은 공간 정보를 보존하기 위해 강제로 $1/8$ 또는 $1/16$ 크기의 고해상도 특징 맵을 전체 네트워크에 걸쳐 유지합니다. 이는 메모리 사용량의 폭발적인 증가를 의미합니다. 실무에서 4K 고화질 위성 이미지나 자율주행 센서 데이터를 학습시킬 때, 최고 사양의 GPU를 사용하더라도 배치 크기(Batch Size)를 2나 4 수준 이상으로 올리기 힘든 심각한 물리적 한계(OOM: Out of Memory)에 직면하게 됩니다.

 

둘째, 학습 안정화를 위한 그래디언트 누적(Gradient Accumulation) 기법의 필수적 사용입니다. 앞서 언급한 이유로 배치 크기를 작게 설정할 수밖에 없는데, 극단적으로 작은 배치 크기는 신경망이 학습 방향을 잡지 못하고 요동치게 만듭니다. 따라서 실무자들은 여러 스텝의 배치에서 계산된 오차(Gradient)를 메모리에 누적시켜 두었다가 한 번에 가중치를 업데이트하는 방식을 사용해야만 대규모 배치를 사용한 것과 동일한 안정적인 학습 효과를 얻을 수 있습니다. 논문의 연구진 역시 이러한 메모리 한계 때문에 미니 배치를 잘게 쪼개어 학습하는 방식을 채택했습니다.

 

셋째, CRF의 한계와 End-to-End 학습의 중요성입니다. 논문의 핵심 기여 중 하나였던 DenseCRF 알고리즘은 경계를 뚜렷하게 깎아주는 성능 자체는 매우 훌륭했습니다. 하지만 GPU 기반의 텐서 연산으로 완전히 통합되지 못하고 CPU에서 별도로 작동하는 모듈이었기 때문에, 신경망과 역전파(Backpropagation)로 매끄럽게 연결되지 못하는 반쪽짜리 솔루션이었습니다. 이는 전체 시스템의 복잡도를 높이고 실시간 추론(Inference) 속도에 병목을 유발합니다. 이로 인해 현대 딥러닝 트렌드에서는 CRF와 같은 고전적 그래피컬 모델을 완전히 배제하고, 디코더(Decoder) 블록을 개선하거나 손실 함수 자체를 설계하여 네트워크가 스스로 윤곽선을 학습하도록 유도하는 End-to-End 방식으로 완전히 대체되었습니다.

 

결론적으로 DeepLabv2는 복잡한 해상도 손실 문제를 렌즈의 구멍을 넓히는 Atrous Convolution과 여러 쌍안경을 덧대는 ASPP라는 기발한 아이디어를 통해 슬기롭게 해결한 분할 모델의 교과서와 같은 연구입니다. 이 논문이 제시한 통찰과 기술들은 현재 우리가 일상에서 접하는 스마트폰의 인물 배경 흐림(블러) 기능부터 자율주행, 의료 영상 분석에 이르기까지 정밀한 픽셀 이해가 필요한 수많은 현대 AI 응용 시스템의 든든한 초석으로 자리 잡고 있습니다.

 

반응형