본문 바로가기

딥러닝

Unified Perceptual Parsing for Scene Understanding - 어떻게 컴퓨터 비전은 파편화된 작업을 넘어 하나의 신경망으로 세상을 이해하게 되었는가?

반응형


일러두기 (Disclaimer)

본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.

 

 

논문 링크 : https://arxiv.org/abs/1807.10221

 

Unified Perceptual Parsing for Scene Understanding

Humans recognize the visual world at multiple levels: we effortlessly categorize scenes and detect objects inside, while also identifying the textures and surfaces of the objects along with their different compositional parts. In this paper, we study a new

arxiv.org

 

 

초록 (Abstract)

인간은 시각적 세계를 다중 수준에서 인식합니다. 우리는 수월하게 장면을 분류하고 그 안의 객체를 탐지하는 동시에, 객체의 다양한 구성 부분과 함께 표면의 질감과 재질을 식별합니다. 본 논문에서는 기계 비전 시스템이 주어진 이미지로부터 가능한 한 많은 시각적 개념을 인식하도록 요구하는 통합 인지 파싱이라는 새로운 과제를 연구합니다. 이질적인 이미지 주석으로부터 학습하기 위해 UPerNet이라 불리는 다중 작업 프레임워크와 학습 전략이 개발되었습니다. 연구진은 통합 인지 파싱 과제에서 제안된 프레임워크를 벤치마크 테스트하였으며, 이 프레임워크가 이미지로부터 광범위한 개념을 효과적으로 분할할 수 있음을 보여줍니다. 학습된 네트워크는 자연 장면에서 시각적 지식을 발견하는 데 추가적으로 적용됩니다.

 

초록에서 제시하는 바와 같이, 이 논문은 기존의 인공지능이 이미지를 분석할 때 객체, 장면, 재질 등을 각각 따로따로 인식하던 방식을 비판적으로 바라봅니다. 대신, 인간의 뇌가 한 번에 풍경과 사물, 그리고 그 사물의 재질까지 동시에 파악하는 것처럼, 하나의 인공지능 모델이 다양한 층위의 시각 정보를 한 번에 추출해 내는 새로운 방법론을 제안하고 있습니다.

 

1. 한줄 요약 & 3줄 핵심 (Executive Summary)

다양한 형태의 라벨링을 가진 이질적인 데이터셋들을 하나로 묶어, 장면 분류부터 객체, 부분, 재질, 텍스처 분할까지 여러 단계의 시각적 인지 작업을 한 번에 처리할 수 있는 다중 작업 계층형 네트워크 구조를 제시한 연구입니다.

  1. 기존의 문제점 (Pain point): 기존의 딥러닝 비전 모델들은 장면 인식, 객체 탐지, 텍스처 분석 등 단일 작업에만 특화되어 독립적으로 연구되었으며, 모든 시각적 개념이 주석 처리된 단일 통합 데이터셋이 존재하지 않아 인간 수준의 통합적 시각 인지를 구현하는 데 한계가 있었습니다.
  2. 이 논문의 해결책 (Solution): 여러 데이터셋을 표준화하여 결합한 'Broden+' 데이터셋을 구축하고, 특징 피라미드 네트워크와 피라미드 풀링 모듈을 결합하여 각 시각적 개념의 계층적 특성에 맞게 특징 맵을 할당하는 단일 프레임워크인 'UPerNet'을 제안했습니다.
  3. 달성한 성과 (Key Result): 하나의 네트워크만으로 다수준의 시각 정보를 동시에 효과적으로 추출하는 데 성공했으며, 연산 효율성을 높여 이후 다양한 비전 파운데이션 모델들의 성능을 검증하는 표준 분할 디코더 프레임워크로 채택되었습니다.

 

2. 들어가며: 왜 이 연구가 필요했나? (The "Why")

딥러닝과 대규모 이미지 데이터셋의 발전에 힘입어 컴퓨터 비전 분야는 놀라운 성장을 이루었습니다. 연구 초기에는 사진 속에 고양이가 있는지 개가 있는지를 맞추는 이미지 분류 작업이 주를 이루었습니다. 이후 기술이 발전하면서 사진 속 객체의 정확한 위치를 픽셀 단위로 색칠하여 구분하는 시맨틱 분할 기술이 등장했습니다. 하지만 컴퓨터 비전 연구가 지닌 단점은 각기 다른 시각적 인지 작업들이 철저히 독립적으로 연구되었다는 점입니다.

 

인간의 시각 시스템을 생각해 보면, 우리는 한 번의 곁눈질만으로도 많은 정보를 처리합니다. 거실이라는 전체적인 장면을 인식하는 동시에, 그 안에 소파와 탁자라는 객체가 있고, 소파는 쿠션과 팔걸이라는 부분으로 구성되어 있으며, 탁자의 재질은 나무이고, 표면은 매끄럽다는 텍스처 정보까지 종합적으로 파악합니다. 반면, 기존의 인공지능은 이를 위해 각각 분리된 5개의 개별 모델을 가동해야 했습니다. 객체를 찾는 모델, 재질을 분석하는 모델, 장면을 분류하는 모델이 각자의 데이터셋으로 따로 학습되었기 때문입니다.

연구자들은 신경망 하나가 여러 시각 인식 작업을 동시에 해결할 수 있을지에 대한 근본적인 질문을 던지게 되었습니다. 하지만 이 통합적 접근을 가로막는 커다란 장벽들이 존재했습니다.

 

첫 번째 장벽은 통합된 데이터셋의 부재입니다. 모델을 학습시키기 위해서는 정답지가 포함된 데이터가 필요한데, 장면, 객체, 부분, 재질, 텍스처 등 모든 시각적 계층에 대한 정답이 한 장의 사진에 동시에 라벨링된 단일 이미지 데이터셋은 존재하지 않았습니다.

 

두 번째 장벽은 주석의 이질성입니다. 예를 들어 특정 데이터셋의 객체 정보는 픽셀 단위로 촘촘하게 칠해져 있지만, 다른 데이터셋의 텍스처 정보나 장면 정보는 픽셀이 아닌 이미지 전체에 대한 단일 텍스트 라벨만 주어집니다. 픽셀을 예측하는 작업과 이미지 전체를 분류하는 작업을 동시에 학습시키는 것은 신경망에 큰 혼란을 초래할 수 있습니다.

 

세 번째 장벽은 기존 모델 구조의 비효율성입니다. 당시 시맨틱 분할 분야에서 주로 사용되던 팽창 합성곱 기반의 네트워크는 구조적인 한계를 안고 있었습니다. 딥러닝 네트워크는 깊어질수록 이미지의 크기가 줄어드는데, 픽셀 단위의 분할을 위해서는 줄어든 이미지를 다시 원래 크기로 키워야 합니다. 이를 위해 팽창 합성곱 기술을 사용했지만, 이는 연산량과 컴퓨터의 메모리 소모를 기하급수적으로 증가시켰습니다.

 

또한, 기존 모델들은 가장 깊은 층에서 추출된 고도의 의미론적 특징 맵만을 사용하여 결과물을 만들었습니다. 이는 자동차나 사람 같은 큰 객체를 찾는 데는 유리하지만, 표면의 거친 정도나 직물의 짜임새 같은 저수준의 세밀한 시각 속성을 포착하기에는 부적합합니다. 깊은 층으로 갈수록 픽셀 단위의 미세한 정보는 뭉개지고 추상적인 개념만 남기 때문입니다.

 

이러한 배경 속에서 연구자들은 흩어진 이질적 데이터셋들을 정교하게 엮어내고, 무거운 연산을 배제한 채 다중 계층의 시각적 속성을 효율적으로 뽑아낼 수 있는 새로운 아키텍처의 필요성을 느끼게 되었습니다.

 

3. 이 논문의 뿌리 (Key Reference)

이 논문은 기존의 우수한 연구들을 수용하고 이들을 조합하여 시너지를 내는 방식으로 탄생했습니다. UPerNet 구조가 탄생하기 위해 가장 큰 영감을 제공한 핵심 논문 4가지는 다음과 같습니다.

  • FCN (Fully Convolutional Networks for Semantic Segmentation, 2015): 기존의 이미지 분류 네트워크를 변형하여, 픽셀 단위의 예측을 가능하게 만든 연구입니다. 이 논문은 기존 네트워크의 마지막 부분에 있던 완전 연결 계층을 합성곱 계층으로 대체함으로써 이미지의 공간적 구조를 유지했습니다. UPerNet은 이 FCN의 기본 철학을 계승하여 픽셀 단위의 다중 분할 작업을 수행합니다.
  • ResNet (Deep Residual Learning for Image Recognition, 2016): UPerNet은 이미지에서 기초적인 특징을 추출하는 뼈대 역할을 하는 백본 네트워크로 ResNet 구조를 채용했습니다. 신경망은 층이 깊어질수록 학습이 어려워지는 문제가 있었는데, ResNet은 입력값을 출력값에 더해주는 잔차 연결 개념을 도입하여 이 문제를 해결했습니다. 입력 이미지가 ResNet의 여러 단계를 거치면서 해상도는 점차 작아지고 추상적인 의미 정보는 강해집니다. UPerNet은 이 계층적인 정보의 흐름을 다중 인지 작업의 기반으로 삼았습니다.
  • FPN (Feature Pyramid Networks for Object Detection, 2017): 이 연구의 구조적 기반을 제공한 가장 중요한 논문입니다. 기존의 분할 모델들이 팽창 합성곱을 활용해 높은 연산 비용을 지불했던 단점을 극복하기 위해, UPerNet은 FPN 구조를 전면적으로 도입했습니다. FPN은 네트워크 깊은 층에 위치한 고수준의 요약된 정보를 얕은 층으로 위에서 아래로 내려보내고 결합하는 방식을 사용합니다. 이를 통해 적은 연산량으로도 고해상도의 특징 맵을 만들어냅니다. UPerNet은 이 FPN 구조가 여러 계층의 시각 정보를 동시에 추출하는 데 가장 효율적이라고 판단했습니다.
  • PSPNet (Pyramid Scene Parsing Network, 2017): FPN 구조만으로는 부족했던 전역 문맥 파악 능력을 보완하기 위해 차용한 아이디어입니다. 깊은 신경망은 이론적으로는 이미지 전체를 볼 수 있어야 하지만, 실제로는 경험적 수용 영역이 좁아 특정 부분에만 집중하는 경향이 있습니다. PSPNet에서 제안된 피라미드 풀링 모듈은 이미지를 다양한 크기의 격자로 분할하여 전역적인 문맥 정보를 강제로 요약해 냅니다. UPerNet은 ResNet의 마지막 출력단에 이 피라미드 풀링 모듈을 부착함으로써, 국소적 특징뿐만 아니라 화면 전체의 맥락을 이해하는 능력을 향상시켰습니다.

종합하자면, UPerNet은 ResNet의 특징 추출 능력에 PSPNet의 전역 문맥 파악 능력을 더하고, 이를 FPN의 피라미드 구조를 통해 효율적으로 각 해상도에 분배하는 방식으로 여러 핵심 연구의 장점을 결합한 결과물입니다.

 

4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)

가장 결정적인 발상의 전환은 시각적 개념의 의미론적 계층과 신경망 특징 맵의 깊이 계층을 1대1로 연결시킨 것입니다.

기존의 방식은 단순히 모델의 맨 마지막에 위치한 가장 깊은 출력층 하나만을 이용해 객체 분할이나 장면 인식을 시도했습니다. 하지만 본 논문은 시각적 개념마다 필요한 정보의 수준이 다르다는 점에 착안했습니다.

 

기업의 의사결정 구조와 부서 조직도에 비유해 볼 수 있습니다.

  • 장면 인식: 기업의 방향성을 결정하는 최고 경영자와 같습니다. 화면 전체의 흐름이 거실인지, 주방인지를 파악해야 하므로 세세한 픽셀 정보보다는 가장 고수준의 추상적이고 전역적인 큰 그림이 필요합니다.
  • 객체와 부분 인식: 중간 관리자와 같습니다. 전반적인 맥락과 어느 정도의 세밀한 경계선 정보가 융합되어야 소파와 팔걸이를 구분할 수 있습니다.
  • 재질과 텍스처 인식: 현장 실무자와 같습니다. 큰 흐름보다는 픽셀 단위의 색상, 패턴, 질감 등 저수준의 매우 구체적이고 세부적인 시각 정보가 필요합니다.

UPerNet은 네트워크 내부에서 만들어지는 다양한 특징 맵들을 각 작업의 성격에 맞게 적재적소에 연결하는 아키텍처를 고안했습니다.

 

이전에는 모든 작업을 처리하기 위해 가장 추상적인 정보 하나만 활용했다면, UPerNet에서는 작업의 수준에 따라 가장 적합한 깊이의 특징 맵을 골라서 사용합니다. 장면 인식과 같이 의미론적으로 가장 높은 차원의 과제는 네트워크의 제일 깊은 곳에서 나온 전역 특징 맵에 연결합니다. 반대로 재질을 세분화할 때는 네트워크의 얕은 층에 있는 고해상도의 특징 맵을 활용합니다. 인간이 세상을 인식하는 계층적 구조를 신경망의 물리적 연결 구조로 자연스럽게 치환해 낸 것이 UPerNet이 가진 차별점입니다.

 

5. 작동 원리: 어떻게 돌아가는가? (The "How")

이미지가 UPerNet에 입력되어 5가지 계층의 결과물이 출력되기까지의 데이터 흐름을 단계별로 살펴보겠습니다. 전체 아키텍처는 특징을 추출하는 백본, 전역 정보를 압축하는 피라미드 풀링 모듈, 피라미드 구조를 형성하는 특징 피라미드 네트워크, 개별 작업을 처리하는 다중 작업 헤드의 4단계로 흐릅니다.

 

전체 시스템은 다음과 같은 순서로 데이터를 처리합니다.

 

Step 1. 정보의 추출 (Backbone Network 통과)

입력 이미지가 ResNet을 통과하며 단계별로 크기가 작아집니다. 여기서 해상도가 원래 이미지의 1/4, 1/8, 1/16, 1/32로 줄어든 4개의 특징 맵 세트가 생성됩니다. 이를 논문에서는 C2, C3, C4, C5라고 부릅니다. 숫자가 커질수록 이미지 크기는 작지만, 넓은 영역을 요약하여 더 함축적이고 추상적인 정보를 담고 있습니다.

 

Step 2. 전역 맥락 파악 (Pyramid Pooling Module 통과)

네트워크의 가장 깊은 곳에서 추출된 C5 특징 맵을 바로 사용하지 않고, 피라미드 풀링 모듈에 통과시킵니다. 이 모듈은 이미지를 1x1, 2x2, 3x3, 6x6 등의 다양한 격자 크기로 나눈 뒤 평균값을 구하여 다시 하나로 합칩니다. 이 과정을 통해 네트워크는 지엽적인 정보에 매몰되지 않고 "이 사진의 전체적인 분위기는 실내 거실이다"라는 강한 전역 맥락 정보를 획득합니다. 이 결과물을 P5라고 부릅니다.

 

Step 3. 피라미드 특징 융합 (Feature Pyramid Network 적용)

이제 P5에 담긴 고급 정보를 위에서 아래로 흘려보내며 해상도가 큰 이전 계층들과 결합합니다. 해상도가 1/32인 P5를 두 배로 확대하여 1/16 해상도인 C4와 섞어 P4를 만듭니다. 다시 P4를 확대해 P3, P2를 차례로 만듭니다. 이 하향식 융합 과정을 통해 얕은 층의 고해상도 특징 맵인 P2도 깊은 층의 전반적 맥락 정보를 나눠 가질 수 있게 됩니다. 연산이 복잡한 기술 대신 단순한 선형 보간법을 사용하여 이미지 크기를 키우기 때문에 계산 속도가 매우 빠릅니다.

 

Step 4. 맞춤형 출력 도출 (Task-Specific Heads 연산)

생성된 특징 맵들에 5개의 개별 머리 역할을 하는 헤드를 붙여 최종 목적을 달성합니다.

  1. 장면 헤드 (Scene Head): 가장 고수준 정보인 P5의 전체 평균을 구하여 선형 분류기에 넣습니다. 이를 통해 "이곳은 침실이다"라는 이미지 전체에 대한 하나의 라벨을 도출합니다.
  2. 객체 및 부분 헤드 (Object & Part Head): P2, P3, P4, P5 네 개의 특징 맵 크기를 모두 동일하게 맞춘 후 하나로 합칩니다. 객체를 찾고 그 부분을 세밀하게 나누기 위해서는 전반적인 맥락 정보와 세밀한 경계 정보가 모두 필요하기 때문입니다. 결합된 특징 맵을 사용하여 픽셀 단위로 사람과 사람의 머리를 구분하여 색칠합니다.
  3. 재질 헤드 (Material Head): 나무인지 세라믹인지 구분하려면 해상도가 매우 중요합니다. 맥락 정보도 유효하지만, 픽셀 단위의 미세한 질감을 봐야 하므로 가장 해상도가 높은 P2 특징 맵만을 단독으로 사용하여 재질 예측을 수행합니다.
  4. 텍스처 헤드 (Texture Head): 텍스처는 가장 얕은 수준의 표면 정보입니다. 따라서 FPN 구조까지 가기도 전인 초반부 C2 특징 맵에 별도의 합성곱 층을 연결하여 픽셀 단위의 텍스처 라벨을 예측하게 설계했습니다.

이러한 유기적인 분배 과정을 통해, UPerNet은 단 한 번의 데이터 연산만으로 무려 5가지의 서로 다른 시각적 속성을 동시에 추출해 냅니다.

 

6. 작동 원리: 어떻게 학습하는가? (The "How")

단일 작업에 특화된 모델과 달리, 다양한 작업을 동시에 수행하는 네트워크를 학습시키기 위해서는 특별히 정제된 학습 데이터와 섬세한 학습 전략이 필요합니다. 이질적인 데이터를 다루기 위해 연구진이 고안한 데이터 세팅 및 학습 전략은 다음과 같습니다.

 

입력 데이터 구성 (Broden+ Dataset)

모든 시각적 개념이 라벨링된 단일 데이터셋이 없었기에, 연구진은 기존에 존재하는 5개의 유명한 데이터셋을 물리적으로 결합하여 Broden+라는 새로운 표준 데이터셋을 구축했습니다.

  • 데이터 출처: 장면 분석을 위한 ADE20K, 객체 및 부분 분할을 위한 Pascal-Context와 Pascal-Part, 표면 재질을 위한 OpenSurfaces, 텍스처 분류를 위한 DTD 데이터셋이 포함되었습니다.
  • 포맷 및 수량: 총 57,095장의 2D 이미지로 구성됩니다. 모델 학습을 위해 51,617장을 사용하고, 검증을 위해 5,478장을 분리했습니다.
  • 데이터 표준화: 서로 다른 데이터셋 간의 충돌을 막기 위해 유사한 개념을 수동으로 병합하고 정제했습니다. 예를 들어 OpenSurfaces 데이터셋 내의 돌과 콘크리트 라벨을 돌 하나로 합치고, 투명 플라스틱과 불투명 플라스틱 라벨을 플라스틱으로 통일했습니다. 빈도가 너무 낮아 50장 미만의 이미지에만 등장하는 라벨은 과감히 삭제하여 데이터 불균형을 해소했습니다.

 

출력 데이터(라벨)의 이질성 문제

학습 시 네트워크에 제공되어야 할 정답지는 데이터의 종류에 따라 포맷이 완전히 다릅니다.

  • 이미지 레벨 주석: 하나의 이미지 전체를 대표하는 단일 텍스트 라벨입니다. DTD 데이터셋의 텍스처나 Places 데이터셋의 장면 정보가 이에 해당합니다. 예를 들어, 줄무늬 패턴이 가득한 이미지는 픽셀 단위의 구분 없이 이미지 하나당 줄무늬라는 하나의 텍스트 라벨만 갖습니다.
  • 픽셀 레벨 주석: 이미지 내 픽셀 하나하나에 클래스가 할당된 마스크 형태입니다. 방 안의 고양이 사진이 있다면, 특정 픽셀 영역 좌표에는 고양이라는 객체 라벨이, 고양이 다리 부분의 픽셀에는 다리라는 부분 라벨이 각각 맵핑되어 있습니다.

 

학습 전략 (Training Strategy)

가장 어려운 문제는 이질적인 데이터를 어떻게 네트워크에 밀어 넣어 학습시킬 것인가였습니다. 하나의 미니배치 안에 픽셀 라벨이 있는 ADE20K 이미지와 텍스트 라벨만 있는 DTD 이미지가 무작위로 섞여 들어가면 문제가 발생합니다. 정답이 없는 부분에 대해서도 오차가 계산되어 버려 네트워크의 역전파 학습 과정을 혼란스럽게 만들기 때문입니다.

 

이를 방지하기 위해 연구진은 반복 학습마다 무작위로 하나의 데이터 출처를 선택하는 방식을 취했습니다. 즉, 한 번의 학습 턴에는 ADE20K 데이터만 샘플링하여 객체와 장면 라벨에 관련된 가중치만 업데이트합니다. 그다음 턴에는 OpenSurfaces 데이터만 뽑아 재질을 추론하는 경로의 네트워크 가중치만 업데이트하는 식입니다. 이 방식을 통해 라벨이 없는 데이터로 인해 발생하는 학습 노이즈를 차단하고 5개의 각기 다른 작업 헤드가 안정적으로 학습을 완료할 수 있도록 유도했습니다.

 

7. 결과: 얼마나 좋아졌나? (Results)

UPerNet은 단일 모델로 여러 이질적인 데이터를 동시에 처리할 수 있음에도 불구하고, 단일 작업 전용 모델에 뒤지지 않는 우수한 정량적 성능과 획기적으로 높은 연산 효율성을 보여주었습니다.

 

연산 효율성과 SOTA 달성

가장 기본이 되는 시맨틱 분할 데이터셋인 ADE20K에서의 성능을 당시 최고 수준의 모델이었던 PSPNet 등과 비교한 결과는 인상적이었습니다.

모델 (ResNet-50 백본 기준) 평균 교차율 (Mean IoU) 픽셀 정확도 (Pixel Acc.) 학습 소요 시간 (시간)
DilatedNet (기존 팽창 합성곱 방식) 34.28% 76.35% 53.9
PSPNet (기존 SOTA 모델) 41.68% 80.04% 61.1
UPerNet (제안 모델) 41.22% 79.98% 38.7

 

위 표에서 볼 수 있듯, UPerNet은 메모리를 많이 차지하는 팽창 합성곱 대신 단순화된 특징 피라미드 구조를 채택함으로써, 기존 최고 모델인 PSPNet과 거의 동일한 예측 성능을 달성했습니다. 더욱 중요한 것은 연산 복잡도가 대폭 낮아져 학습 소요 시간이 약 40%가량 크게 단축되었다는 점입니다. 정확도는 유지하면서 컴퓨팅 비용을 극적으로 낮춘 것입니다.

 

이질적 데이터의 다중 작업 성능

장면, 객체, 부분, 재질 작업을 동시에 학습시켰을 때의 결과도 성공적이었습니다. 객체와 부분 분할 성능은 단독으로 학습시킬 때와 비교하여 성능 저하가 거의 발생하지 않았습니다. 오히려 재질 분할 성능의 경우, 단일 데이터셋으로 학습했을 때보다 여러 데이터를 통합 학습했을 때 성능이 52.78%에서 54.19%로 향상되었습니다. 이는 네트워크가 객체에 대한 정보를 미리 인지하게 됨으로써, 특정 객체가 어떤 재질로 이루어져 있을지에 대한 합리적인 추론 능력을 갖추게 되었음을 의미합니다.

 

시각적 상식의 발견 (Knowledge Discovery)

가장 흥미로운 질적 성과는 모델이 단순히 정답을 맞히는 것을 넘어, 세상의 시각적 상식을 스스로 학습했다는 점입니다. 논문은 모델의 예측 결과를 토대로 개념 간의 관계를 시각화한 이분 그래프를 제시했습니다.

  • 장면과 객체의 관계: 모델은 거실에는 주로 천장, 바닥, 의자, 창문이 위치하고, 헬기장에는 비행기, 사람, 활주로, 울타리가 있다는 빈도 데이터를 군집화를 통해 스스로 파악해 냈습니다.
  • 객체와 재질의 관계: 화장실의 세면대 픽셀들을 분석한 결과 일부는 세라믹이고 일부는 플라스틱이라는 사실을 도출해 냈습니다.

모델은 각기 다른 시각적 개념들의 관계를 논리적으로 연결하며, 지식 기반 시스템으로서의 가능성을 입증했습니다.

 

한계점 및 실패 케이스

논문은 텍스처 학습 과정에서의 한계점을 솔직하게 밝혔습니다. 텍스처 데이터셋인 DTD는 일상적인 자연 환경의 이미지가 아니라 질감 패턴 자체가 화면을 가득 채우고 있는 인위적인 크롭 이미지에 가깝습니다. 이를 일반적인 풍경 이미지와 함께 네트워크에 그대로 섞어 통과시켰을 때, 다른 작업들의 성능이 오히려 크게 떨어지는 현상이 발생했습니다. 결과적으로 텍스처 분류는 별도로 이미지 크기를 작게 줄여서 네트워크의 극히 얕은 초반부 층에서만 파생시켜 따로 학습을 마무리해야만 했습니다. 완전한 의미의 동시 통합 학습에는 텍스처 영역에서 다소 실패했음을 한계로 인정하고 있습니다.

 

8. 이 논문의 계보와 발전 (Impact & Follow-ups)

UPerNet은 2018년에 발표된 직후에도 주목받았지만, 오히려 시간이 흐르면서 새로운 컴퓨터 비전 모델들을 검증하는 가장 신뢰받는 픽셀 분할 디코더로서 역사에 더 큰 족적을 남기게 됩니다.

  • MMSegmentation의 표준 베이스라인 등극 오픈소스 컴퓨터 비전 라이브러리인 OpenMMLab의 MMSegmentation 프로젝트에서 UPerNet은 시맨틱 분할 성능을 평가하는 가장 대표적인 기준 모델 중 하나로 널리 사용되고 있습니다. 새로운 특징 추출 백본 네트워크가 연구 개발되면, 으레 UPerNet 디코더를 후단에 붙여 성능을 테스트하는 것이 업계의 관행이 되었습니다.
  • 비전 트랜스포머의 시대: Swin-UPerNet의 탄생 합성곱 신경망을 넘어 트랜스포머 기술이 컴퓨터 비전에 도입되면서 UPerNet은 다시 한번 도약합니다. 최고 수준의 성능을 기록한 Swin Transformer 논문은, 자신들이 개발한 계층적 트랜스포머 백본의 성능을 증명하기 위해 분할 헤드로 UPerNet을 공식 채택했습니다. Swin 모델이 생성하는 다중 스케일 특징 맵이 UPerNet의 피라미드 구조와 완벽한 호환성을 보여주었기 때문입니다. 더불어 합성곱 신경망의 부활을 알린 ConvNeXt 연구팀 역시 고해상도 위성 이미지의 도로 추출 성능 등을 증명하기 위해 ConvNeXt-UPerNet 구조를 사용했습니다.
  • 다양한 산업 분야로의 응용 Swin-UPerNet 아키텍처는 그 뛰어난 성능 덕분에 원격 탐사와 의료 영상 분석 등 정밀한 분할이 요구되는 산업계로 빠르게 확산되었습니다. 원격 탐사 분야에서는 다중 스펙트럼 위성 이미지에서 맹그로브 숲과 외래종 식물을 정확하게 분류해 내는 데 사용되었으며 , 복잡한 도시 환경에서 건물의 구조를 정밀하게 분류하는 IASUNet 모델의 근간이 되기도 했습니다. 의료 영상 분야에서는 현미경 이미지 분석 및 다중 장기 의료 영상 분할을 위한 FE-SwinUper 모델 개발 등 수많은 후속 응용 연구의 핵심 골격으로 계승 발전되었습니다.
  • 경량화 패러다임으로의 발전 모멘텀 제공 (SegFormer) UPerNet이 만능 디코더로 쓰이긴 했지만, 특징 피라미드 네트워크와 풀링 모듈을 융합하는 과정에서 요구되는 연산량과 파라미터 수가 여전히 상당히 높다는 비판도 존재했습니다. 이러한 한계를 극복하기 위해 2021년 발표된 SegFormer 모델은 무거운 UPerNet 디코더 구조 대신 가벼운 다층 퍼셉트론 디코더를 제안하며 효율성 면에서 새로운 기준을 제시하게 됩니다. 이전 모델들의 연산 복잡도 문제를 지적하며 등장한 SegFormer는 속도와 메모리 사용량 측면에서 괄목할 성과를 냈고, UPerNet은 이후 등장한 수많은 경량화 연구들의 훌륭한 비교군이자 반드시 넘어서야 할 기준점 역할을 지속적으로 수행하고 있습니다.

 

9. 마무리

"Unified Perceptual Parsing for Scene Understanding" 논문은 컴퓨터 비전이 단일 객체나 장면을 분류하는 파편화된 수준을 넘어, 인간처럼 통합적이고 유기적으로 세상을 인식할 수 있는 가능성을 최초로 실증한 상징적인 연구입니다.

 

이 연구는 복잡하고 무거운 연산에 의존하여 해상도를 복원하던 기존의 방식을 탈피하여, 이미 객체 탐지 분야에서 검증된 가벼운 피라미드 구조들을 시맨틱 분할에 성공적으로 융합했습니다. 계층적인 시각 개념을 네트워크의 깊이와 일대일로 맵핑한 설계 철학은 우수성을 널리 인정받아, 오늘날 Swin Transformer, ConvNeXt 등 수많은 현대 비전 파운데이션 모델들이 채택하는 범용 분할 프레임워크로 확고히 자리 잡았습니다. 이는 모델 구조의 직관성이 얼마나 중요한 범용성을 만들어내는지를 보여줍니다.

 

연구 수준에서는 기존 모델 대비 높은 연산 효율성을 입증했지만, 산업 실무에 실제로 적용할 때는 세심한 주의가 필요합니다. UPerNet은 여러 단계의 다중 해상도 특징 맵을 GPU 메모리에 동시에 적재하고 병합하는 메커니즘을 사용하기 때문에 상당히 높은 GPU 메모리를 요구합니다. 실제로 MMSegmentation 등의 프레임워크를 통해 UPerNet 기반 모델을 구동할 때, 입력 해상도를 키우거나 배치 사이즈를 조금만 늘려도 메모리 부족 오류가 빈번하게 발생한다는 이슈가 개발자 커뮤니티에서 지속적으로 보고된 바 있습니다. 따라서 제한된 컴퓨팅 자원을 가진 환경이거나 자율주행, 드론 탑재 등 온디바이스 실시간 영상 분석이 필요한 환경에서는 적용하기 까다로울 수 있습니다. 이런 경우에는 연산량이 획기적으로 줄어든 SegFormer나 경량화된 구조를 대안으로 우선 고려하는 것이 현명합니다.

 

본 논문의 저자들도 인정했듯, 일상적인 풍경 이미지와 극단적으로 패턴이 크롭된 텍스처 이미지를 하나의 손실 함수 흐름 안에서 완전하게 통합 학습시키는 데는 기술적 한계가 존재했습니다. 물리적으로 형태가 다른 이질적 데이터의 노이즈 간섭 현상은 향후 모델 학습에서 지속적으로 해결해야 할 과제입니다.

 

 

반응형