일러두기 (Disclaimer)
본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.
논문 링크 : https://arxiv.org/abs/1612.01105
Pyramid Scene Parsing Network
Scene parsing is challenging for unrestricted open vocabulary and diverse scenes. In this paper, we exploit the capability of global context information by different-region-based context aggregation through our pyramid pooling module together with the prop
arxiv.org
초록 (Abstract)
장면 구문 분석(Scene parsing)은 제한 없는 개방형 어휘(Open vocabulary)와 다양하고 복잡한 장면들로 인해 컴퓨터 비전 분야에서 매우 까다로운 과제로 여겨집니다. 본 논문에서는 제안하는 피라미드 장면 구문 분석 네트워크(Pyramid Scene Parsing Network, PSPNet)와 함께 피라미드 풀링 모듈(Pyramid Pooling Module)을 도입하여, 다양한 크기의 하위 영역 기반 문맥 통합(Context aggregation)을 수행함으로써 전역 문맥 정보(Global context information)의 역량을 최대한 활용하는 방안을 탐구합니다. 본 연구가 제안하는 전역 사전 표현(Global prior representation)은 장면 구문 분석 작업에서 우수한 품질의 결과를 생성하는 데 효과적이며, 동시에 PSPNet은 픽셀 수준 예측(Pixel-level prediction)을 위한 뛰어난 프레임워크를 제공합니다. 제안된 접근 방식은 다양한 데이터셋에서 당시 최고 수준(State-of-the-art)의 성능을 달성했습니다. ImageNet Scene Parsing Challenge 2016, PASCAL VOC 2012 벤치마크, 그리고 Cityscapes 벤치마크에서 모두 1위를 차지했습니다. 단일 PSPNet 모델은 PASCAL VOC 2012에서 mIoU 정확도 85.4%, Cityscapes에서 정확도 80.2%라는 새로운 기록을 수립하며 이미지 분할 기술의 새로운 지평을 열었습니다.
1. 한줄 요약 & 3줄 핵심 (Executive Summary)
부분적인 형태에만 매몰되어 객체를 오분류하던 기존 합성곱 신경망의 한계를 극복하기 위해, 이미지 전체의 전역 문맥(Global Context)을 다양한 크기의 피라미드 형태로 요약하고 결합하여 픽셀 단위 분류의 정확도를 극대화한 시맨틱 세그멘테이션(Semantic Segmentation) 모델입니다.
- 기존의 문제점 (Pain point): 기존의 모델들은 모델이 한 번에 볼 수 있는 실효 수용 영역(Empirical Receptive Field)이 제한적이어서, 픽셀 주변의 지엽적인 정보만 보고 강 위에 있는 배를 자동차로 오분류하는 등 전체적인 문맥을 파악하지 못하는 치명적인 오류가 발생했습니다.
- 이 논문의 해결책 (Solution): 피라미드 풀링 모듈(Pyramid Pooling Module, PPM)을 도입하여, 이미지를 전체 1개, 4개, 9개, 36개의 하위 영역으로 나누어 특징을 추출한 뒤 기존 특징 맵과 병합함으로써 전역 정보와 국소 정보를 동시에 학습하도록 설계했습니다.
- 달성한 성과 (Key Result): 이 구조를 통해 PASCAL VOC 2012, Cityscapes, ADE20K 등 주요 시맨틱 세그멘테이션 데이터셋에서 모두 압도적인 1위를 달성하였으며, 깊은 신경망 학습을 돕는 보조 손실(Auxiliary Loss) 기법을 함께 제시하여 딥러닝 아키텍처의 표준을 제시했습니다.
2. 들어가며: 왜 이 연구가 필요했나? (The "Why")
이미지 내에 존재하는 모든 픽셀이 각각 어떤 객체나 배경에 속하는지 분류하는 기술을 시맨틱 세그멘테이션(Semantic Segmentation)이라고 부릅니다. 이 기술은 자율주행 자동차가 도로, 보행자, 신호등을 정확히 구분하여 안전하게 주행하거나, 의료 영상에서 정상 조직과 종양 세포를 정밀하게 분리해 내는 등 다양한 산업 분야의 필수적인 근간 기술로 자리 잡고 있습니다. 컴퓨터 비전 분야는 2015년 Fully Convolutional Network(FCN) 모델이 등장하면서 큰 전환점을 맞이했습니다. 이미지 분류에 주로 사용되던 기존 신경망의 마지막 단계인 완전 연결 계층(Fully Connected Layer)을 합성곱 계층(Convolutional Layer)으로 대체함으로써, 이미지의 공간적 구조를 잃지 않고 픽셀 단위의 예측을 가능하게 만든 혁신적인 시도였습니다.
하지만 FCN 기반의 모델들은 실험실 환경의 단순한 이미지를 넘어서, 복잡하고 다양한 일상 환경을 담은 대규모 데이터셋 앞에서는 뚜렷한 한계점을 노출했습니다. 특히 150개의 세밀한 사물 및 배경 클래스와 1,038개의 이미지 수준 장면 설명자(Scene descriptor)를 분류해야 하는 ADE20K 데이터셋 환경에서 기존 모델들은 예측에 큰 어려움을 겪었습니다. 연구진은 FCN 계열 모델들이 실패하는 사례들을 면밀히 분석하였고, 크게 세 가지의 근본적인 문제점을 도출해 냈습니다.
첫째, 어울리지 않는 관계(Mismatched Relationship)를 전혀 인지하지 못합니다. 시각적 패턴은 주변 환경과 강한 연관성을 가집니다. 비행기는 활주로나 하늘에 있어야 하며 도로 위에 있을 확률은 낮습니다. 하지만 기존 FCN 모델은 강물 위에 떠 있는 보트를 외형적 특징에만 의존하여 '자동차'로 오분류하는 경우가 빈번했습니다. 상식적으로 자동차가 강물 위에 있을 확률은 희박합니다. 이는 픽셀 주변의 지엽적인 시각적 모양과 색상에만 집중한 나머지, 해당 객체가 '물 위'에 위치하고 있다는 이미지 전체의 문맥(Context)을 신경망이 이해하지 못했기 때문입니다.
둘째, 혼동하기 쉬운 카테고리(Confusion Categories)를 명확히 구분하지 못합니다. ADE20K 데이터셋에는 '들판과 흙', '산과 언덕', '벽, 집, 건물, 마천루(Skyscraper)'처럼 외형과 질감이 매우 유사한 클래스 쌍이 다수 존재합니다. FCN은 하나의 거대한 고층 건물을 분할할 때, 건물의 위쪽 픽셀들은 '마천루'로 예측하고 아래쪽 픽셀들은 '일반 건물'로 예측하는 등 하나의 객체 내에서도 일관성 없는 결과를 도출했습니다. 전체 구조를 아우르는 조망 능력이 부족하여, 픽셀 단위의 지역적 특징에만 휘둘린 결과입니다.
셋째, 눈에 띄지 않는 객체(Inconspicuous Classes)를 쉽게 놓치는 경향이 있습니다. 장면 내에는 다양한 크기의 객체들이 혼재되어 있습니다. 침대 위의 베개는 침대 시트와 색상 및 질감이 거의 동일한 경우가 많아 지역적인 시각 정보만으로는 경계를 구분하기 어렵습니다. 또한 멀리 있는 가로등이나 신호등처럼 픽셀 크기가 극도로 작은 객체들은 주변 배경의 픽셀 정보에 동화되어 객체의 존재 자체를 지워버리는 결과가 발생합니다.
연구진은 이러한 치명적인 오류들의 공통된 원인이 모델 내 '전역 문맥 정보(Global Context Information)'의 부재에 있다고 진단했습니다. 이론적으로 ResNet과 같은 깊은 신경망의 수용 영역(Theoretical Receptive Field)은 입력 이미지 전체를 덮을 만큼 크지만, 실제 실험을 통해 확인된 신경망의 실효 수용 영역(Empirical Receptive Field)은 특히 고위 계층으로 갈수록 이론적 크기에 미치지 못하고 훨씬 작게 형성됩니다. 따라서 이미지 전체를 아우르는 단서를 네트워크에 명시적으로 제공하고 강제하지 않으면 복잡한 장면을 제대로 이해할 수 없다는 결론에 도달하게 된 것입니다.
3. 이 논문의 뿌리 (Key Reference)
PSPNet은 기존 연구들이 쌓아온 성과를 비판적으로 수용하고 그 한계를 극복하는 과정에서 탄생했습니다. 이 논문의 사상적 뼈대를 형성하는 핵심적인 세 가지 선행 연구와 그 관계는 다음과 같습니다.
- FCN (Fully Convolutional Networks, 2015): FCN은 딥러닝 기반 픽셀 단위 이미지 분할의 기초를 닦은 논문입니다. 기존 이미지 분류망은 입력 이미지를 1차원 벡터로 평탄화(Flatten)하여 분류했기 때문에 위치 정보를 상실했지만, FCN은 이를 1x1 합성곱으로 대체하여 위치 정보를 보존한 상태로 픽셀 분류를 가능하게 했습니다. PSPNet 역시 FCN의 이러한 픽셀 예측 구조를 기본 백본(Backbone)으로 채택하여 설계되었습니다. 그러나 FCN은 앞서 언급했듯 지역적 수용 영역에 머무른다는 치명적인 약점이 있었고, PSPNet은 이를 해결하기 위해 다음의 방법론들을 차용합니다.
- SPPNet (Spatial Pyramid Pooling Network, 2014): 이 논문은 객체 인식 및 이미지 분류 작업에서 입력 이미지의 크기가 고정되어야만 하는 합성곱 신경망의 전통적인 제약을 해결하기 위해 제안되었습니다. 특징 맵을 다양한 크기의 다중 격자(Multi-scale Grid)로 나눈 뒤 각각 풀링을 수행하여 고정된 길이의 특징 벡터를 만들어내는 공간 피라미드 풀링(Spatial Pyramid Pooling) 개념을 처음 도입했습니다. PSPNet 연구진은 이 '다양한 척도로 영역을 나누어 풀링한다'는 핵심 아이디어를 가져오되, 단순히 고정 길이 벡터를 만들기 위함이 아니라 픽셀 주변의 다중 척도 문맥을 수집하기 위한 장치로 발전시켰습니다.
- ParseNet (2015): 시맨틱 세그멘테이션 모델에 이미지의 전역 정보(Global context)를 명시적으로 통합하려는 초기 시도 중 하나입니다. 이 연구는 이미지 특징 맵 전체에 대해 '전역 평균 풀링(Global Average Pooling)'을 수행하여 하나의 압축된 컨텍스트 벡터를 만들고, 이를 기존의 지엽적 특징과 결합하는 구조를 제안했습니다. 이 방식은 이미지의 전체적인 톤을 파악하는 데는 유리했으나, PSPNet의 연구진은 150개가 넘는 복잡한 클래스가 얽혀 있는 ADE20K 같은 데이터셋에서는 치명적인 모호함을 유발한다고 비판했습니다. 픽셀들을 공간적 구분 없이 하나의 단일 벡터로 뭉뚱그려 버리면 공간적 관계가 완전히 소실되기 때문입니다.
결론적으로 PSPNet은 FCN의 픽셀 예측 구조를 토대로 삼고, SPPNet의 다중 척도 공간 분할 아이디어를 결합하여, ParseNet의 단순 전역 풀링이 가진 공간 정보 유실이라는 단점을 완벽하게 보완하는 방향으로 설계된 모델입니다.
4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)
가장 중요하고 본질적인 질문은 "어떻게 하면 신경망이 지엽적인 픽셀 패턴에만 함몰되지 않고, 이미지 전체의 문맥과 부분적 관계를 동시에 고려하게 만들 것인가?"입니다. PSPNet이 제시한 해결책의 컨셉은 배율과 시야각이 다른 여러 개의 창문으로 풍경을 동시에 내다보고 정보를 종합하는 과정에 비유할 수 있습니다. 논문은 이 독창적인 구조를 피라미드 풀링 모듈(Pyramid Pooling Module, PPM)이라고 명명했습니다.
이전의 일반적인 분할 모델들은 특정 크기의 필터를 이용해 이미지를 순차적으로 훑으며 특징을 뽑아내는 데 집중했습니다. 이는 마치 코앞에 강력한 돋보기를 대고 거대한 벽화를 감상하는 것과 같습니다. 돋보기로 보면 지금 눈앞에 칠해진 빨간색 안료의 질감은 아주 상세히 알 수 있지만, 그 빨간색이 사람의 옷인지, 태양인지, 사과의 표면인지 전체 맥락을 알 방법이 없습니다. 반면 ParseNet처럼 전체를 평균 내는 방식은 벽화 전체를 멀리서 보고 "전체적으로 붉은 톤의 그림이다"라고 요약하는 것과 같아 개별 객체의 디테일을 잃어버립니다.
발상의 전환은 두 가지 극단적인 시각 사이의 계층을 촘촘히 메우는 것입니다. 돋보기(기존의 지역적 특징 추출) 기능은 그대로 유지하되, 이미지 전체와 부분을 다각도로 조망하는 4개의 서로 다른 해상도의 망원경(PPM)을 추가로 제공하여 모델의 시야를 강제로 확장시킵니다.
첫 번째 망원경은 이미지 전체를 하나의 구역으로 봅니다. 입력된 특징 맵 전체를 1x1 격자로 묶어 요약합니다. 이 망원경은 "아, 이 사진은 전체적으로 실외 강가 풍경이구나"라는 가장 큰 범위의 전역 문맥을 제공합니다. 두 번째 망원경은 이미지를 4등분 해서 봅니다. 특징 맵을 2x2 격자로 나누어 요약합니다. 이 망원경은 "위쪽 절반은 하늘 영역이고, 아래쪽 절반은 물 영역이구나"라는 큼직한 공간적 배치를 파악합니다. 세 번째 망원경은 이미지를 9등분 해서 봅니다. 3x3 격자로 나누어 지역 간의 중간 크기 맥락을 살핍니다. 네 번째 망원경은 이미지를 36등분 해서 봅니다. 6x6 격자로 세밀하게 나누어 "가운데 격자쯤에 무언가 물체들이 모여 있네"라는 지역적 문맥을 획득합니다.
이렇게 전체, 절반, 그리고 세밀한 부분들로 구역을 계층적으로 나누어 각각의 특성을 평균 풀링(Average Pooling)으로 요약한 뒤, 원래의 지엽적인 특징 데이터(돋보기로 본 데이터)와 하나의 채널 덩어리로 합쳐줍니다. 이렇게 되면 모델이 특정 픽셀을 판단할 때 정보의 질이 달라집니다. "이 픽셀 뭉치의 모양은 자동차의 형태와 비슷하게 생겼지만, 현재 이 픽셀이 속한 가장 큰 문맥은 '강물'이고 중간 단위 문맥도 '물결'이므로, 이것은 자동차가 아니라 보트가 확실하다"라는 복합적이고 다층적인 추론이 비로소 가능해집니다.
5. 작동 원리: 어떻게 돌아가는가? (The "How")
구조적인 아이디어를 실제 데이터 연산 과정으로 치환하여, 데이터가 네트워크에 입력되어 최종 픽셀별 분할 결과가 나올 때까지의 전체 흐름(Flow)을 단계별로 살펴보겠습니다.
Step 1. 뼈대 신경망을 통한 특징 추출 (Feature Extraction via Backbone)
입력 이미지가 네트워크에 들어오면, 가장 먼저 깊은 합성곱 신경망인 ResNet 모델을 통과하며 고차원의 특징 맵(Feature Map)으로 변환됩니다. 이때 해상도 손실을 막기 위해 확장 합성곱(Dilated Convolution 혹은 Atrous Convolution)이라는 특수한 연산 방식이 도입됩니다. 일반적인 합성곱과 최대 풀링(Max pooling)을 반복하면 깊은 층으로 갈수록 이미지의 공간 해상도가 너무 작아져 객체의 세밀한 윤곽선 위치 정보를 잃어버리게 됩니다. 확장 합성곱은 필터의 픽셀 간격을 넓게 띄워서 연산함으로써, 특징 맵의 가로세로 크기 손실을 방지(입력 이미지의 1/8 크기로 방어)하면서도 넓은 수용 영역을 유지할 수 있게 해줍니다.
Step 2. 피라미드 풀링 모듈 연산 (Pyramid Pooling Module, PPM)
ResNet을 통과해 나온 이 1/8 크기의 특징 맵이 바로 PPM의 핵심 입력으로 사용됩니다. 이 특징 맵은 동시에 4개의 서로 다른 병렬 계층으로 복사되어 들어갑니다. 각 계층은 특징 맵을 1x1, 2x2, 3x3, 6x6 크기의 격자(Grid)로 강제 분할하고, 각 격자 내의 값들을 평균 내는 평균 풀링(Average Pooling)을 수행합니다. 연구진의 실험 결과, 픽셀 중 가장 큰 값을 뽑는 최댓값 풀링(Max Pooling)보다 모든 픽셀의 정보를 고르게 섞는 평균 풀링이 문맥을 온전히 담아내는 데 훨씬 우수하게 작동했습니다. 풀링을 거쳐 크기가 작아진 4개의 새로운 특징 맵들은 채널 수(두께)가 원래 특징 맵과 동일하게 유지됩니다. 이들을 나중에 하나로 합칠 때 문맥 정보의 비중이 원래 특징보다 과도하게 커지는 정보의 비대칭성을 막기 위해, 1x1 합성곱을 사용하여 각 피라미드 맵의 채널 차원 수를 원래의 1/N (여기서는 4개의 피라미드를 쓰므로 1/4)로 축소합니다.
Step 3. 이중 선형 보간법을 통한 정보의 복원 (Bilinear Interpolation Upsampling)
크기가 각각 1x1, 2x2, 3x3, 6x6으로 작게 쪼개져 요약된 4개의 피라미드 특징 맵들을 다시 원래의 특징 맵 크기(입력의 1/8 크기)로 물리적으로 쭉 늘려줍니다(Upsampling). 이때 픽셀 사이의 빈공간을 부드럽게 채워주는 이중 선형 보간법(Bilinear Interpolation)이 사용되어, 거시적인 문맥 정보가 원래의 해상도에 맞춰 맵핑되도록 합니다.
Step 4. 정보의 병합 및 최종 예측 (Concatenation & Final Prediction)
원래 ResNet에서 넘어온 지엽적인 특징 맵과, Step 3에서 크기를 늘려놓은 4개의 전역 및 국소 문맥 특징 맵을 채널 축을 기준으로 햄버거 패티를 쌓듯이 하나로 포갭니다(Concatenation). 이제 병합된 이 두툼한 데이터 덩어리는 해당 픽셀 자체의 정보와, 그 픽셀을 둘러싼 다중 척도의 주변 문맥 정보를 모두 포함하게 되었습니다. 마지막으로 이 병합된 맵을 합성곱 계층에 한 번 더 통과시키며 각 픽셀이 어떤 클래스에 속하는지 최종 확률을 계산하여 예측 이미지를 생성합니다.
Step 5. 깊은 신경망을 훈련하기 위한 전략: 보조 손실 (Auxiliary Loss)
PSPNet은 매우 깊은 ResNet-101 또는 ResNet-269를 기본 뼈대로 사용합니다. 신경망이 깊어지면 모델의 예측값과 정답 사이의 오차(Loss)를 역전파(Backpropagation)하여 가중치를 갱신할 때, 네트워크의 앞단으로 갈수록 그 오차 신호가 점점 희미해지는 '기울기 소실(Vanishing Gradient)' 문제가 발생해 최적화가 매우 어려워집니다. 이를 해결하기 위해 연구진은 깊은 감독(Deep Supervision) 전략을 차용합니다. 네트워크의 맨 마지막 출력단에서만 정답과 비교하여 주 오차(Master branch loss)를 계산하는 것이 아니라, 네트워크 중간 단계인 ResNet의 4번째 스테이지(구체적으로 res4b22 잔차 블록 직후)에 보조 분류기(Auxiliary branch)를 달아 중간 채점을 한 번 더 수행합니다. 이 보조 손실은 0.4의 가중치를 곱하여 최종 손실에 더해지며, 중간 결과물도 정답과 얼마나 비슷한지 지속적으로 확인시켜 주어 네트워크의 앞부분이 더 확실하고 강력하게 학습되도록 돕습니다. 이 보조 분기는 오직 학습(Training) 과정에서만 길잡이 역할을 하며, 실제 모델을 배포하고 테스트(Testing)할 때는 계산 효율성을 위해 제거되고 메인 분기만 사용됩니다.
6. 작동 원리: 어떻게 학습하는가? (The "How")
아무리 혁신적인 구조라도 양질의 데이터 포맷과 이를 소화해 낼 수 있는 적절한 학습 환경 설정이 없으면 그 성능을 발휘할 수 없습니다. PSPNet을 현장에서 최적의 상태로 학습시키기 위해 투입되는 구체적인 데이터 구조와 학습 메커니즘은 다음과 같습니다.
- 입력 데이터 (Input Data): 학습을 위해 모델에 주입되는 데이터는 2D 컬러 이미지(RGB 포맷) 형태입니다. 자율주행, 실내 구조 분석, 풍경 등 다채로운 환경을 담은 이미지가 수만 장 단위로 투입됩니다. 데이터셋별로 입력 데이터의 특성이 나뉩니다. ADE20K 데이터셋의 경우, '벽', '하늘', '바닥'과 같은 형태가 없는 배경 요소(Stuff)부터 '사람', '자동차', '가구'와 같은 뚜렷한 사물(Object)까지 최대 150개의 다양한 카테고리를 포함하는 2만 장의 학습 이미지를 사용합니다. 자율주행 차량 시점에서 촬영된 Cityscapes 데이터셋은 고해상도의 도로, 보행자, 신호등 등 19개의 주요 클래스로 구성된 2,975장의 정밀 학습 이미지를 제공합니다.
- 데이터 증강(Data Augmentation): 한정된 데이터셋으로 모델을 강건하게 학습시키기 위해, 원본 이미지를 그대로 쓰지 않고 실시간 변형을 가합니다. 이미지를 무작위로 좌우 반전(Random mirror)하거나, 해상도를 0.5배에서 2배 사이로 무작위 확대 및 축소(Random resize)하고, -10도에서 10도 사이의 회전(Random rotation), 흐림 효과(Gaussian blur)를 추가하여 모델이 변인에 흔들리지 않도록 유도합니다.
- 출력 데이터 (Output Data): 출력은 입력 이미지와 물리적 해상도가 완전히 동일한 2D 맵 형태를 지닙니다. 각 픽셀 위치마다 정답 클래스 번호(예: 0=배경, 1=사람, 2=자전거 등)가 매핑된 2D 텍스트/숫자 행렬 맵을 산출합니다. 모델 내부적으로는 각 픽셀 위치마다 150개 혹은 19개의 클래스에 속할 확률값을 모두 계산한 뒤 가장 높은 확률을 가진 클래스를 정답으로 뱉어내며, 이를 컬러 색상표로 변환하면 시각적으로 직관적인 분할 이미지가 완성됩니다.
- 학습 최적화 세부사항 및 하드웨어 조건
- PSPNet을 안정적으로 학습시키는 과정은 하드웨어 자원의 극한을 시험합니다. 이미지를 크게 유지한 채 복잡한 피라미드 망원경(PPM) 연산을 다중 채널로 수행하기 때문에, 한 번에 처리할 수 있는 이미지 묶음의 크기(Batch Size)가 그래픽 카드(GPU)의 물리적 메모리 용량에 의해 엄격히 제한됩니다. 네트워크 메모리 한계로 인해 원본 이미지를 통째로 넣지 못하고 특정 크기로 잘라서(Crop size) 투입하는데, ADE20K나 PASCAL VOC의 경우 473x473 픽셀 크기로, 해상도가 높은 Cityscapes는 713x713 또는 768x768 픽셀 크기로 잘라서 학습시킵니다.
- 통상적으로 배치 크기(Batch Size)가 작아지면, 네트워크의 안정성을 위해 필수적인 배치 정규화(Batch Normalization)의 통계적 효과가 급격히 무너집니다. 연구진은 이를 해결하기 위해 동기화된 배치 정규화(Synchronized Batch Normalization, SyncBN) 기법을 도입했습니다. 여러 대의 GPU(예: 12GB 메모리를 가진 GPU 4~8대)에 나누어진 배치 크기를 통신망(OpenMPI 등)을 통해 하나의 통계량으로 동기화하여, 실질적인 배치 크기를 16으로 유지함으로써 성능 저하를 방어했습니다. 옵티마이저(Optimizer)는 SGD를 사용하였으며, 모멘텀(Momentum)은 0.9, 가중치 감쇠(Weight decay)는 0.0001로 설정했습니다. 또한, 학습률(Learning Rate)은 초기값 0.01에서 시작하여 학습이 진행됨에 따라 점진적으로 곡선을 그리며 줄어드는 'Poly' 정책(Power 0.9)을 사용하여 모델 파라미터가 안정적으로 최적점에 수렴하도록 유도했습니다.
7. 결과: 얼마나 좋아졌나? (Results)
제안된 피라미드 풀링 모듈(PPM)과 보조 손실(Auxiliary Loss) 훈련 전략을 결합한 PSPNet은 당시 학계에 존재하던 모든 벤치마크 평가 지표를 무너뜨리며 압도적인 성과를 기록했습니다. 성능을 나타내는 핵심 평가 지표로는 모델이 예측한 영역과 실제 정답 영역이 얼마나 정확히 겹치는지를 비율로 계산한 mIoU(Mean Intersection over Union)와 전체 픽셀 중 맞춘 픽셀의 비율을 나타내는 픽셀 정확도(Pixel Accuracy)가 주로 사용되었습니다.
연구진은 핵심 아이디어들이 실제로 얼마나 기여했는지 검증하기 위해 요소별 절제 연구(Ablation Study)를 광범위하게 수행했습니다.
| 모델 설정 변경 요소 | mIoU (%) | 향상도 | 분석 내용 |
| ResNet50 베이스라인 | 34.28 | - | 확장 합성곱(Dilated Network)이 적용된 ResNet50 기반의 기본 모델. |
| + 전역 평균 풀링 1개 (B1) | 40.07 | +5.79 | ParseNet처럼 1x1 풀링만 적용해도 성능이 크게 오름. |
| + 피라미드 풀링 모듈 (PPM) | 41.68 | +1.61 | 1, 2, 3, 6 격자를 모두 쓴 PPM과 차원 축소가 최고 성능 도출. |
| + 보조 손실 (Auxiliary Loss) | 41.68 (유지) | 안정화 | 가중치 $\alpha=0.4$일 때 학습 수렴 속도 및 안정성 최적화 확인. |
| + 네트워크 깊이 증가 (ResNet269) | 43.81 | +2.13 | 백본을 50층에서 269층으로 깊게 할수록 성능 지속 상승. |
| + 다중 척도 테스트 (MS) | 44.94 | +1.13 | 이미지를 여러 크기로 테스트하여 앙상블한 최종 SOTA 성능. |
이러한 치밀한 구조적 설계를 바탕으로 주요 세계 대회와 공인 데이터셋에서 이전 모델들의 기록을 크게 뛰어넘었습니다.
- ImageNet Scene Parsing Challenge 2016 (ADE20K 데이터셋): 수많은 다국적 기업과 연구소 팀이 참여한 이 대회에서, PSPNet 기반의 앙상블 모델은 최종 스코어 57.21%를 기록하며 2위 팀(56.74%)을 제치고 우승을 차지했습니다. 심지어 단일 모델 점수(55.38%)조차 타 팀의 앙상블 점수와 맞먹는 위력을 보여주었습니다.
- PASCAL VOC 2012: 시맨틱 세그멘테이션의 전통적인 벤치마크인 이 데이터셋에서, 기존 1위였던 DeepLab 모델(82.2%)을 넘어서 mIoU 85.4%라는 경이로운 신기록을 달성했습니다.
- Cityscapes: 도심 자율주행 시점의 고해상도 이미지 처리에서도 이전 1위였던 LRR 모델(71.8%)을 압도하며 80.2%의 정확도를 달성했습니다.
가장 임팩트 있는 성과는 수치뿐만 아니라, 모델이 앞서 제기했던 "맥락의 부재" 문제들을 시각적으로 완벽하게 해결해 냈다는 점입니다. 물 위에 떠 있는 회색 덩어리를 기존 FCN이 픽셀 질감만 보고 자동차(Car)로 오분류한 반면, PSPNet은 전체 이미지의 '강물' 문맥을 피라미드 모듈로 읽어 들여 정확히 보트(Boat)로 예측해 냈습니다. 또한, 창문이 촘촘히 달린 거대한 구조물을 기존 모델은 윗부분은 마천루, 아랫부분은 건물로 모자이크처럼 쪼개어 혼란스럽게 예측했지만, PSPNet은 하나의 온전한 건물 덩어리로 통일성 있게 분할했습니다. 침대와 비슷한 색상의 베개 역시 주변 상황을 종합하여 정확한 테두리를 식별해 내는 데 성공했습니다.
실패 케이스 및 솔직한 한계 (Limitations)
논문과 후속 연구들은 성능의 비약적 향상에도 불구하고 여전히 극복해야 할 한계점들을 솔직하게 드러냅니다. 수용 영역이 커지고 전역 문맥을 이해하게 되었지만, 그 반대급부로 크기가 극도로 작은 객체(Small objects)나 윤곽선이 모호한 대상의 디테일을 완벽히 잡아내는 데는 여전히 약점을 보였습니다. 고정된 격자망(Grid)으로 이미지를 나누어 풀링하는 PPM 구조의 특성상, 우연히 격자의 경계선 가장자리에 걸쳐 있는 객체는 온전한 지역 특징을 반영하지 못하고 잘려서 계산되므로 분할 윤곽선이 뭉개지거나 위성사진 속 미세한 농경지 경계 등을 놓치는 현상(Under-segmentation)이 보고되었습니다. 또한, 고해상도 이미지를 처리하기 위해 수많은 채널의 피라미드 연산을 수행하는 구조 특성상 막대한 GPU 물리적 메모리가 요구된다는 한계가 있습니다. 논문 저자들은 기존의 확장(Dilated) FCN 대비 연산 비용 자체가 크게 증가하지는 않는다고 밝혔으나 , 실제 학습 과정에서는 GPU 메모리의 물리적 한계로 인해 배치 크기(Batch Size)를 16으로 작게 설정해야 했고, 이를 해결하기 위해 동기화된 배치 정규화(SyncBN)를 직접 구현해야만 했습니다. 따라서 모바일 디바이스나 실시간 자율주행과 같은 저전력, 초고속 추론 환경에 즉각적으로 적용하기에는 너무 무겁다는 실무적 맹점이 존재합니다.
8. 이 논문의 계보와 발전 (Impact & Follow-ups)
PSPNet이 도입한 "다양한 크기의 윈도우로 문맥을 통합한다"는 철학은 시맨틱 세그멘테이션 분야의 정석으로 굳어졌으며, 수많은 후속 연구들의 탄생에 결정적인 영감과 기초 뼈대를 제공했습니다.
- DeepLabv3 및 DeepLabv3+ (2017~2018): 구글의 DeepLab 시리즈는 PSPNet과 선의의 라이벌 구도를 형성하며 발전했습니다. DeepLabv3는 확장 합성곱(Atrous Convolution)을 여러 비율로 병렬 적용하는 ASPP(Atrous Spatial Pyramid Pooling) 구조를 도입했습니다. 이는 PSPNet의 피라미드 풀링 모듈(PPM)이 증명한 다중 척도 문맥 수집의 압도적인 우수성을 확장 합성곱 버전으로 재해석하여 수용한 것입니다. 더 나아가 DeepLab 모델들 역시 PSPNet처럼 이미지 단위의 전역 특징(Global Average Pooling)을 결합하는 구조를 최종적으로 편입시켜 문맥 통합의 중요성을 재확인했습니다.
- UPerNet (Unified Perceptual Parsing, 2018): 시각적 장면을 픽셀, 객체, 부분, 질감 등 여러 의미론적 레벨에서 통합적으로 파악하기 위해 제안된 UPerNet은 네트워크 구조의 핵심 백본 끝단에 PSPNet의 피라미드 풀링 모듈(PPM)을 원형 그대로 장착하여 설계되었습니다. 가장 높은 의미론적 수준의 거시적 정보(전역 문맥)가 필요한 장면 분류(Scene head)를 복잡한 가공 없이 PPM 출력단 직후에 바로 배치함으로써, PPM 모듈 하나만으로도 전역 문맥을 성공적으로 추출할 수 있음을 입증했습니다.
- 다양한 산업 분야로의 응용 및 경량화 연구 (2020~): PSPNet의 무거운 연산량을 줄이면서도 문맥 이해 능력을 살리기 위한 파생 연구가 폭발적으로 이어졌습니다. 무거운 ResNet 대신 파라미터가 적은 MobileNetV2 등을 백본 네트워크로 교체하여 의료 영상(종양 분할)이나 농업 로봇(수확 로봇의 과일 및 잎 분할) 등 실시간성이 중요한 엣지 컴퓨팅 기기에 탑재하려는 연구(CAML-PSPNet 등)가 활발히 진행되었습니다.
- Transformer 기반의 최신 구조와 하이브리드 융합 (2021~): 최근 딥러닝 트렌드가 합성곱 중심의 CNN에서 Vision Transformer(ViT, Swin Transformer 등) 계열로 넘어가면서, 이미지의 전역 정보는 어텐션(Self-Attention) 메커니즘이 수리적으로 자연스럽게 처리하는 추세입니다. 그러나 의료 영상이나 원격 탐사(Remote Sensing)와 같은 고해상도 특수 도메인에서는 어텐션 연산의 제곱에 비례하는 메모리 요구량이 부담이 됩니다. 따라서 트랜스포머의 다중 헤드 어텐션(MHSA) 메커니즘과 PSPNet의 피라미드 풀링 구조의 장점만을 취합하여 융합한 TransDeep, BoT-PSPNet 같은 하이브리드 모델들이 속속 등장하며 각종 특화 벤치마크에서 새로운 SOTA를 기록하고 있습니다.
9. 마무리
실제 산업 현장, 특히 정밀 농업의 위성 영상 분석이나 자율주행의 실시간 환경 인지에 PSPNet 구조를 도입하려 할 때 엔지니어가 반드시 유념해야 할 실무적 주의점들이 존재합니다.
- 첫째, 과도한 GPU 메모리 의존성을 경계해야 합니다. 앞서 상세히 살펴본 바와 같이, 4개의 피라미드 형태로 특징을 복제하고 이를 다시 원래 크기로 확대하여 이어 붙이는 병합(Concatenation) 과정은 채널의 차원 수가 급격히 늘어나 GPU VRAM을 강하게 압박합니다. 학습 시 모델 안정성을 위한 최소한의 이미지 묶음(Batch size)을 형성하려면 필수적으로 여러 대의 고성능 GPU와 동기화된 배치 정규화(SyncBN) 환경을 구축해야 하므로 초기 인프라 구축 비용과 학습 시간이 크게 상승합니다. 제한된 자원에서는 백본을 MobileNet 계열로 교체하거나 채널 축소 비율을 튜닝하는 타협이 필수적입니다.
- 둘째, 격자망 분할 방식이 초래하는 경계면 객체의 인식 저하 현상입니다. 모듈이 이미지를 물리적인 그리드로 강제 분할하여 평균을 내기 때문에, 우연히 그리드의 경계선 가장자리(Boundary Edge)에 걸쳐 위치한 사물이나 작은 위성사진 속 건물 등은 주변 픽셀에 정보가 희석되어 분할 윤곽선이 뭉개지거나 검출이 누락될 확률이 높습니다.
PSPNet은 분명 위대한 도약이었으나 앞서 언급한 경계면 모호성과 연산량이라는 숙제를 남겼습니다. 최근에는 이러한 격자망 분할 경계선 이슈를 픽셀 단위로 해결하기 위해, 격자를 겹치도록 이동하며 풀링하는 Shift Pooling 기술이나 세밀한 윤곽선 주변의 특징을 강제로 증폭시키는 Boundary-Aware 모듈(BEAU-Net 등)을 추가하여 해상도를 보정하는 세밀한 설계 기법들이 제안되고 있습니다.
인공지능의 시각이 진화하는 과정에서 PSPNet이 지적했던 "문맥의 중요성"은 오늘날 텍스트와 이미지를 동시에 이해하는 대형 시각-언어 모델(Vision-Language Models)에서도 여전히 가장 중요한 화두로 다루어지고 있습니다. CNN 기반의 고정된 필터가 가진 태생적 한계를 넘기 위해 등장했던 기하학적인 피라미드 연산은, 이제 모델이 스스로 어떤 주변 픽셀을 참조해야 할지 동적으로 학습하는 트랜스포머(Transformer)의 어텐션 구조로 진화하며 세대교체를 이루고 있습니다.
하지만 트랜스포머의 천문학적인 연산량을 감당하기 힘든 엣지(Edge) 디바이스나 실시간 자원 제약이 있는 환경에서는, 여전히 가벼운 백본 네트워크에 작은 크기의 피라미드 풀링 모듈(PPM)을 결합하여 가성비 높은 전역 문맥 인지 능력을 확보하는 방식이 가장 실용적이고 강력한 대안으로 현업에서 널리 채택되고 있습니다.