본문 바로가기

딥러닝

CircleSnake: Instance Segmentation with Circle Representation - 의료 영상 분할, 어떻게 네모를 버리고 동그라미로 혁신을 이루었나?

반응형


일러두기 (Disclaimer)

본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.

 

 

논문 링크 : https://arxiv.org/abs/2211.01254

 

CircleSnake: Instance Segmentation with Circle Representation

Circle representation has recently been introduced as a medical imaging optimized representation for more effective instance object detection on ball-shaped medical objects. With its superior performance on instance detection, it is appealing to extend the

arxiv.org

 

 

초록 (Abstract)

의료 영상 분석 분야에서 '원형 표현법(Circle Representation)'은 구형(Ball-shaped) 의료 객체를 탐지하는 데 있어 기존의 다각형 모델보다 더 효과적이고 "의료 영상에 최적화된" 표현 방식으로 최근 새롭게 소개되었습니다. 인스턴스 객체 탐지(Instance Object Detection)에서 원형 표현법이 보여준 탁월한 성능에 힘입어, 본 연구는 이러한 원형 표현법을 인스턴스 수준의 의료 객체 분할(Instance Medical Object Segmentation) 문제로 확장하는 접근을 시도합니다.

본 논문에서는 구형 의료 객체의 분할을 위해, 원형 윤곽선의 변형을 기반으로 하는 직관적이고 일체형(End-to-end) 구조의 분할 기법인 'CircleSnake'를 제안합니다. 컴퓨터 비전 분야에서 널리 쓰이는 기존의 DeepSnake 방법론과 비교할 때, 본 연구가 기여하는 바는 크게 세 가지입니다.

첫째, 기존 방식에서 사용되던 복잡한 '바운딩 박스(Bounding Box)에서 8각형 윤곽선(Octagon Contour)으로의 변환' 과정을 대체했습니다. 이를 통해 추가적인 연산이 필요 없고 일관성을 유지할 수 있는 '바운딩 서클(Bounding Circle)에서 원형 윤곽선(Circle Contour)으로의 직접 적응' 방식을 도입하여 구형 의료 객체 분할을 수행합니다. 둘째, 원형 표현법은 자유도(Degrees of Freedom, DoF)가 2에 불과하여, 8각형 표현법이 가지는 8의 자유도에 비해 낮습니다. 이는 결과적으로 더욱 견고한 분할 성능을 제공하며 우수한 회전 일관성(Rotation consistency)을 산출합니다. 셋째, 제안된 CircleSnake 모델은 원형 탐지(Circle detection), 원형 윤곽선 제안(Circle contour proposal), 그리고 원형 합성곱(Circular convolution)을 일체형으로 통합한 최초의 원형 표현 기반 딥러닝 분할 파이프라인입니다.

이 모델의 핵심적인 혁신은 직관적이고 일관된 원형 윤곽선 표현법을 매개로 하여, 원형 그래프 합성곱(Circular graph convolution)과 원형 탐지 과정을 하나의 일체형 인스턴스 분할 프레임워크로 통합했다는 점입니다. 벤치마크 성능 평가를 위해 사구체(Glomeruli) 데이터세트가 활용되었습니다. 실험 결과, CircleSnake는 사구체 탐지의 평균 정밀도(Average Precision)를 기존 0.559에서 0.614로 끌어올렸습니다. 다이스 점수(Dice score) 역시 0.804에서 0.849로 향상되었습니다. 본 연구의 코드는 깃허브를 통해 공개되었습니다.

 

1. 한줄 요약 & 3줄 핵심 (Executive Summary)

본 논문은 회전이 빈번하고 구형 형태를 띠는 의료 객체를 정확하게 분할하기 위해, 기존 컴퓨터 비전의 관행인 사각형 바운딩 박스를 버리고 중심점과 반지름만으로 이루어진 원형 표현법을 도입하여 연산 효율과 회전 일관성을 극대화한 일체형 인스턴스 분할 모델입니다.

  1. 기존의 문제점 (Pain point): Mask R-CNN이나 DeepSnake 등 기존의 인스턴스 분할 모델들은 자연 이미지에 맞춰진 직사각형 바운딩 박스나 8각형 윤곽선을 초기 설정값으로 사용합니다. 이는 스캔 각도에 따라 객체가 회전하는 의료 영상의 특성을 반영하지 못하며, 구형 객체를 표현하는 데 있어 자유도(DoF)가 높아 연산 낭비와 회전 비일관성을 초래합니다.
  2. 이 논문의 해결책 (Solution): 바운딩 박스를 '바운딩 서클(Bounding Circle)'로 대체하여 초기 윤곽선의 자유도를 2(중심 좌표, 반지름)로 낮추었습니다. 탐지된 원형에서 균일하게 점을 추출하여 초기 윤곽선을 만들고, 이를 원형 합성곱 기반의 그래프 신경망을 통해 객체의 실제 경계로 미세 변형시키는 구조를 제안합니다.
  3. 달성한 성과 (Key Result): 신장 사구체 데이터셋 실험에서 기존 모델 대비 객체 탐지 평균 정밀도(AP)와 분할 다이스 점수(Dice)를 큰 폭으로 향상시켰으며, 별도의 보정 연산 없이도 이미지 회전에 대해 높은 수준의 일관된 예측 결과를 입증했습니다.

 

2. 들어가며: 왜 이 연구가 필요했나? (The "Why")

딥러닝을 활용한 인스턴스 분할(Instance Segmentation) 기술은 이미지 내에 존재하는 여러 객체의 위치를 찾아내는 사물 탐지(Object Detection)의 역할을 넘어서, 각 객체의 정확한 픽셀 경계선까지 오차 없이 구분해 내는 고난도의 컴퓨터 비전 과제입니다. 자율주행 자동차가 도로 위의 보행자와 다른 차량을 픽셀 단위로 분리하여 인식하거나, 스마트폰 카메라가 피사체와 배경을 정교하게 분리할 때 널리 사용되는 이 기술은, 최근 몇 년 사이 질병 진단과 세포 분석을 위한 의료 영상(Medical Imaging) 분석 분야로 빠르게 도입되고 있습니다. 하지만 자율주행이나 일상 사진을 처리하기 위해 개발된 알고리즘을 현미경으로 관찰하는 생체 조직 영상에 그대로 적용하는 과정에서 연구자들은 뚜렷한 한계에 직면하게 되었습니다. 그 한계는 바로 '이미지의 배향(Orientation)'과 '객체의 형태(Shape)'가 일반 자연 이미지와 본질적으로 다르다는 점에서 기인합니다.

 

기존 컴퓨터 비전 모델의 대다수는 자연 이미지(Natural Images) 데이터셋을 기반으로 설계되고 학습됩니다. 자연 이미지 환경에서는 중력의 영향으로 인해 사람, 자동차, 건물, 나무 등 대부분의 주요 객체가 지면을 기준으로 수직이거나 수평인 상태를 유지합니다. 따라서 객체의 위치를 특정할 때, 가로축과 세로축이 명확하게 정의된 직사각형 형태의 '바운딩 박스(Bounding Box)'를 사용하는 것이 가장 직관적이고 연산 효율적인 방식이었습니다. 인스턴스 분할의 표준으로 여겨지는 Mask R-CNN 모델 역시 이러한 바운딩 박스를 먼저 이미지 상에서 찾아낸 뒤, 그 사각형 영역 내부의 픽셀들만을 대상으로 해당 픽셀이 객체의 일부인지 아니면 배경인지를 이진 분류(Binary classification)하는 방식을 취합니다. 또 다른 발전된 형태의 모델인 DeepSnake는 픽셀 분류 대신 객체의 윤곽선을 직접 예측하는 방식을 제안했습니다. 하지만 이 모델 역시 사각형 바운딩 박스를 초기 시작점으로 삼아 사각형의 네 변 중심점과 꼭짓점을 활용해 8각형의 초기 윤곽선을 만들고, 이를 객체의 실제 경계선으로 서서히 변형(Deformation)시켜 나가는 과정을 거칩니다.

 

그러나 생체 조직을 수 마이크로미터 두께로 얇게 잘라 유리 슬라이드에 올려놓고 고배율 현미경으로 관찰하는 의료 영상의 환경은 자연 이미지와 구조적으로 다릅니다. 조직 검사 슬라이드는 스캐너 장비에 놓이는 물리적 방향에 따라 동일한 세포나 사구체라 할지라도 0도에서 360도까지 임의의 각도로 회전되어 디지털 이미지로 저장됩니다. 위아래가 고정된 일상 사진과 달리, 의료 영상은 공간적 제약이나 중력의 기준점 없이 자유롭게 배향됩니다. 여기에 더해 신장 조직의 사구체(Glomeruli), 세포의 핵(Nuclei), 특정 질환을 나타내는 염증 세포인 호산구(Eosinophils) 등 임상적으로 중요한 분석 대상들은 대부분 둥근 공 모양(Ball-shaped)을 띠고 있다는 형태적 특성이 있습니다.

 

이러한 둥근 형태의 의료 객체를 찾아내기 위해 가로세로 축이 고정된 직사각형 바운딩 박스를 사용하는 것은 구조적인 모순을 발생시킵니다. 예를 들어 둥근 사구체 이미지가 현미경 렌즈 아래서 45도 회전하여 촬영되었다고 가정해 봅니다. 사구체 자체의 모양은 둥글기 때문에 시각적인 형태는 회전 전과 거의 동일하게 보입니다. 그러나 사물 탐지 모델이 인식해야 하는 가로세로 축이 고정된 바운딩 박스의 크기와 비율, 그리고 박스 내부에 포함되는 배경(여백)의 형태와 면적은 회전 각도에 따라 완전히 달라지게 됩니다. 이는 딥러닝 모델이 회전된 이미지를 전혀 다른 새로운 데이터 패턴으로 인식하게 만들며, 결과적으로 예측의 일관성(Rotation Consistency)을 훼손하고 모델의 일반화(Generalization) 성능을 저하시키는 주요 원인이 됩니다.

 

이러한 배경에서 본 논문의 연구자들은 근본적인 질문을 던졌습니다. 생물학적 객체를 탐지하고 분할하는 데 있어, 단지 컴퓨터 비전 분야의 관행이라는 이유만으로 사각형 프레임을 고집해야 할 필요가 있는지 고민했습니다. 객체의 표현 방식을 구형 생물체에 최적화된 '원형(Circle)'으로 바꾸게 되면, 이미지가 현미경 아래서 아무리 회전하더라도 원의 중심점 좌표와 반지름의 길이는 변하지 않으므로 본질적인 회전 불변성(Rotation Invariance)을 획득할 수 있습니다. 또한 복잡한 다각형 윤곽선을 생성하기 위한 중간 연산 과정들을 모두 생략할 수 있어 프레임워크의 효율성까지 확보할 수 있습니다. CircleSnake 연구는 바로 이 지점에서 출발하여, 의료 영상 특유의 기하학적 특성에 대한 공감대를 바탕으로 컴퓨터 비전의 기본 단위를 의료 도메인에 맞게 재정의하는 과정을 거쳤습니다.

 

3. 이 논문의 뿌리 (Key Reference)

CircleSnake 프레임워크가 탄생할 수 있었던 배경에는 객체를 점으로 해석하는 관점, 의료 영상을 위한 원형 표현의 도입, 그리고 윤곽선 기반의 변형 분할이라는 세 가지 핵심적인 선행 연구가 자리 잡고 있습니다. 이 논문은 단순히 여러 기술을 이어 붙인 것이 아니라, 선행 모델들의 장점을 계승하면서도 의료 환경에 맞지 않는 불필요한 복잡성을 제거하여 새로운 구조를 완성했습니다. 각각의 모델이 CircleSnake의 탄생에 어떤 관계를 맺고 있는지 설명합니다.

 

첫 번째 뿌리는 CenterNet (2019) 논문입니다. 이 논문은 딥러닝 객체 탐지 패러다임에 근본적인 인식 전환을 가져온 연구입니다. 이전의 객체 탐지 모델들(예: Faster R-CNN, YOLO 초기 버전)은 수많은 가상의 사각형 상자(Anchor boxes)를 이미지 전반에 촘촘히 겹쳐서 뿌려놓고 정답 데이터와 비교하는 방식을 사용했습니다. 반면 CenterNet은 "객체는 곧 하나의 중심점(Point)이다"라는 철학을 제시했습니다. 이미지 내 객체의 정중앙 픽셀을 하나의 기준 키포인트로 찾아내고, 그 기준점으로부터 객체의 가로세로 길이 등 부가적인 특징을 회귀(Regression) 방식으로 예측합니다. CircleSnake는 복잡한 다중 사각형 경계 상자 대신 객체의 중심점을 열지도(Heatmap) 형태로 직관적으로 찾아내는 CenterNet의 구조를 기본 백본(Backbone)의 검출 메커니즘으로 깊이 있게 차용했습니다. 이를 통해 객체 겹침 현상이 심한 의료 영상에서도 중심점을 기준으로 개별 세포나 사구체를 쉽게 식별할 수 있는 토대를 마련했습니다.

 

두 번째 뿌리는 CircleNet (2020/2021) 논문입니다. 이 연구는 앞서 언급한 CenterNet의 아이디어를 의료 영상 도메인에 맞게 한 차례 진화시킨 연구로, CircleSnake의 직접적인 토대가 되는 논문입니다. 이 연구는 CenterNet이 중심점을 찾은 뒤 사각형의 가로세로 폭을 예측하는 방식을 과감히 폐기하고, 대신 오직 '반지름(Radius)' 단 하나만의 길이를 예측하여 객체의 경계를 '원(Circle)'으로 정의하는 발상의 전환을 이뤘습니다. 이 방식은 모델이 최적화해야 하는 변수인 자유도(DoF)를 크게 낮추어 모델의 학습 부담을 줄이고 사구체와 같은 구형 객체 탐지율을 비약적으로 높였습니다. CircleSnake는 이 CircleNet에서 제안한 원형 탐지 구조를 분할(Segmentation)의 영역으로 확장하여, 단순한 바운딩 서클 탐지(Detection)를 넘어 픽셀 단위의 정교한 경계 분할 파이프라인으로 발전시켰습니다.

 

세 번째 뿌리는 DeepSnake (2020) 논문입니다. 이는 윤곽선 기반 분할(Contour-based Segmentation)의 SOTA(State-of-the-art)를 달성한 모델로, CircleSnake가 비판적으로 극복하고자 했던 대상이자 동시에 작동 원리의 핵심 알고리즘을 제공한 논문입니다. DeepSnake는 사각형 바운딩 박스를 추출한 뒤, 박스 상하좌우의 픽셀 극단점(Extreme points)을 이어 다이아몬드 형태를 만들고, 이를 다시 8각형으로 변형한 뒤 최종 객체의 윤곽선에 맞게 세밀하게 조정하는 다단계 방식을 사용합니다. CircleSnake는 DeepSnake가 윤곽선을 미세 조정할 때 사용하는 탁월한 기술인 '원형 그래프 합성곱(Circular Graph Convolution)' 모듈을 그대로 차용합니다. 그러나 사각형에서 8각형으로 이어지는 지나치게 복잡하고 회전에 취약한 초기 윤곽선 설정 과정을 폐기하고, CircleNet의 원형 표현법으로 이를 전면 대체하는 구조적 혁신을 이룹니다. 즉, DeepSnake의 복잡한 앞단은 버리고 강력한 뒷단만 취한 뒤, 그 사이를 원형 표현법으로 매끄럽게 연결한 것입니다.

 

4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)

CircleSnake가 제시하는 발상의 전환을 가장 직관적으로 이해하기 위해, 종이접기 과정에 비유해 설명할 수 있습니다. 둥근 모양의 종이를 오려내야 하는 상황을 가정합니다. 기존의 방식인 DeepSnake는 우선 큰 정사각형 모양으로 종이를 자르고, 네 모서리를 한 번씩 접어 8각형을 만든 뒤, 그 8개의 변을 구부리고 당겨가며 둥근 형태에 억지로 맞춰 나가는 과정을 거칩니다. 이 과정은 단계가 많고 번거로울 뿐만 아니라, 시작 형태가 이미 각이 져 있기 때문에 이미지가 조금만 회전하여 각도가 틀어져도 접어야 할 모서리의 위치가 완전히 달라집니다.

 

반면, 본 논문이 제시한 해결책인 CircleSnake는 애초에 컴퍼스를 사용하여 종이에 중심을 잡고 원을 먼저 그린 뒤, 그 원의 부드러운 테두리를 전체적으로 미세하게 넓히거나 좁혀서 실제 세포의 불규칙한 둥근 형태에 딱 맞추는 방식입니다. 훨씬 자연스러운 과정이며 불필요한 단계를 제거했습니다.

 

이러한 혁신의 수학적 개념은 '자유도(Degrees of Freedom, DoF)'를 통해 설명할 수 있습니다. 딥러닝 모델이 어떤 도형의 형태와 크기를 결정하기 위해 스스로 학습하고 맞춰야 하는 필수 변수의 개수를 자유도라고 부릅니다. 이전의 모델들이 사용한 8각형 윤곽선은 도형의 크기와 모서리의 위치 등 형태를 온전히 정의하기 위해 8개의 변수가 필요합니다(DoF=8). 변수가 많다는 것은 모델이 학습해야 할 파라미터가 복잡해진다는 뜻이고, 이는 제한된 의료 데이터 환경에서 모델 예측의 불확실성이 커짐을 의미합니다. 그러나 원형(Circle) 도형은 오직 2개의 변수, 즉 '중심점의 x, y 좌표'와 '반지름의 길이' 단 두 가지만 있으면 완벽하게 정의됩니다(DoF=2).

 

이전에는 사각형 박스 탐지, 사각형 기반의 다이아몬드 윤곽선 추출, 8각형 윤곽선 제안, 반복적인 형태 변형이라는 4단계의 복잡한 변환 과정을 거쳤습니다. 그러나 본 연구에서는 입력 이미지에서 원형의 중심과 반지름을 탐지하고, 그 원을 따라 점을 찍어 초기 윤곽선을 제안한 뒤, 즉시 형태 변형으로 이어지는 단일하고 직관적인 원형 흐름으로 발상의 전환을 했습니다.

 

의료 영상의 분석 대상물인 사구체나 세포핵 등은 선천적으로 공 모양에 가까운 생물학적 기하 특성을 지니고 있습니다. CircleSnake는 이러한 대상물의 고유한 형태적 특성이라는 도메인 지식을 딥러닝 아키텍처의 초기 설정값 자체에 강하게 주입하였습니다. 결과적으로 불필요한 자유도를 과감히 제거하고, 가장 단순하고 일관된 기하학적 형태인 '원'을 통해 객체의 탐지와 정밀한 분할을 단일 파이프라인으로 묶어낸 것입니다.

 

5. 작동 원리: 어떻게 돌아가는가? (The "How")

CircleSnake의 내부 아키텍처는 일련의 논리적이고 직관적인 데이터 처리 흐름(Flow)을 따릅니다. 복잡한 수식 증명이나 하이퍼파라미터 설정을 배제하고, 현미경으로 촬영된 조직 이미지가 딥러닝 모델에 들어가서 최종적으로 사구체의 정밀한 픽셀 경계선이 추출되어 나오기까지의 과정을 단계별로 설명합니다.

 

첫 번째 단계는 뼈대 신경망을 통한 '특징 추출(Feature Extraction)'입니다. 환자의 의료 이미지가 모델에 입력되면, 가장 먼저 이미지를 깊게 분석하여 픽셀의 질감, 색상의 대비, 가장자리의 미세한 형태 등의 시각적 특징을 추출해 내는 뼈대 신경망(Backbone Network)을 거치게 됩니다. 본 연구에서는 DLA(Deep Layer Aggregation) 네트워크 구조를 백본으로 사용합니다. 이 네트워크는 이미지의 얕은 특징과 깊은 특징을 다층적으로 융합하는 역할을 하며, 이를 거치며 원래의 2D 이미지는 각 픽셀 영역이 담고 있는 고차원적인 정보들을 압축적으로 포함하는 특징 지도(Feature map) 데이터로 변환됩니다.

 

두 번째 단계는 중심점과 반지름을 찾는 '원형 탐지(Circle Detection)'입니다. 모델은 앞서 추출된 특징 지도를 바탕으로 이미지 내에서 사구체가 정확히 어디에 위치하는지 그 중심점 좌표를 찾아야 합니다. 이를 위해 모델은 이미지 전체 해상도에 걸쳐 열지도(Heatmap)를 생성합니다. 열지도를 구성하는 픽셀값은 0부터 1 사이의 확률 값을 가지며, 사구체의 중심 픽셀에 가까워질수록 온도가 높은 것처럼 값이 1에 수렴하게 됩니다. 모델이 중심점을 보다 부드럽고 정확하게 학습하도록 돕기 위해, 진짜 중심점 주변으로 값이 방사형으로 부드럽게 퍼져나가는 2차원 가우시안 분포(2D Gaussian Kernel) 형태를 적용합니다. 이와 동시에, 신경망의 또 다른 브랜치(Branch)에서는 찾아낸 각 중심점에서부터 바깥으로 뻗어나가는 '반지름(Radius)'의 길이를 예측합니다. 이 과정을 통해 중심점의 x, y 좌표와 r 반지름 정보로 구성된 고유한 '바운딩 서클(Bounding Circle)'이 획득됩니다.

 

세 번째 단계는 예측된 원을 다각형 선으로 바꾸는 '원형 윤곽선 제안(Circle Contour Proposal)'입니다. 앞서 탐지한 바운딩 서클을 이제 분할 작업을 위한 실질적인 경계선으로 변환해야 합니다. 이 과정은 별도의 신경망 학습이나 복잡한 행렬 연산이 필요 없는 단순한 기하학적 샘플링 처리입니다. 그려진 원의 맨 꼭대기(12시 방향) 점을 시작으로, 테두리(원주)를 따라 시계 방향으로 일정한 간격을 두고 128개의 점을 균일하게 추출(Sampling)합니다. 이 128개의 점들을 차례대로 이은 128각형 다각형이 객체의 대략적인 경계선 역할을 하는 '초기 윤곽선'으로 기능하게 됩니다.

 

네 번째 단계는 오차를 바로잡는 '원형 윤곽선 변형(Circular Contour Deformation)'입니다. 이 파이프라인의 가장 핵심적인 분할 과정입니다. 대략적으로 그려진 원형 위의 128개 점은, 톱니바퀴처럼 울퉁불퉁한 실제 사구체의 경계와 비교할 때 약간의 형태적 오차를 가집니다. 이 오차를 줄여 실제 경계선에 밀착시키기 위해 그래프 합성곱 신경망(Graph Convolutional Network, GCN)을 가동합니다. 128개의 각 점(정점, Vertex)은 이미지에서 추출된 자신의 현재 위치의 시각적 특징 정보와 자신의 물리적 좌표 정보를 벡터 형태로 동시에 가지고 있습니다. 이때 모델은 '원형 합성곱(Circular Convolution)'이라는 특수한 데이터 처리 방식을 사용합니다. 윤곽선은 결국 끝과 시작이 단절되지 않고 하나로 연결된 동그란 고리 형태의 1차원 주기적 신호(Periodic signal)로 해석될 수 있습니다. 따라서 모델은 윤곽선을 따라 이웃한 점들의 특징 정보를 마치 순환하는 기차처럼 주기적으로 서로 주고받으며 인접한 점들 사이의 맥락을 융합합니다. 정보 교환이 끝나면 신경망의 마지막 계층은 각 점이 현재 위치에서 실제 객체의 픽셀 경계선 쪽으로 상하좌우 얼마만큼 이동해야 하는지 오프셋(Offset, 이동 방향과 거리)을 예측합니다. 이 미세한 이동 계산을 보통 3차례 반복(Iteration) 수행합니다. 초기에는 완벽한 동그라미 형태였던 128개의 점들이 3번의 수축과 팽창을 거치며 사구체의 실제 불규칙한 모양에 꼭 맞춰지게 되고, 최종적인 인스턴스 분할 마스크를 완성하게 됩니다.

 

6. 작동 원리: 어떻게 학습하는가? (The "How")

딥러닝 모델이 앞서 설명한 정교한 탐지 및 분할 능력을 갖추기 위해서는, 질 높은 데이터를 통한 철저한 지도 학습(Supervised Learning) 과정이 필수적입니다. CircleSnake 모델이 신장 사구체를 정확히 식별하기 위해 어떠한 형태의 입력 데이터를 사용하고, 어떤 형태의 정답 데이터를 출력하도록 최적화되는지 구체적인 데이터를 바탕으로 설명합니다.

 

학습에 사용된 입력 데이터(Input Data)는 환자의 신장 조직 생검(Renal biopsies)을 통해 얻어진 초고해상도 전체 슬라이드 이미지(Whole Slide Images, WSI)입니다. 슬라이드는 현미경 스캐너 장비를 통해 픽셀당 0.25 마이크로미터 단위의 초고해상도로 촬영됩니다. 그러나 단일 슬라이드 이미지는 수십 기가바이트에 달해 GPU 메모리에 한 번에 올릴 수 없으므로, 연구진은 이를 픽셀당 4 마이크로미터 수준으로 해상도를 조절(Downsampling)했습니다. 그 후 최소 1개 이상의 사구체가 포함되도록 512 x 512 픽셀 크기의 정사각형 패치(Patch) 이미지로 잘라내어 모델의 입력 포맷으로 규격화했습니다. 의료 데이터 특성상, 진단 목적이나 시약에 따라 조직의 색상 표현이 달라지므로, 다양한 시각적 환경에서도 모델이 강인하게 작동할 수 있도록 입력 데이터를 다변화했습니다. 옅은 보라색과 분홍색이 섞여 세포핵과 세포질을 구분하는 헤마톡실린-에오신(H&E) 염색, 탄수화물을 붉은 자홍색으로 강조하는 PAS 염색, 기저막을 검은색으로 강렬하게 염색하는 존스(Jones) 염색 등 다양한 염색 처리 기법이 적용된 생체 이미지 2D 패치들이 입력 데이터로 투입됩니다. 수량 측면에서는 전체 42개의 조직 샘플 슬라이드에서 7,040개의 학습용(Training) 이미지를 추출하여 모델 가중치 업데이트에 사용하였고, 학습 중 과적합을 방지하고 성능을 검증하기 위해 980개의 검증용(Validation) 이미지를, 최종적인 모델의 일반화 성능을 평가하기 위해 1,470개의 테스트(Testing) 이미지를 구축하여 활용했습니다.

 

모델을 학습시키기 위한 출력 및 정답 데이터(Output & Ground Truth Data)의 구성은 세 가지 종류로 나뉩니다. 첫째는 사구체의 중심점 열지도이며, 둘째는 반지름의 길이, 셋째는 윤곽선의 물리적 좌표입니다. 이를 학습하기 위해 숙련된 인간 병리학자가 패치 이미지 위에 사구체의 둥근 모양을 따라 정밀하게 다각형의 경계선을 직접 그려놓은 '정답 주석(Annotation)' 데이터가 필요합니다.

 

학습 과정에서 모델은 예측한 중심점 열지도를 병리학자의 주석으로부터 계산된 정답 중심점 가우시안 분포와 비교하여 오차를 줄여나갑니다. 만약 모델이 정답 중심을 정확히 맞췄을 때는 학습 보상을 주고, 반대로 배경을 중심이라 착각했거나 찾기 어려운 위치의 객체를 놓쳤을 때는 더 큰 페널티를 부여하는 '초점 손실(Focal Loss)' 함수 방식을 사용하여 중심점의 위치를 치열하게 교정합니다. 반지름 학습을 위해서는 모델이 예측한 반지름 길이와 정답 반지름 길이 사이의 절댓값 차이(L1 Loss)를 계산하여 이 오차가 최소화되도록 학습합니다. 가장 중요한 윤곽선 변형 모듈의 학습을 위해, 모델은 병리학자가 직접 그려놓은 정답 픽셀 경계선 위에서 시계방향으로 128개의 정답 기준점을 균일하게 추출합니다. 모델이 원형 윤곽선을 변형시켜 만든 128개의 예측점 좌표 데이터와, 정답 경계선 위에 존재하는 128개의 실제 점들 좌표 사이의 일대일 물리적 거리 차이(L1 Loss)를 계산하여, 최종적으로 이 거리가 0에 수렴하도록 그래프 신경망의 가중치를 지속해서 업데이트하게 됩니다.

 

7. 결과: 얼마나 좋아졌나? (Results)

가장 임팩트 있는 연구 성과는 신장 사구체 데이터 벤치마크에서 기존의 SOTA(State-of-the-art) 모델이었던 DeepSnake의 성능 한계를 명확히 뛰어넘었다는 점입니다. 단순한 하이퍼파라미터 튜닝에 의한 수치 향상을 넘어, 의료 객체에 대한 형태학적 통찰을 딥러닝 구조에 직접 도입한 결과가 실증적으로 얼마나 효율적인지를 입증했습니다.

 

가장 먼저 주목할 부분은 SOTA 달성 및 성능 향상입니다. 사구체의 위치를 얼마나 정확히 찾아냈는지 평가하는 사물 검출 평균 정밀도(Average Precision, AP) 지표에서, 베이스라인인 DeepSnake 모델이 0.559를 기록한 반면 CircleSnake는 0.614로 성능을 대폭 끌어올렸습니다. 더 나아가, 분할된 픽셀 영역이 실제 정답 객체 영역과 얼마나 정확히 겹치는지(일치하는지)를 나타내는 분할 핵심 평가지표인 다이스 점수(Dice score)에 있어서도 기존 모델의 0.804에서 0.849로 뚜렷한 상승을 달성했습니다. 이는 바운딩 박스에서 8각형으로 이어지는 불필요한 다각형 변형 연산이 사라지고, 원형 템플릿에서 직접 출발하여 변형을 수행함으로써 예측의 누적 오차가 감소하고 정확도가 높아진 직접적인 결과입니다.

 

분할 모델 비교 (백본: DLA) 탐지 AP (평균 정밀도) 분할 다이스 점수 (Dice)
DeepSnake (2020) 0.559 0.804
CircleSnake (Ours) 0.614 0.849

 

객체의 크기나 형태 변화에 따른 추가적인 지표들을 살펴보면 성능 개선의 폭이 더 확연히 드러납니다. 정답과의 영역 겹침 비율(IoU)이 50% 이상일 때를 정답으로 인정하는 AP50 지표에서는 0.874에서 0.893으로 상승했고, 겹침 비율 기준이 75%로 더 엄격해진 AP75 지표에서는 0.682에서 0.737로 성능 격차가 크게 벌어졌습니다. 이는 CircleSnake가 단순히 대략적인 위치를 찾는 것을 넘어, 실제 경계선에 매우 정밀하게 밀착하는 고품질의 윤곽선을 생성해 내고 있음을 보여줍니다.

 

또한 이 모델이 달성한 중요한 성과는 회전 일관성(Rotation Consistency)의 극대화입니다. 동일한 세포 조직 이미지를 단순히 스크립트를 통해 시계 방향으로 90도 회전시켰을 때, 다각형 박스를 기반으로 하는 DeepSnake는 초기 윤곽선 설정 과정에서 극단점의 위치가 물리적으로 변경되어 원래의 분할 결과와 다소 어긋나거나 왜곡되는 현상을 보였습니다. 그러나 좌표에 얽매이지 않는 원형을 사용하는 CircleSnake는 이미지 회전에도 불구하고 회전 전과 완벽에 가까운 분할 궤적 일치율을 보이며, 의료 영상 분석 시스템 구축에 있어 가장 큰 불안 요소 중 하나인 방향성 제약 문제를 근본적으로 해결했습니다.

 

하지만 완벽해 보이는 이 모델에도 태생적인 실패 케이스(Failure Cases)와 한계점은 존재합니다. 모델의 구조상 원형(Circle)이라는 강력한 형태적 제약(Prior)을 둔 만큼, 분할해야 할 객체가 완전한 구형을 벗어나 심하게 길쭉한 타원형이거나 질병의 진행으로 인해 형태가 크게 일그러진 불규칙한 모양을 가질 경우, 원형 표현법이 오히려 불리하게 작용하여 분할 정확도가 떨어지는 현상이 관찰되었습니다. 초기 둥근 원형 윤곽선에서 출발하여 너무 먼 거리를 변형(Deformation)해야 하므로 연산의 한계에 부딪히기 때문입니다. 또한 입력 이미지를 처리할 때 1개의 고정된 해상도 맵(Single-scale feature map) 구조를 사용하기 때문에, 한 이미지 내에 크기 편차가 극심한 아주 작은 객체와 거대한 객체가 동시에 섞여 있을 경우 매우 작은 크기의 객체를 탐지하지 못하고 놓치는 실패 케이스가 보고되었습니다.

 

8. 이 논문의 계보와 발전 (Impact & Follow-ups)

CircleSnake가 주창한 '의료 도메인에 특화된 형태적 가정(Shape-aware inductive bias)의 주입'이라는 철학은 발표 직후부터 현재까지 수많은 후속 연구의 설계 뼈대가 되며 의료 영상 분할 트렌드의 핵심 줄기로 자리 잡았습니다. 단순히 일반 컴퓨터 비전 알고리즘의 파라미터를 미세 조정하는 것을 넘어, 질병과 세포의 형태적 특성을 아키텍처 수식 레벨에 반영하려는 시도들이 이 논문을 기반으로 발전하고 있습니다. 대표적인 계보와 응용 트렌드는 다음과 같습니다.

 

가장 대표적인 후속 확장은 Multi-label CircleSnake (2023~2024) 연구입니다. 원래 본 논문의 CircleSnake는 '사구체'라는 단일 클래스(Single-label)만을 검출하는 용도로 설계된 모델이었습니다. 이를 기반으로 Yilin Liu 등의 연구자들은 만성 염증성 질환인 호산구성 식도염(EoE) 진단 자동화를 위해 수많은 호산구(Eosinophils) 세포들을 탐지하는 과제에 이 모델을 적용했습니다. 이때 단일 카테고리가 아닌 다중 레이블(Multi-label)로 여러 종류의 객체를 동시에 분할하고 계수할 수 있도록 모델의 예측 헤드(Prediction Head)를 다중화하여 확장 발전시켰습니다. 질병 진단의 기준이 되는 고배율 시야(HPF) 당 15~20개의 호산구 세포 계수 임곗값을 정확히 만족시키기 위해 여러 종류의 둥근 세포들이 서로 빽빽하게 겹쳐 있는 상황에서도 뛰어난 평균 정밀도를 입증하며, CircleSnake의 활용도를 신장 병리를 넘어 소화기 및 비강 조직 임상 환경 전반으로 넓히는 데 결정적인 역할을 했습니다.

 

또 다른 기술적 도약은 CircleFormer (2023) 논문의 탄생입니다. 이 모델은 최근 딥러닝 분야를 지배하고 있는 거대한 파도인 트랜스포머(Transformer) 구조와 CircleSnake의 기하학적 아이디어가 융합된 후속 연구입니다. 이 논문은 CircleSnake가 윤곽선을 조정할 때 사용했던 그래프 합성곱 신경망(GCN) 방식을 전면적으로 덜어내고, 대신 트랜스포머의 어텐션 메커니즘(Attention Mechanism)과 '원형 쿼리(Circle queries)' 개념을 새롭게 차용했습니다. 이를 통해 WSI 기반의 둥근 세포핵(Nuclei) 검출 성능을 SOTA급으로 한 단계 더 격상시켰습니다. 이는 바운딩 서클이라는 원형 표현법이 합성곱 신경망(CNN)의 낡은 구조에만 국한된 것이 아니라, 트랜스포머 기반의 최신 딥러닝 백본과도 성공적으로 결합하여 성능을 극대화할 수 있는 매우 유연한 개념임을 보여준 사례입니다.

 

나아가 도메인 특화 표현법의 유행은 의료 영상을 벗어나 다른 산업으로도 이식되는 추세입니다. 자연 이미지 영역에서도 모든 것을 직사각형으로 인식하려는 강박에서 벗어나, 자율 주행 분야에서 보행자나 주행 차량을 타원형 윤곽으로 인식하여 예측 궤적의 오류를 줄이려는 시도나, 심장 초음파 우심실 분할에 U-snake 구조를 접목하는 응용 연구 등 객체의 고유한 형태적 특성이 두드러지는 특수 분야에서 본 연구의 철학이 폭넓게 인용되고 발전하고 있습니다.

 

9. 마무리

CircleSnake 논문을 깊이 있게 분석하며 얻을 수 있는 가장 가치 있는 통찰은, 딥러닝 아키텍처 설계에 있어 무조건적으로 범용적이고 복잡한 구조를 좇거나 컴퓨팅 파워에만 의존하는 것만이 능사가 아니라는 사실입니다. 컴퓨터 비전의 주류로 여겨지던 다각형 윤곽선 추출 파이프라인을 비판적으로 수용하고, 불필요한 단계를 과감히 버린 뒤 초등학교 수학 시간의 기본 도형인 '원'으로 회귀하는 결단이 오히려 의료 객체의 본질적 특성과 만나 혁신적인 분할 성능 향상을 이뤄냈습니다. 이는 분석하고자 하는 대상 도메인에 대한 깊은 지식(Domain Knowledge)을 딥러닝 모델의 수학적 설계(Inductive Bias)에 얼마나 직관적으로 통합할 수 있는지가 인공지능의 성능과 효율을 결정짓는 핵심 키(Key)임을 명확히 증명하는 연구입니다.

 

실무 적용 시 주의할 점 및 인사이트

실제 병원 임상 현장이나 디지털 병리 연구소에서 이 모델 구조를 실무에 도입하고자 할 때 반드시 고려해야 할 몇 가지 현실적인 주의사항이 있습니다.

 

첫째, 모델의 구조 자체는 단일 네트워크 통과(Single network forward pass) 연산으로 매우 빠르지만, 학습을 위해서는 막대한 양의 전임상 초고해상도 전체 슬라이드 영상(WSI)과 전문의가 픽셀 단위로 세밀하게 주석을 단 다각형 정답 데이터가 선행되어야만 그 성능을 보장할 수 있습니다. 데이터 구축 비용이 매우 높다는 한계를 가집니다. 둘째, 객체의 형태가 원형이라는 강력한 제약 때문에, 식도 조직이나 코 주변 조직에서 발견되는 극단적으로 찌그러지거나 여러 개가 뭉쳐 경계가 허물어진 세포들을 분할할 때는 예측력이 급격히 떨어질 위험이 존재합니다. 따라서 모델 도입 전에 목표 타깃 객체가 생물학적으로 '구형'을 유지하는 특성이 강한지를 통계적으로 면밀히 검토하고 적용 범위를 보수적으로 설정해야 합니다. 셋째, 하드웨어 효율성 관점에서 접근해야 합니다. CircleSnake는 수많은 픽셀 전체를 밀집 연산(Dense pixel prediction)하는 Mask R-CNN 방식이나, 복잡한 다각형 극단점 연산을 수행하는 이전 세대 윤곽선 모델들에 비해 GPU 메모리 소모가 적습니다. 이러한 효율적인 추론(Inference) 속도와 낮은 GPU 메모리 점유율 특성은 연산 자원이 부족한 현미경 탑재형 실시간 셀 카운팅 분석 장비나 소형 엣지(Edge) 디바이스 환경에 포팅하여 적용하기에 매우 유리한 장점을 제공합니다.   

 

앞으로의 발전 방향은 원형 표현법이 갖는 스케일의 한계와 형태적 경직성을 극복하는 데 맞춰져야 합니다. 현재의 단일 해상도 계층에서 벗어나 다중 스케일(Multi-scale) 피라미드 특징 맵 구조를 원형 합성곱 신경망과 결합하여 아주 미세한 크기의 객체까지 놓치지 않도록 검출력을 높이는 연구가 필요합니다. 더불어 완전한 원(Circle)이라는 형태적 한계를 넘어서, 회전 불변성을 유지하면서도 타원(Ellipse) 방정식까지 형태 제약의 자유도를 1단계만 더 높여 유연성을 확장하는 방향으로의 후속 연구가 이루어진다면, 의료 영상 인스턴스 분할에 있어 어떠한 형태의 생물학적 객체에도 대응할 수 있는 가장 강력한 표준 아키텍처 솔루션으로 자리매김할 수 있을 것입니다.   



 

반응형