일러두기 (Disclaimer)
본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.
논문 링크 : https://arxiv.org/abs/2401.11256
Equivariant Multiscale Learned Invertible Reconstruction for Cone Beam CT
Cone Beam CT (CBCT) is an essential imaging modality nowadays, but the image quality of CBCT still lags behind the high quality standards established by the conventional Computed Tomography. We propose LIRE+, a learned iterative scheme for fast and memory-
arxiv.org
초록 (Abstract)
콘빔 CT(Cone Beam Computed Tomography, CBCT)는 오늘날 필수적인 영상 모달리티로 자리 잡았으나, 그 영상 품질은 기존의 일반적인 컴퓨터 단층촬영(CT)이 확립한 높은 품질 기준에 여전히 미치지 못하고 있습니다. 딥러닝 기반의 영상 재구성 기법은 고전적인 반복 재구성(Iterative reconstruction) 방식을 대체할 유망한 대안으로 떠올랐습니다. 하지만 이러한 딥러닝 기법을 CBCT에 적용하는 것은 메모리의 물리적 한계와 임상적으로 유의미한 해상도에서 빠른 추론 속도를 달성해야 한다는 요구 조건 때문에 번번이 어려움에 직면해 왔습니다.
본 연구에서는 빠르고 메모리 효율적인 CBCT 재구성을 위해 학습된 반복 스킴인 LIRE+를 제안합니다. 이는 최근 제안된 LIRE 방법론에 비해 추론 속도가 상당히 빠르며 파라미터 효율성 또한 높은 대안입니다.
LIRE+는 CBCT 재구성을 위한 회전 등변성(Rotationally-equivariant)을 갖춘 다중 스케일 학습 가역 Primal-dual(Learned invertible primal-dual) 반복 스킴입니다. 전방 및 역방향 패스(Forward and backward passes) 동안
Primal/dual cells 내부에서 단순한 가역 잔차 네트워크(Reversible residual networks)와 패치 단위(Patch-wise) 연산을 활용하여 메모리 사용량을 최적화합니다. 동시에, 재구성 프로세스가 저해상도 환경 및 저해상도 Primal/dual 잠재 벡터(Latent vectors)에서 시작하도록 Primal-dual 스킴을 다중 스케일로 구성하여 추론 속도를 높였습니다. 고해상도로의 전환은 최근접 업샘플링(Nearest upsampling) 연산을 통해 수행되며, 이 연산이 가진 단사성(Injectivity) 덕분에 역방향 패스 시 해당 연산을 모호함 없이 가역적으로 되돌릴 수 있습니다. 회전 등변성은 원천 셀 내부에 그룹 등변 합성곱(Group equivariant convolutions)을 적용함으로써 달성됩니다.
LIRE+ 모델은 260개의 훈련용 및 22개의 검증용 흉부(Thorax) CT 스캔 세트에서 훈련 및 검증되었으며, 142개의 흉부 CT 스캔 테스트 세트를 통해 평가되었습니다. 나아가 79개의 두경부(Head and Neck, HN) CT 스캔으로 구성된 분포 외(Out-of-distribution) 데이터셋을 대상으로 미세 조정(Finetuning) 전후의 추가 평가를 진행했습니다. 제안된 방법은 흉부 테스트 세트에서 LIRE를 포함한 고전적 기법 및 딥러닝 베이스라인의 성능을 뛰어넘었습니다. 유사한 추론 시간을 기준으로 LIRE+는 LIRE 대비 단 37%의 파라미터 예산만 사용하고도 최대 신호 대 잡음비(PSNR)에서 +0.2 dB의 향상을 달성했습니다. 또한, 파라미터 예산의 28%만 사용하면서 45% 단축된 추론 시간으로 LIRE와 대등한 성능을 낼 수 있습니다. 회전 등변성은 환자 방향에 대한 LIRE+의 강건성을 보장하는 반면, LIRE 및 기타 딥러닝 베이스라인들은 환자 방향이 일반적이지 않을 때 상당한 성능 저하를 겪습니다. 미세 조정을 거치지 않은 두경부(HN) 데이터셋에서 LIRE+는 소수의 이상치(Outlier) 케이스를 제외하면 전반적으로 LIRE와 대등한 성능을 보였으며, 동일한 미세 조정을 거친 후에는 LIRE 대비 +1.02 dB의 PSNR 향상을 입증했습니다.
다중 스케일 재구성은 가역 학습 Prim-dual 스킴에 자연스럽게 통합될 수 있으며, 영상 품질의 손실 없이 CBCT 재구성 속도를 가속할 수 있습니다. 학습된 원천-쌍대 반복 스킴에서 네트워크의 원천 컴포넌트를 회전 등변성을 갖도록 구성함으로써 회전 등변성을 강제할 수 있으며, 이는 일반적이지 않은 환자 방향에 대한 네트워크의 강건성을 향상시킵니다.
1. 한줄 요약 & 3줄 핵심 (Executive Summary)
메모리를 절약하는 가역 신경망에 최근접 업샘플링 기반의 다중 스케일 구조와 회전 등변성을 결합하여, 연산 속도는 높이고 환자 방향 변화에는 흔들림 없는 고해상도 3D CBCT 재구성 모델을 완성했습니다.
- 기존의 문제점 (Pain point): 3D 영상 재구성을 위한 딥러닝은 막대한 GPU 메모리를 소모하며, 기존 모델들은 환자가 일반적이지 않은 방향으로 누워 있을 때 영상 품질이 심각하게 훼손되는 한계가 있었습니다.
- 이 논문의 해결책 (Solution): 중간 계산값을 폐기하고 역추적하는 가역 네트워크에 단사성(Injectivity)을 띠는 업샘플링을 결합해 다중 스케일을 구현하고, 그룹 등변 합성곱을 도입해 회전 대칭성을 네트워크에 내장했습니다.
- 달성한 성과 (Key Result): 이전 SOTA 모델(LIRE) 대비 28%의 파라미터만으로 45% 더 빠른 속도를 달성했으며, 환자의 방향이 틀어진 데이터에서도 성능 붕괴 없이 높은 해상도의 결과물을 안정적으로 생성했습니다.
2. 들어가며: 왜 이 연구가 필요했나? (The "Why")
질병의 진단과 방사선 치료 과정에서 컴퓨터 단층촬영(CT)은 현대 의학을 지탱하는 핵심 영상 기술입니다. 특히 수술실이나 방사선 치료실 내부에서 환자의 해부학적 구조가 치료 계획 당시와 비교해 어떻게 달라졌는지 실시간으로 파악하기 위해 콘빔 CT(Cone Beam CT, CBCT) 장비가 널리 사용됩니다. 일반적인 진단용 헬리컬(Helical) CT가 환자의 몸을 나선형으로 돌며 좁은 엑스레이 빔을 여러 번에 걸쳐 쏘는 것과 달리, CBCT는 넓은 원뿔 형태의 엑스레이 빔을 한 번에 조사하고 넓은 평판형 검출기로 이를 수신합니다. 이 방식은 장비의 크기를 줄이고 치료기 내부에 쉽게 통합할 수 있으며 촬영 시간을 단축할 수 있다는 실용적인 장점을 제공합니다.
하지만 이러한 물리적 구조적 차이는 재구성된 영상의 품질에 치명적인 단점을 수반합니다. X선 소스와 검출기가 원형 궤도를 돌며 데이터를 수집하는 CBCT의 기하학적 특성은 3D 볼륨 전체를 완벽하게 재구성하기 위해 수학적으로 요구되는 데이터 완결성 조건(Data completeness condition)을 충족하지 못합니다. 또한 넓은 면적의 평판 검출기는 환자의 신체를 통과하며 불규칙하게 튕겨 나간 산란(Scattering) X선 광자들을 더 많이 흡수하게 됩니다. 밀도가 높은 뼈나 금속 임플란트를 통과할 때는 광자가 검출기까지 도달하지 못하는 광자 부족(Photon starvation) 현상이 발생하여 영상에 짙은 줄무늬(Streaking) 아티팩트를 남깁니다. 결과적으로 CBCT는 일반 CT에 비해 영상이 뿌옇게 흐려지고 노이즈가 많으며, 각 조직의 밀도를 나타내는 하운스필드 단위(Hounsfield Unit, HU)의 정확도가 크게 떨어집니다. 이는 매일 환자의 체형 변화에 맞춰 치료 계획을 수정해야 하는 적응형 방사선 치료(Adaptive Radiotherapy) 등 고정밀 임상 환경에서 심각한 병목으로 작용합니다.
과거에는 이러한 불완전한 투영 데이터로부터 3D 단층 영상을 얻기 위해 여과 후방 투영(Filtered Back-Projection, FBP)과 같은 수학적 해석 기법이나, 전체 변동(Total Variation) 정규화를 적용한 고전적 반복 재구성(Iterative reconstruction) 방식을 사용했습니다. 그러나 FBP는 노이즈와 아티팩트에 매우 취약했으며, 고전적 반복 재구성은 품질은 좋으나 영상을 얻는 데 너무 오랜 시간이 걸려 분초를 다투는 임상 현장에서 사용하기 어려웠습니다. 이에 대한 대안으로, 방대한 데이터로부터 X선의 물리적 특성과 인체 해부학적 구조를 스스로 학습하여 빠르고 깨끗하게 영상을 복원하는 딥러닝 기반 재구성 기법이 등장했습니다.
그러나 딥러닝 모델을 3D CBCT 환경에 적용하려던 연구자들은 곧 물리적인 메모리 장벽에 부딪혔습니다. 3D 볼륨 데이터는 2D 이미지와 비교할 수 없을 정도로 데이터의 차원이 방대합니다. 가령 $256 \times 256 \times 256$ 크기의 3D 복셀 데이터에 64개의 특징 채널(Feature channel)을 가진 단일 합성곱 연산을 적용할 경우, 오차 역전파(Backpropagation)를 수행하기 위해 그래픽 처리 장치(GPU) 메모리에 임시로 저장해 두어야 하는 활성화(Activation) 텐서의 용량만 8GB에 달합니다. 깊은 층을 쌓아야만 성능이 향상되는 딥러닝 모델의 특성상, 현존하는 최상위 워크스테이션으로도 단 한 명의 환자 데이터조차 학습시키기 어려운 메모리 부족 현상이 빈번하게 발생했습니다.
더욱 심각한 문제는 딥러닝 모델의 취약한 방향성 인지 능력이었습니다. 기존 모델들은 훈련 데이터와 동일한 각도로 똑바르게 누워 있는 환자의 영상은 훌륭하게 복원해 냈습니다. 하지만 임상 현장에서 환자의 자세가 조금 비틀어지거나 일반적이지 않은 방향으로 놓일 경우, 네트워크는 이를 완전히 새로운 패턴으로 인식하여 영상의 품질을 급격히 떨어뜨리는 치명적인 성능 붕괴 현상을 보였습니다. 결과적으로 연구자들은 단순히 영상을 깨끗하게 만드는 수준을 넘어, 제한된 GPU 메모리를 초과하지 않으면서도 임상에서 요구하는 빠른 속도를 충족하고, 환자의 자세 변화에도 흔들리지 않는 견고한 3D 영상 재구성 모델을 새롭게 발명해야만 하는 중대한 과제에 직면하게 되었습니다.
3. 이 논문의 뿌리 (Key Reference)
본 연구는 영상 재구성 분야의 패러다임을 바꾼 여러 핵심 논문들을 비판적으로 계승하고 독창적인 방식으로 결합하여 탄생했습니다. 이 모델이 완성되기까지 가장 큰 영감을 제공한 세 가지 핵심 기술의 계보와 그 관계를 살펴보겠습니다.
- LPD (Learned Primal-Dual, 2018): 본 연구의 전체 뼈대가 되는 신경망 구조입니다. 투영 데이터 공간과 3D 이미지 공간을 오가는 반복적 최적화 과정을 인공지능이 학습하도록 설계했습니다.
- LIRE (2023): 본 논문의 직전 모델로, 3D 영상의 메모리 한계를 극복하기 위해 가역 신경망과 데이터 타일링 기법을 도입했습니다. 본 연구는 이 아이디어를 토대로 속도를 개선했습니다.
- Group Equivariant CNNs (2016): 환자의 자세 변화에 강건하게 대응하기 위해 차용한 수학적 개념입니다. 영상이 회전하면 필터도 함께 회전한 효과를 내어 방향에 대한 일관성을 유지합니다.
첫 번째 뿌리는 2018년에 발표된 Learned Primal-Dual (LPD) 알고리즘입니다. 전통적인 영상 재구성에서는 Primal-dual 하이브리드 그래디언트(Primal-Dual Hybrid Gradient, PDHG)라는 수학적 최적화 기법을 사용하여, 투영 공간(쌍대 공간)에서 발생한 오차를 계산하고 이를 3D 이미지 공간(원천 공간)으로 역투영하여 영상을 보정하는 작업을 수백 번 반복했습니다. LPD 논문은 이 지루한 수학적 반복 과정을 여러 층의 신경망으로 펼쳐(Unrolling) 인공지능이 대신 수행하도록 만들었습니다. 본 연구는 이 LPD의 철학을 기본 백본으로 채택하여, 투영 데이터와 3D 볼륨을 번갈아 가며 보정하는 구조를 취합니다.
두 번째 뿌리는 본 연구진이 직전 연도에 발표했던 LIRE (Learned Invertible Reconstruction for Cone Beam CT) 모델입니다. LPD 구조는 성능이 뛰어났으나 층이 깊어질수록 3D 데이터의 중간 계산값(Activation)을 모두 저장해야 하므로 메모리가 폭발하는 단점이 있었습니다. LIRE는 이를 해결하기 위해 이전 층의 데이터를 메모리에 저장하지 않고 필요할 때 수학적으로 역계산해 내는 '가역 신경망(Invertible Neural Network)' 개념을 도입했습니다. 또한 거대한 3D 이미지를 작은 정육면체 블록 단위로 쪼개어 연산하는 타일링(Tiling) 기법을 적용해 3D CBCT 재구성을 현실화했습니다. 그러나 LIRE 모델은 연산량이 지나치게 많아 추론에 많은 시간이 소요된다는 한계가 있었습니다.
세 번째 뿌리는 컴퓨터 비전 분야에서 2016년에 제안된 그룹 등변 합성곱 신경망(Group Equivariant Convolutional Networks)입니다. 일반적인 딥러닝 모델은 입력 이미지가 조금만 회전해도 완전히 다른 데이터로 인식하는 공간적 맹점을 가집니다. 이를 극복하기 위해 이 논문은 군론(Group theory)이라는 수학적 대칭성 개념을 신경망 필터에 적용했습니다. 입력 이미지가 90도 회전하면 그에 대한 응답(Feature map)도 동일하게 90도 회전하도록 강제함으로써, 인공지능이 방향의 변화를 본질적인 형태의 변화로 착각하지 않게 만듭니다. 본 연구는 이 등변성 개념을 CBCT 재구성 네트워크의 원천 공간 셀에 최초로 결합하여 환자의 자세 방향성에 대한 강건성을 확보했습니다.
결과적으로 이 논문은 기존 LPD 모델이 가진 최적화 능력과 LIRE 모델이 달성한 메모리 효율성에 그룹 등변 신경망의 회전 강건성을 통합하고, 여기에 다중 스케일이라는 새로운 가속 엔진을 장착함으로써 기존 연구들의 한계를 획기적으로 보완한 완전체 모델을 제시한 것입니다.
4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)
이 논문에서 가장 빛나는 발상의 전환(Aha! Moment)은 양립할 수 없을 것 같던 두 가지 기술, 즉 메모리를 절약하는 '가역 신경망'과 속도를 높이는 '다중 스케일 구조'를 하나로 융합해 낸 방식에 있습니다.
먼저 가역 신경망의 성질을 이해할 필요가 있습니다. 일반적인 딥러닝 모델을 학습시킬 때 오차를 줄이기 위해 역방향으로 진행하는 오차 역전파를 수행하려면, 정방향으로 지나올 때 각 층에서 계산했던 데이터의 풍경(활성화 값)을 모두 메모리라는 카메라에 사진으로 찍어 저장해 두어야 합니다. 층이 깊어질수록 이 사진들의 용량은 감당할 수 없이 커집니다. 반면 가역 신경망은 헨젤과 그레텔이 빵 부스러기를 남기고 길을 되돌아가듯, 수학적인 공식을 거꾸로 풀어내어 지나온 길의 풍경을 실시간으로 다시 계산해 냅니다. 사진을 저장할 필요가 없으므로 메모리 사용량이 극적으로 줄어듭니다.
하지만 가역 신경망에는 치명적인 약점이 있습니다. 역계산이 성립하려면 데이터가 들어갈 때의 크기(차원)와 나올 때의 크기가 항상 똑같아야 합니다. 데이터를 섞거나 크기를 바꾸면 원래 숫자가 무엇이었는지 역추적할 단서가 사라지기 때문입니다. 반면 모델의 연산 속도를 높이려면 처음에는 이미지를 작게 줄여서(저해상도) 빠르게 뼈대를 잡고, 점차 이미지를 키워가며(고해상도) 디테일을 추가하는 '다중 스케일(Multiscale)' 기법이 필수적입니다. 해상도를 키운다는 것은 데이터의 크기가 변한다는 뜻이므로, 원칙적으로 가역 신경망의 규칙에 위배됩니다.
연구진은 이 모순을 '최근접 업샘플링(Nearest Upsampling)'이라는 아주 직관적이고 단순한 연산으로 돌파했습니다.
기존에는 이미지를 확대할 때 주변 픽셀들의 값을 부드럽게 섞어 새로운 픽셀을 만들어내는 선형 보간법(Bilinear interpolation) 같은 방식을 썼습니다. 여러 색의 물감을 섞어버리면 나중에 원래 어떤 색들이 있었는지 분리해 낼 수 없듯, 이 방식은 역계산이 불가능합니다. 하지만 연구진은 기존 픽셀 값을 섞지 않고 단순히 쌍둥이처럼 복제하여 공간을 채우는 최근접 업샘플링이라는 발상의 전환을 했습니다.
최근접 업샘플링은 수학적으로 '단사성(Injectivity)'을 띠는 함수입니다. 단사성이란 방에 들어간 사람이 누구인지 알면, 나올 때도 그 사람이 누구인지 정확히 1대1로 역추적할 수 있다는 뜻입니다. 픽셀을 단순히 복제하여 해상도를 키웠기 때문에, 역방향 패스를 수행할 때는 복제된 픽셀을 다시 버리기만 하면 크기를 축소하기 이전의 원본 상태로 완벽하게 돌아갈 수 있습니다. 정보의 모호함이나 손실이 전혀 발생하지 않는 것입니다. 이 수학적 특성 덕분에 모델은 해상도가 커지는 다중 스케일 구조 안에서도 완벽한 가역성을 유지할 수 있게 되었으며, 저해상도에서 연산량을 줄여 속도를 높이는 동시에 메모리 한계까지 극복하게 되었습니다.
두 번째 발상의 전환은 '회전 등변성(Rotational Equivariance)'의 내장입니다. 기존의 인공지능에게 비스듬히 누워 있는 환자의 장기 구조를 인식시키려면, 똑바로 된 이미지를 90도, 180도, 비스듬하게 회전시킨 수많은 데이터를 강제로 반복 학습시키는 데이터 증강(Data Augmentation) 기법에 의존해야 했습니다. 하지만 연구진은 훈련 데이터를 억지로 늘리는 대신, 인공지능이 세상을 바라보는 렌즈 역할을 하는 합성곱 필터 자체의 구조를 바꿨습니다. 환자가 회전하면 필터도 그에 맞추어 함께 회전하는 그룹 대칭성을 수학적으로 코딩해 넣은 것입니다. 결과적으로 인공지능은 강아지를 똑바로 보든 거꾸로 보든 같은 강아지로 인식하는 사람의 직관처럼, 일반적이지 않은 방향으로 누운 환자의 데이터가 들어와도 전혀 당황하지 않고 일관된 고품질의 재구성 결과를 만들어내게 되었습니다.
5. 작동 원리: 어떻게 돌아가는가? (The "How")
이제 복잡한 하이퍼파라미터나 수식 증명은 덜어내고, X-ray 스캐너에서 수집된 투영 데이터가 모델에 들어가서 선명한 3D 체내 영상으로 변환되어 나올 때까지의 흐름을 스텝별로 따라가 보겠습니다. 전체 아키텍처는 투영 공간과 이미지 공간을 오가는 12번의 반복(Iteration) 사이클로 구성됩니다.
1단계: 저해상도 초기화 (Low-Resolution Start)
장비로부터 원본 노이즈가 섞인 2D X-ray 투영 데이터 세트가 입력됩니다. 시스템은 연산의 효율성을 극대화하기 위해 초기 투영 데이터의 해상도를 절반인 50%로 줄입니다. 동시에 역투영(Backprojection) 과정을 거쳐 형태가 흐릿한 대략적인 3D 초기 볼륨을 생성합니다. 이렇게 가볍게 만들어진 잠재 벡터(Latent vectors) 상태로 첫 번째 루프에 진입합니다.
2단계: 쌍대 공간 연산 (Dual Cell Processing)
2D X-ray 데이터의 일관성을 검증하는 쌍대 셀 연산이 시작됩니다. 현재 만들어진 3D 볼륨에 가상의 X-ray를 쏘아 가상 투영 데이터를 만들고, 이를 실제 스캐너가 측정한 원본 투영 데이터와 비교하여 그 차이(오차)를 계산합니다. 쌍대 네트워크는 이 오차 정보를 바탕으로 2D 투영 이미지 상에 존재하는 노이즈나 일관성 없는 데이터를 수정하여 업데이트된 투영 잠재 벡터를 생성합니다.
3단계: 원천 공간 연산 (Primal Cell Processing)
수정된 2D 투영 정보는 다시 3D 공간으로 역투영되어 원천 셀로 넘어옵니다. 원천 네트워크는 3D 인체 볼륨을 담당하며 내부의 구조적 왜곡이나 뼈 주변의 줄무늬 아티팩트를 지워냅니다. 이때 네트워크 내부의 그룹 등변 합성곱 레이어가 작동하여 환자의 장기가 어떤 방향으로 놓여 있든지 관계없이 일관된 패턴으로 해부학적 구조를 복원합니다.
4단계: 다중 스케일로의 전환 (The "Level Up")
위의 2단계와 3단계를 번갈아 가며 총 6번의 루프를 완료하고 나면, 대략적인 형태가 안정적으로 잡히게 됩니다. 이때 네트워크는 앞서 설명한 최근접 업샘플링(Nearest Upsampling) 기법을 실행하여 잠재 벡터들의 해상도를 원본 크기인 100%로 두 배 팽창시킵니다. 공간의 크기가 커지면서 더 정밀한 복원이 가능해집니다.
5단계: 고해상도 미세 조정 (High-Resolution Refining)
해상도가 커진 상태에서 다시 2단계와 3단계의 Primal-dual 과정을 6번 더 반복합니다. 이 단계에서는 장기의 윤곽이나 미세한 틈새, 혈관의 경계 등 작고 세밀한 디테일들이 고해상도로 정교하게 다듬어집니다.
6단계: 가역적 메모리 관리 (Reversible Backward Pass - 학습 시)
모델이 정답에 가까워지도록 오차를 줄이는 학습 단계에서는 방대한 3D 데이터를 역방향으로 연산해야 합니다. 이때 전체 3D 덩어리를 한 번에 계산하면 GPU가 멈출 수 있으므로, 이미지를 작은 정육면체 블록 단위로 쪼개어 계산하는 패치 단위(Patch-wise) 연산을 수행합니다. 더불어 가역 신경망의 성질을 이용해 중간 데이터를 메모리에서 불러오지 않고 수학적 역계산만으로 통과하여 메모리 사용량을 최소한으로 억제하며 가중치를 업데이트합니다.
6. 작동 원리: 어떻게 학습하는가? (The "How")
인공지능 모델이 환자의 내부 구조를 완벽히 이해하기 위해서는 방대하고 철저하게 통제된 데이터로 학습을 진행해야 합니다. 본 연구팀은 임상 환경을 최대한 현실적으로 모사하기 위해, 실제 방사선 치료에 널리 쓰이는 Elekta 사의 Linac 통합형 CBCT 스캐너 환경을 가상으로 시뮬레이션하여 학습 데이터를 정교하게 생성했습니다.
다음은 모델 훈련에 사용된 데이터의 세부 구성입니다.
- 입력 데이터 (Input): 환자 주변을 360도($2\pi$) 회전하며 720개의 각도에서 촬영한 2D X-ray 투영 이미지 모음(Sinogram)입니다. 넓은 시야각을 얻기 위해 $256 \times 256$ 픽셀 크기의 검출기를 중심에서 115mm 벗어나게 배치한 오프셋(Offset) 기하학을 적용했습니다. 임상 현장의 한계를 모사하기 위해 X-ray 광자 수를 30,000개로 제한하고 포아송 노이즈(Poisson noise)를 고의로 주입했습니다.
- 출력 데이터 (정답, Output): 인체 조직이 X-ray를 얼마나 흡수하는지 나타내는 감쇠 계수(Attenuation coefficients)로 변환된 초고화질 3D CT 볼륨 데이터입니다. 모든 데이터는 가로, 세로, 높이 각각 2mm의 일정한 간격(Isotropic resolution)을 갖도록 조절되었으며, 최종적으로 $256 \times 256 \times 256$ 크기의 3D 복셀 형태를 띱니다.
데이터의 부위 및 수량은 다음과 같이 전략적으로 구성되었습니다.
- 흉부(Thorax) 데이터셋 (학습 및 기본 검증용): 인체의 복잡한 갈비뼈와 폐열 구조를 학습시키기 위해 흉부 CT 스캔 총 424건을 활용했습니다. 이 중 260건은 모델을 가르치는 훈련용으로, 22건은 학습 방향을 교정하는 검증용으로, 나머지 142건은 최종 성능을 테스트하는 용도로 분리하여 사용했습니다.
- 두경부(Head & Neck) 데이터셋 (분포 외 데이터 검증 및 미세 조정용): 흉부 데이터로만 학습한 모델이 머리나 목처럼 완전히 다른 해부학적 구조를 가진 부위의 영상도 잘 복원할 수 있는지 확인하기 위해 두경부 스캔 79건을 추가로 준비했습니다. 이 데이터들은 원래 해상도 간격이 일정하지 않은 비등방성(Anisotropic) 포맷이었으나 2mm 규격으로 변환되었으며, 딥러닝이 미세한 틈새를 뭉개는 것을 막기 위해 어떠한 노이즈 제거 필터도 거치지 않은 순수한 날것의 형태로 제공되었습니다. 8건은 새로운 부위에 대한 미세 조정 훈련용으로, 2건은 검증, 69건은 테스트 용도로 엄격히 분할되었습니다.
7. 결과: 얼마나 좋아졌나? (Results)
LIRE+는 다양한 평가 지표에서 고전적인 수학적 재구성 기법은 물론, 기존에 최고 성능을 자랑하던 딥러닝 모델들의 기록을 모두 갈아치우는 성과를 입증했습니다.
SOTA(State-of-the-art) 달성 및 획기적인 속도 향상
모델의 성과는 두 가지 측면에서 괄목할 만합니다. 첫째, 효율성입니다. 기존 최고 성능 모델인 LIRE와 똑같은 연산 시간(약 30초)을 부여했을 때, LIRE+는 LIRE가 가진 파라미터(가중치) 개수의 단 37%만을 사용하고도 영상의 화질을 나타내는 최대 신호 대 잡음비(PSNR)를 +0.2 dB 더 끌어올렸습니다. 둘째, 추론 속도입니다. 화질을 기존 LIRE와 동일한 수준으로 맞출 경우, 파라미터 수를 28% 수준으로 대폭 다이어트하면서도 영상을 생성하는 추론 시간을 무려 45%나 단축할 수 있었습니다. 조직의 밀도 보정 성능을 평가하는 하운스필드 단위 오차(MAE) 측면에서도 JU-Net이나 Uformer 등 다른 딥러닝 모델들보다 우수한 수치를 기록했습니다.
| 평가 모델 PSNR (정방향 흉부) | SSIM (정방향 흉부) | MAE | 2mm 오차 (HU) | 주요 특징 |
| 고전적 FBP | 20.05 dB | 0.66 | 270.70 | 속도는 빠르나 노이즈와 오차가 극심함 |
| U-Net (딥러닝) | 34.29 dB | 0.84 | 47.86 | 3D 적용 시 메모리를 다량 소모함 |
| 기존 LIRE | 35.14 dB | 0.91 | 43.02 | 성능은 좋으나 연산이 무겁고 느림 |
| LIRE+ (12 반복) | 35.38 dB | 0.91 | 41.86 | 최고 화질 달성, 가장 적은 파라미터 사용 |
환자 방향성에 대한 압도적 강건성 (Robustness)
이 연구가 제안한 회전 등변성(Rotational equivariance)의 진가는 환자의 방향을 돌려서 테스트한 실험에서 명확히 드러났습니다. 고전적 딥러닝 모델인 U-Net이나 최신 Uformer 기반 모델들은 환자의 자세가 일반적이지 않은 방향으로 놓여 데이터가 들어오자, 뼈와 장기의 위치를 제대로 매칭하지 못하고 화질이 급격하게 붕괴하는 모습을 보였습니다. 기존 LIRE 역시 PSNR 수치가 크게 하락했습니다. 반면 LIRE+ 모델은 회전된 데이터에서도 정방향 데이터와 동일한 화질 수치를 유지하며, 환자의 물리적 위치 변화에 끄떡없는 강건함을 자랑했습니다.
솔직한 한계점과 실패 케이스 (Failure Cases)
연구팀은 논문의 신뢰도를 높이기 위해, 한 번도 학습한 적 없는 두경부(Head & Neck) 데이터를 입력했을 때 발생한 실패 사례도 가감 없이 공개했습니다. 추가적인 미세 조정 없이 두경부 영상을 재구성하도록 했을 때, 전반적인 성능은 LIRE와 비슷하게 유지되었으나 체격이 유난히 거대한 환자나 반대로 매우 작은 체구의 환자에 해당하는 4건의 이상치(Outlier) 케이스에서는 성능이 급락하는 현상이 발견되었습니다. 인공지능이 훈련 과정에서 경험하지 못한 극단적인 해부학적 스케일 변화 앞에서는 아직 일반화 능력이 부족하다는 점을 시사합니다. 다만, 단 8건의 두경부 데이터만으로 짧게 미세 조정(Finetuning) 훈련을 거친 후에는 즉각적으로 도메인 간격을 극복하며 LIRE 대비 +1.02 dB 높은 PSNR을 달성하며 빠른 적응력을 증명해 보였습니다.
8. 이 논문의 계보와 발전 (Impact & Follow-ups)
이 논문이 제시한 다중 스케일 가역 신경망과 그룹 대칭성의 결합 아이디어는 단순한 시뮬레이션 연구로 그치지 않고, 후속 연구를 통해 실제 임상 환자 데이터를 대상으로 하는 고도화 단계로 빠르게 진화했습니다.
이 연구가 발표된 이후, 2025년과 2026년에 걸쳐 동일 연구진에 의해 후속 모델인 'LIRE++'가 연이어 발표되었습니다. LIRE+ 모델이 인공적인 포아송 노이즈를 입힌 시뮬레이션 데이터 검증에 머물렀다면, 후속작인 LIRE++는 인체에서 가장 두꺼운 부위 중 하나인 골반(Pelvic) 부위를 촬영한 '실제 임상 환자의 CBCT 투영 데이터(Real clinical data)'를 기반으로 훈련 및 검증을 완료하며 실전성을 입증했습니다.
- 산란(Scatter) 현상의 직접적 제어: 골반과 같이 두꺼운 부위의 X-ray 촬영 시 필연적으로 발생하는 심각한 산란 광자 문제는 영상의 대비를 크게 떨어뜨립니다. LIRE++는 다중 스케일 구조의 이점을 활용하여 원천 공간(Primal domain) 네트워크 내부의 수용 영역(Receptive field)을 대폭 넓혔으며, 이를 통해 비국소적(Non-local)으로 퍼져나가는 산란 아티팩트를 자체적으로 억제하는 데 성공했습니다.
- 임상 수치(HU)의 획기적 개선: 현재 병원 환경에서 사용되는 최고 수준의 상용 하이브리드 반복 재구성 알고리즘(TV++ 등)과 비교했을 때, LIRE++는 환자의 실제 치료 계획용 CT와의 평균 절대 오차(MAE)를 무려 10 하운스필드 단위(HU)만큼 더 줄이는 기념비적인 성과를 달성했습니다. 방사선 치료 분야에서 10 HU의 차이는 종양에 조사되는 방사선량(Dose) 계산의 정밀도를 결정지을 수 있는 임상적으로 대단히 유의미한 수치입니다.
나아가 최근 의료 영상 재구성 트렌드는 CVPR 및 ICLR 2025/2026 등 최신 학회 동향을 살펴볼 때, LIRE+가 개척한 기하학적 딥러닝(Geometric Deep Learning)의 방향성을 따르고 있습니다. 단순히 U-Net을 이용해 2D 이미지를 사후 처리(Post-processing)하는 과거의 방식에서 벗어나, 데이터가 본질적으로 지니는 회전 대칭성이나 물리적 특성(Prior)을 네트워크 설계 단계부터 주입하는 방법이 대세로 자리 잡았습니다. 또한 정답 데이터를 구할 수 없는 임상 환경의 특성을 반영하여, 등변성(Equivariance)을 활용한 자기 지도 학습(Self-supervised learning)이나 해상도의 제약 없이 영상을 표현하는 암시적 신경망 표현(Implicit Neural Representation, INR) 방식과 결합하려는 시도로 활발히 확장되고 있습니다.
9. 마무리
"Equivariant Multiscale Learned Invertible Reconstruction for Cone Beam CT (LIRE+)" 논문은 딥러닝이 3D 의료 영상 분야에 적용될 때 맞닥뜨리는 하드웨어적 제약(GPU 메모리 초과)을 어떻게 소프트웨어적이고 수학적인 기지(단사성을 띤 최근접 업샘플링과 가역 신경망의 융합)로 우아하게 돌파할 수 있는지를 보여주는 훌륭한 연구입니다.
이 연구가 제안한 방법론은 환자가 방사선 치료기 베드에 누울 때마다 체형과 내부 장기 위치가 미세하게 달라지는 적응형 방사선 치료(Adaptive Radiotherapy) 환경에 매우 강력한 도구를 제공합니다. 그룹 등변 합성곱 덕분에 훈련 데이터와 각도가 약간 틀어진 채로 환자가 눕더라도 성능이 붕괴하지 않으므로, 임상의는 흔들림 없고 신뢰할 수 있는 고화질 3D 영상을 짧은 시간 안에 확정 지을 수 있게 될 것입니다.
하지만 이 기술을 실제 병원의 인프라에 당장 배포하기 위해서는 명확히 주의해야 할 한계점들이 존재합니다.
첫째, 시뮬레이션과 실제 물리 세계의 간극(Domain Gap)입니다. 본 논문의 LIRE+는 통제된 단일 스캐너 기하학과 정형화된 노이즈 분포를 바탕으로 시뮬레이션 된 데이터를 사용했습니다. 뼈의 구조가 복잡하여 발생하는 빔 경화(Beam hardening) 현상이나 예측이 어려운 환자의 불규칙한 산란파 데이터가 입력될 경우 모델이 예상치 못한 아티팩트를 렌더링할 위험이 있습니다. 후속 연구인 LIRE++가 실제 골반 데이터를 도입하며 이 문제를 상당 부분 해소하였으나, 상용화를 위해서는 여전히 기존 산란 보정(Scatter pre-correction) 파이프라인과의 정밀한 결합 및 호환성 테스트가 필수적입니다.
둘째, 모델의 파라미터 수를 획기적으로 줄여 메모리를 최적화했음에도 불구하고, 실제 훈련 환경을 구축하려면 데이터를 작은 블록으로 쪼개는 패치 단위(Patch-wise) 연산 처리와 CPU-GPU 간의 복잡한 데이터 스트리밍 아키텍처를 구현해야 하므로 초기 시스템 엔지니어링 및 인프라 구축의 난이도가 상당히 높습니다.
논문 결과에서도 드러났듯, 두경부 테스트에서 체구의 크기가 표준 훈련 데이터의 범위를 극단적으로 벗어나는 환자(이상치)의 경우 성능 저하가 발생했습니다. 이는 현재 모델이 회전 변환에는 강건하지만, 스케일(크기)의 변화에 대해서는 완벽히 대응하지 못함을 의미합니다. 향후에는 객체의 크기 변화에도 성능을 유지하는 스케일 등변성(Scale Equivariance)을 네트워크 구조에 추가로 통합하는 방향의 연구가 필요합니다. 아울러 흉부 스캔 과정에서 필연적으로 발생하는 환자의 호흡에 의한 장기 움직임을 보상하기 위해, 시간 축 정보를 모델 설계 단계부터 반영하는 모션 보상 4D CBCT 재구성(Motion-compensated 4D Reconstruction)으로의 고도화가 다음 과제가 될 것입니다.
결론적으로 본 논문은 단순히 노이즈 필터를 통과시켜 영상을 깨끗하게 꾸며내는 미봉책을 넘어, X선이 인체를 투과하는 물리적 과정을 인공지능이 더 가볍고 빠르며 일관성 있게 추론해 내도록 모델의 근본 구조를 재설계했다는 점에서 3D 의료 영상 재구성 기술의 패러다임을 한 단계 끌어올린 혁신적인 성과로 평가됩니다.