일러두기 (Disclaimer)
본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.
논문 링크 : https://arxiv.org/abs/2205.07358
End-to-end Memory-Efficient Reconstruction for Cone Beam CT
Cone Beam CT plays an important role in many medical fields nowadays, but the potential of this imaging modality is hampered by lower image quality compared to the conventional CT. A lot of recent research has been directed towards reconstruction methods r
arxiv.org
초록 (Abstract)
Cone Beam CT는 오늘날 많은 의료 분야에서 중요한 역할을 수행하고 있습니다. 불행하게도, 이 영상 기법의 잠재력은 기존의 일반적인 CT에 비해 낮은 영상 품질로 인해 제한받고 있으며, 정확한 재구성 이미지를 생성하는 것은 여전히 어려운 과제로 남아 있습니다. 최근 많은 연구가 딥러닝에 의존하는 재구성 기법에 집중되어 왔으며, 이는 다양한 영상 기법에서 큰 가능성을 보여주었습니다. 하지만, 완전한 3D 데이터로 작업할 때 발생하는 딥러닝 기법의 지나치게 높은 메모리 비용 등 여러 문제로 인해 딥러닝을 CBCT 재구성에 실제로 적용하는 것은 복잡합니다. 또한, 문헌에서 제안된 딥러닝 기법들은 종종 특정 관심 영역(Region of Interest)의 데이터에 대해서만 훈련되고 평가되어, 다른 영역으로의 일반화가 부족할 수 있다는 우려를 낳고 있습니다.
본 연구에서는 이러한 한계점들을 해결하고, CBCT 재구성을 위한 학습된 가역적 Primal-Dual 반복 기법(Learned invertible primal-dual iterative scheme)인 LIRE를 제안하고자 합니다. LIRE는 CBCT 재구성을 위한 학습된 가역적
Primal-Dual 반복 기법으로, 각각의 원시 블록(Primal block)에는 U-Net 구조를, 각각의 Dual block에는 잔차 합성곱 신경망(Residual CNN) 구조를 사용합니다. 순방향(Forward pass) 및 역방향(Backward pass) 과정 모두에서 가역적 잔차 Primal-Dual 블록과 각 블록 내부의 패치 단위(Patch-wise) 연산을 결합함으로써, 네트워크의 표현력은 유지하면서도 메모리 요구량을 실질적으로 감소시켰습니다. 이러한 기술들을 통해 24GB VRAM을 갖춘 현재의 하드웨어 환경에서도 등방성(Isotropic) 2mm 복셀(Voxel) 간격, 임상적으로 유의미한 투영(Projection) 횟수 및 검출기 패널 해상도를 가진 데이터로 훈련하는 것이 가능해집니다.
소형(Small) 및 대형(Large) 시야각(Field-of-View, FoV) 설정을 위한 두 개의 LIRE 모델이 $260+22$개의 흉부 CT 스캔 데이터 세트에서 훈련 및 검증되었으며, 142개의 흉부 CT 스캔 데이터 세트와 분포 외(Out-of-distribution) 데이터 세트인 79개의 두경부(Head & Neck) CT 스캔 데이터를 사용하여 테스트되었습니다. 두 설정 모두에서 제안된 기법은 테스트 세트의 고전적 기법들과 딥러닝 비교군(Baselines)을 능가합니다. 흉부 CT 세트에서 제안된 기법은 소형 FoV 설정의 경우 $33.84\pm2.28$, 대형 FoV 설정의 경우 $35.14\pm2.69$의 PSNR을 달성했습니다. 반면 U-Net 비교군은 각각 $33.08\pm1.75$ 및 $34.29\pm2.71$의 PSNR을 달성했습니다. 두경부 CT 세트에서 제안된 기법은 소형 FoV 설정의 경우 $39.35\pm1.75$, 대형 FoV 설정의 경우 $41.21\pm1.41$의 PSNR을 달성했습니다. 추가로, 1mm 복셀 간격과 더 높은 검출기 패널 해상도를 가진 동일한 기하학적 구조의 고해상도 CBCT 데이터를 재구성하도록 LIRE를 미세 조정(Finetuning)할 수 있음을 입증했으며, 여기서도 U-Net 비교군을 능가하는 성능을 보였습니다.
추가적인 메모리 최적화가 적용된 학습된 가역적 Primal-Dual 기법은 임상적으로 유의미한 기하학적 구조와 해상도를 가진 투영 데이터로부터 직접 CBCT 볼륨을 재구성하도록 훈련될 수 있습니다. 이러한 기법들은 고전적인 딥러닝 비교군들과 비교하여 더 나은 재구성 품질과 일반화 성능을 제공할 수 있습니다.
1. 한줄 요약 & 3줄 핵심 (Executive Summary)
딥러닝을 이용해 3D 의료 영상을 원본 데이터로부터 직접 재구성할 때 발생하는 막대한 GPU 메모리 부족 현상을 '네트워크의 가역성(Invertibility)'과 '패치 분할 연산(Patch-wise computation)'이라는 두 가지 기술의 결합으로 해결하여, 일반적인 연구용 하드웨어 환경에서도 임상 수준의 3D 영상 복원 모델을 학습해 낸 연구입니다.
- 기존의 문제점 (Pain point): 콘빔 CT(CBCT)는 물리적 한계로 인해 영상 품질이 낮으나, 이를 개선하기 위해 3D 딥러닝 모델을 적용하려 하면 단일 모델 훈련에만 700GB 이상의 GPU 메모리가 필요하여 사실상 학습이 불가능했습니다.
- 이 논문의 해결책 (Solution): 학습 시 이전 단계의 결과를 바탕으로 역방향 연산을 수행할 수 있는 가역적 구조를 도입해 중간 활성화 값(Activation)의 저장을 생략하고, 거대한 3D 볼륨을 국소적인 패치 단위로 나누어 연산함으로써 메모리 사용량을 24GB 수준으로 낮추었습니다.
- 달성한 성과 (Key Result): 메모리 최적화를 통해 3D U-Net과 같은 깊고 표현력이 높은 신경망을 그대로 사용할 수 있게 되었으며, 그 결과 기존의 고전적 알고리즘이나 단순 후처리 방식의 딥러닝 모델들을 뛰어넘는 압도적인 영상 복원 품질과 분포 외 데이터(두경부 영상)에 대한 뛰어난 일반화 성능을 달성했습니다.
2. 들어가며: 왜 이 연구가 필요했나? (The "Why")
딥러닝 네트워크의 구조를 논하기 전에, 이 연구가 다루고 있는 의료 영상 분야의 현실적인 한계와 배경을 이해하는 것이 필수적입니다. 오늘날 치과 치료, 방사선 종양학의 영상 유도 방사선 치료(IGRT), 그리고 중재적 방사선 시술 등에 널리 쓰이는 기기가 바로 콘빔 컴퓨터 단층촬영(Cone Beam Computed Tomography, CBCT)입니다. 일반적인 병원 진단용 나선형 CT(Helical CT)가 부채꼴 형태의 얇은 X선 빔을 여러 번 회전하며 인체의 단면을 스캔하는 반면, CBCT는 원뿔 모양으로 넓게 퍼지는 X선을 방출하여 평면 형태의 넓은 패널 검출기(Detector panel)로 환자의 입체 데이터를 단 한 번의 회전으로 수집합니다. 이 방식은 기기의 크기를 줄일 수 있고 촬영 속도가 빠르다는 장점이 있습니다.
그러나 CBCT의 이러한 구조적 특징은 치명적인 단점을 수반합니다. 첫째, X선 발생기와 검출기가 환자의 주위를 단순한 원형 궤도로 회전하기 때문에, 수학적으로 3D 볼륨을 완벽하게 복원하기 위한 이른바 '데이터 완전성 조건(Data completeness condition)'을 충족시키지 못합니다. 둘째, 넓은 패널을 통해 넓은 범위의 X선을 한 번에 받아들이기 때문에, 인체 조직을 통과하며 이리저리 튕겨 나가는 X선의 산란(Scatter) 현상이 일반 CT에 비해 훨씬 심하게 발생합니다. 셋째, 뼈나 금속 임플란트처럼 밀도가 높은 물질을 지날 때 X선 광자가 흡수되어 검출기에 도달하지 못하는 광자 부족 현상(Photon starvation) 및 빔 경화(Beam hardening) 현상이 발생합니다.
이러한 물리적, 수학적 제약들로 인해 고전적인 여과 역투영법(Filtered Back-Projection, FBP)과 같은 수학적 알고리즘으로 CBCT 데이터를 재구성하면, 최종 영상에 짙은 흑백의 줄무늬(Streaking)나 그림자 같은 심각한 아티팩트(Artifact)가 남게 됩니다. 이는 신체 내부 조직의 밀도를 나타내는 하운스필드 단위(Hounsfield Unit, HU)의 정확도를 떨어뜨리며, 매일매일 환자의 해부학적 변화를 파악해 방사선 조사량을 정밀하게 조절해야 하는 적응형 방사선 치료(Adaptive Radiotherapy) 환경에서 심각한 걸림돌이 됩니다.
이 문제를 해결하기 위해 연구자들은 딥러닝으로 눈을 돌렸습니다. 가장 접근하기 쉬운 방법은, 고전적인 FBP 알고리즘을 사용해 우선 해상도가 낮고 노이즈가 낀 3D 영상을 만든 다음, 딥러닝 모델(예: U-Net)에 입력하여 영상을 깨끗하게 다듬는 '사후 처리(Learned post-processing)' 방식이었습니다. 하지만 이 방식은 치명적인 결함을 내포하고 있습니다. 모델이 처리하는 입력 데이터는 이미 FBP 알고리즘을 거치면서 원래의 2D X선 투영 데이터(Raw projection data)가 가지고 있던 미세한 정보들이 손실되거나 수학적으로 왜곡된 상태입니다. 모델은 원본 데이터를 직접 보지 못하기 때문에, 알고리즘 단계에서 잘못 생성된 복잡한 아티팩트를 근본적으로 교정해내지 못합니다.
따라서 원본 투영 데이터 도메인과 3D 이미지 도메인 양쪽을 번갈아 오가며 역문제(Inverse problem)를 푸는 '학습된 반복적 재구성 기법(Learned Iterative Scheme)'이 주목받게 되었습니다. 그러나 연구자들은 곧 거대한 하드웨어적 물리 장벽에 충돌하게 됩니다. 3차원 볼륨 데이터는 2차원 이미지에 비해 데이터의 크기가 세제곱으로 증가합니다. 256 x 256 x 256 해상도의 3D 데이터에 대해 고작 96개의 특징 맵(Feature map)을 가지는 단일 합성곱 신경망(CNN) 계층을 학습시키려 해도, 역전파(Backpropagation) 과정에서 활성화(Activation) 상태를 저장하기 위해 약 12GB의 메모리가 요구됩니다. 우수한 성능을 내는 기존의 2D 재구성 모델을 단순히 3D로 확장하여 8번만 반복 수행하게 만들더라도 700GB를 초과하는 GPU 메모리가 필요하다는 계산이 나옵니다. 현대 최고 사양의 연구용 GPU가 24GB에서 80GB 수준임을 고려할 때, 이는 현존하는 하드웨어로는 학습이 불가능하다는 선고나 다름없었습니다.
"어떻게 하면 막대한 메모리를 소모하지 않으면서도, 원본 X선 투영 데이터로부터 직접 고품질의 완전한 3D CBCT 영상을 학습해 낼 수 있을까?" 이것이 본 논문의 연구자들이 해결하고자 했던 가장 본질적이고 도전적인 과제입니다.
3. 이 논문의 뿌리 (Key Reference)
과학적 성과는 이전 연구자들의 통찰과 시행착오를 기반으로 이루어집니다. 본 논문의 LIRE 아키텍처가 탄생하기 위해 가장 큰 영감을 주었거나, 한계를 극복하기 위해 비판적으로 계승한 핵심 연구들은 다음과 같습니다.
- Learned Primal-Dual (LPD, 2018): 이 논문은 LIRE 구조를 설계하는 데 있어 가장 근본적인 뼈대가 되었습니다. Jonas Adler와 Ozan Öktem이 제안한 LPD 알고리즘은 수학적 최적화 기법인 Primal-Dual Hybrid Gradient(PDHG) 방식을 딥러닝 신경망으로 펼쳐낸(Unrolling) 모델입니다. 영상 공간(Primal)과 원본 투영 공간(Dual)을 번갈아 오가며 여러 개의 합성곱 신경망을 통해 반복적으로 데이터를 정제하는 방식을 제안했습니다. 이를 통해 2D CT 재구성에서 기존 방식을 압도하는 화질 개선을 입증했습니다. 그러나 LPD는 2D 데이터 처리에 특화되어 설계되었기 때문에, 이를 3D CBCT에 그대로 적용하기에는 앞서 언급한 천문학적인 메모리 한계로 인해 확장이 불가능했습니다. LIRE는 LPD가 제안한 '영상 도메인과 투영 도메인의 교차 연산'이라는 강력한 아이디어를 그대로 가져오되, 메모리 장벽을 넘기 위한 근본적인 구조 변경을 단행했습니다.
- Invertible Learned Primal-Dual (iLPD, 2021): LPD의 극심한 메모리 요구량을 해결하기 위해 등장한 연구입니다. 이 모델은 중간 연산 결과를 메모리에 모두 저장해두는 대신, 출력값에서 입력값을 수학적으로 거꾸로 유추해 낼 수 있는 '가역적(Invertible) 신경망' 개념을 도입했습니다. 메모리 사용량을 크게 줄이는 데 성공하여 나선형 CT(Helical CT)의 3D 재구성 연구에 적용되기도 했습니다. 하지만 나선형 CT는 스캔 기하학적 특성상 데이터를 시간 축을 따라 여러 조각으로 나누어(Geometry splitting) 개별적으로 처리할 수 있는 반면, CBCT는 단일 2D 투영 이미지 안에 3D 볼륨 전체의 정보가 중첩되어 기록되기 때문에 이러한 물리적 분할 방식을 사용할 수 없었습니다. LIRE는 iLPD의 '가역성' 개념을 계승하면서도, 데이터의 물리적 분할 없이 3D 공간 연산을 온전히 수행할 수 있도록 새로운 방법을 결합했습니다.
- Multi-Scale Learned Iterative Reconstruction (JU-Net, 2020): 메모리 절약을 위해 선택한 또 다른 우회로를 보여주는 연구입니다. JU-Net은 연산 부하가 큰 투영 공간(Dual)에서의 딥러닝 연산을 완전히 포기하고, 오직 이미지 공간 안에서만 해상도를 다양하게 줄였다가 다시 키우는 다중 스케일(Multi-scale) 방식을 통해 메모리 풋프린트를 최소화했습니다. 이는 한정된 자원 내에서 3D 재구성을 가능하게 했으나, 원본 투영 데이터와 직접 상호작용하며 노이즈를 제어하는 단계를 삭제하고 모델 내 필터 수를 보수적으로 줄여야 했기에, 결과적으로 네트워크의 표현력(Expressive power)과 화질 복원 능력이 크게 저하되는 단점이 있었습니다. LIRE는 이 연구의 한계를 반면교사 삼아, 투영 도메인 연산을 포기하거나 네트워크의 복잡도를 희생하지 않고 메모리 문제를 정면으로 돌파하는 길을 선택했습니다.
4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)
LIRE(Learned Invertible primal-dual REconstruction) 모델이 700GB에 달하던 메모리 장벽을 24GB 수준으로 낮출 수 있었던 핵심 아이디어는 두 가지 독립적인 기술의 정교한 결합에 있습니다.
발상의 전환 1: 시간을 거슬러 올라가는 '가역성(Invertibility)'
딥러닝 모델이 데이터를 학습하려면, 입력 데이터가 여러 신경망 계층을 통과하며 결과물로 변환되는 순방향 연산(Forward pass)을 거칩니다. 이후 예측 결과와 실제 정답 사이의 오차를 계산하고, 이 오차를 줄이기 위해 역방향으로 돌아오며 가중치를 수정하는 역전파(Backward pass) 과정을 반드시 수행해야 합니다.
전통적인 네트워크는 역방향으로 돌아올 때 필요한 길잡이 역할을 하도록, 순방향으로 진행하며 발생하는 모든 중간 연산 결과(활성화 값, Activation)를 메모리라는 창고에 차곡차곡 저장해 둡니다. 네트워크의 층이 깊어지고 처리해야 할 데이터가 3D 볼륨처럼 거대해질수록, 이 창고는 순식간에 포화 상태에 이릅니다.
LIRE는 구조 내에 가역적 잔차 블록(Invertible Residual Block) 이라는 특수한 구조를 설계했습니다. 이는 쉽게 비유하자면 미로를 탐험하는 것과 같습니다. 일반적인 모델이 미로를 통과하며 빵 부스러기(중간 연산 결과)를 모든 길목마다 남겨두고 이를 기억하기 위해 엄청난 에너지를 소비한다면, 가역적 네트워크는 빵 부스러기를 전혀 남기지 않고 출구(최종 출력)까지 곧장 달려갑니다. 대신, 출구에 도달한 후 현재 위치와 수학적인 역연산 규칙만을 이용해 이전 단계의 위치를 그때그때 새롭게 계산하며 되짚어 나옵니다. 이러한 방식을 적용하면, 모델은 각 반복 주기의 가장 마지막 데이터 상태와 일련의 재구성 결과물 정보만을 메모리에 유지하면 되므로 메모리 사용량이 극적으로 감소합니다. 이전에는 막대한 저장 공간이 필요하여 층의 깊이를 포기해야 했다면, 이제는 얕은 메모리로도 깊은 연산을 수행할 수 있게 된 것입니다.
발상의 전환 2: 거대한 퍼즐 나누어 맞추기 '패치 단위 연산(Patch-wise Computation)'
가역성을 도입하여 중간 저장 문제를 해결했음에도 불구하고, 여전히 256x256x256이라는 거대한 3D 입체 볼륨과 수백 장의 투영 데이터를 한 번의 연산 주기에 GPU 위로 올리는 것은 24GB 메모리 환경에서 벅찬 일입니다. 이를 해결하기 위해 LIRE는 거대한 3D 볼륨을 작은 정육면체 조각, 즉 패치(Patch) 단위로 공간을 분할하여 연산하는 방식을 도입했습니다.
거대한 퍼즐을 한 번에 완성하기 어려워 여러 구역으로 나누어 맞춘 뒤 나중에 하나로 합치는 것처럼, 3D 볼륨을 더 작은 패치(예를 들어 128x128x128 크기)로 잘라냅니다. 여기서 중요한 점은, 합성곱 신경망(CNN)을 구성하는 연산들(Convolution, Activation, Pooling 등)이 본질적으로 자기 주변의 픽셀(이웃 공간) 정보만 국소적으로 참고하여 계산을 수행하는 특성을 가진다는 사실입니다. 따라서 3D 볼륨을 조각내어 개별적으로 신경망 블록을 통과시키더라도, 각 패치의 경계면에서 주변 정보를 충분히 가져올 수 있도록 여유 공간(Receptive field)을 조금 더 포함시켜 잘라주기만 하면, 데이터를 쪼개지 않고 전체를 한 번에 연산했을 때와 수학적으로 완벽하게 동일한 결과가 도출됩니다. 각 조각별로 계산된 가중치 수정 정보(Weight gradient)를 나중에 하나로 더해주기만 하면, 거대한 3D 볼륨 전체에 대한 올바른 글로벌 그래디언트(Global gradient)를 얻을 수 있습니다.
기존의 모델들(예: JU-Net 등)이 "GPU 공간을 늘릴 수 없으니 모델 성능을 단순하게 만들자"며 신경망의 필터 수를 줄이거나 연산을 포기하는 타협을 했다면, LIRE는 "최고 성능의 무거운 모델(3D U-Net 등)을 그대로 유지하되, 데이터를 영리하게 조각내고 중간 기억을 지우는 방식"이라는 강력한 발상의 전환을 통해 메모리 한계를 우회한 것입니다.
5. 작동 원리: 어떻게 돌아가는가? (The "How")
LIRE 네트워크 내부에서 물리적인 X선 측정 데이터가 어떠한 흐름을 거쳐 선명한 3D 입체 영상으로 변환되는지 단계별로 살펴보겠습니다. 복잡한 알고리즘이나 행렬 수식 대신, 데이터의 흐름에 집중하여 서술합니다.
- 데이터의 준비 및 초기화 (Initialization): 실제 CBCT 기계의 검출기를 통해 측정된 날것의 2D X선 투영 데이터(Sinogram)를 준비합니다. 이 데이터는 빛의 감쇠 법칙을 따르도록 로그(log) 변환을 거쳐 정규화됩니다. 그 후, 정교한 신경망 연산에 들어가기 앞서 고전적인 수학적 역투영(Backprojection) 연산을 통해 대략적이고 투박한 형태를 가진 초기 3D 볼륨($x_0$)을 만들어 냅니다.
- 원시-쌍대 교차 반복의 시작 (The Iteration): 초기화된 데이터는 투영 공간(2D 사진 공간)의 정보를 담은 'Dual vector'와 이미지 공간(3D 입체 공간)의 정보를 담은 'Primal vector'로 나뉩니다. 이 두 벡터는 총 8번의 반복 주기(8 Iterations) 동안 다음의 과정을 거치며 점진적으로 다듬어집니다.
- 투영 공간에서의 노이즈 정제 (Dual Block Update): Dual Vector의 일부가 먼저 Dual block으로 들어갑니다. 이 블록은 3차원 합성곱 레이어가 3층으로 겹쳐진 잔차 신경망(Residual CNN)으로 구성되어 있습니다. 이 블록의 역할은 2D 투영 데이터 상에 흩뿌려진 노이즈(예: 광자 산포에 의한 기하학적 노이즈)를 식별하고 걸러내는 것입니다. 데이터 원본의 형태를 유지하면서도 불필요한 노이즈 신호를 효과적으로 억제합니다.
- 도메인 변환 (Projection and Backprojection): 투영 공간과 이미지 공간은 차원이 다르기 때문에 직접 데이터를 교환할 수 없습니다. 따라서 노이즈가 정제된 2D 투영 데이터는 역투영 연산자(Backprojection operator)를 통해 다시 3D 공간의 입체 데이터로 변환되어 이미지 공간으로 넘겨집니다. 2D 그림자들을 3D 캔버스에 거꾸로 쏘아보내 입체적인 힌트를 제공하는 과정입니다.
- 이미지 공간에서의 구조 복원 (Primal Block Update - The 3D U-Net): 이제 변환된 데이터는 이미지 공간을 담당하는 Primal block으로 전달됩니다. 이곳에는 깊고 복잡한 구조를 가진 3D U-Net 모델이 위치하고 있습니다. 입력된 3D 볼륨 데이터를 분석하기 위해 데이터를 압축(Downsampling)하여 인체 골격이나 큰 장기와 같은 거시적 특징을 파악하고, 다시 원래 크기로 확대(Upsampling)하며 뼈의 경계선이나 혈관과 같은 세밀한 해부학적 디테일을 복원해 냅니다. 이 과정에서 '랜드위버(Landweber) 항'이라는 수학적 요소를 함께 사용합니다. 이는 현재 복원 중인 3D 모델을 가상으로 다시 투영해 보았을 때 나오는 2D 그림자와, 실제 기계가 측정한 2D 그림자 간의 오차를 계산하여 모델이 올바른 방향으로 나아가도록 길을 안내하는 역할을 합니다.
- 보조 정보의 활용 (Field-of-View Mask): 3D U-Net이 연산을 수행할 때, 연구진은 영상 데이터뿐만 아니라 보조 텐서(Auxiliary Tensor)라는 정보를 함께 입력합니다. 이 텐서는 3D 공간을 구성하는 각 픽셀(복셀)이 회전하는 X선 카메라에 얼마나 자주 노출되었는지를 0%에서 100% 사이의 비율로 표시한 지도와 같습니다. 모델은 이 지도를 참고하여, 중심부뿐만 아니라 카메라에 한 번이라도 노출된 가장자리 영역(부분 시야각)까지도 놓치지 않고 영상 정보를 재구성하도록 지시를 받습니다.
- 채널 섞기 (Permutation): 하나의 반복 주기가 끝날 때마다 데이터 채널들의 순서를 무작위로 섞어주는(Permute) 단계를 거칩니다. 이는 가역적 신경망 구조가 한 번에 절반의 채널만 업데이트하는 특성을 보완하여, 다음 반복 주기에서 정보가 블록들 사이를 더욱 고르게 흐르도록 돕는 윤활유 역할을 수행합니다.
이러한 Dual Block과 Primal Block의 교차 연산이 총 8회 반복되며, 이 모든 과정은 앞서 설명한 패치 단위 연산을 통해 분할 처리되므로 GPU 메모리의 초과 없이 빠르고 안정적으로 진행됩니다.
6. 작동 원리: 어떻게 학습하는가? (The "How")
딥러닝 모델이 정교한 3D 재구성 능력을 갖추기 위해서는 지도 학습(Supervised learning)을 위한 양질의 '문제'와 '정답' 데이터 세트가 필요합니다. 하지만 환자가 병원에서 실제 CBCT 기계로 촬영한 데이터에는 이미 강한 노이즈와 줄무늬 아티팩트가 가득 포함되어 있어, 신경망에게 "이런 깨끗한 영상으로 복원해라"라고 지시할 이상적인 정답지(Ground Truth)로 사용할 수 없습니다.
이 문제를 해결하기 위해 연구진은 다음과 같은 정교한 물리적 시뮬레이션 기반의 학습 데이터를 구축했습니다.
입력 데이터 (Input Data: The "문제")
- 데이터의 종류와 포맷: 컴퓨터 시뮬레이션을 통해 생성된, 가상의 노이즈가 추가된 2D X선 투영 이미지들의 묶음(Sinogram)입니다.
- 생성 메커니즘: 고해상도의 선명한 흉부 진단용 CT(Diagnostic CT)를 가져와, 컴퓨터 가상 공간에 배치합니다. 그리고 실제 병원 환경과 동일한 형태의 CBCT 기계가 환자 주위를 회전하며 사진을 찍는 물리적 과정을 시뮬레이션하여 2D 투영 이미지들을 만들어냅니다. 현실적인 조건을 반영하기 위해 실제 X선 광자가 부족할 때 나타나는 물리적 노이즈인 푸아송 노이즈(Poisson noise) 를 인위적으로 합성해 줍니다. 또한 환자가 스캔 중심에 완벽히 위치하지 않을 수 있음을 가정하여 스캔 중심점에 무작위 오프셋(Random offset)을 부여하는 데이터 증강(Augmentation)도 수행합니다.
- 수량 및 예시: 환자 한 명의 3D 체형을 복원하기 위한 문제 세트는 가로 256 x 세로 256 픽셀 해상도(픽셀 크기 1.6mm)의 2D 흑백 이미지 400장(소형 시야각 설정) 또는 720장(대형 시야각 설정)으로 구성됩니다. 예를 들어, 환자의 가슴 부위를 다양한 각도에서 엑스레이로 투시하여 갈비뼈와 폐가 겹쳐 보이도록 찍은 720장의 흐릿하고 노이즈가 낀 흑백 사진 묶음이 입력 데이터가 됩니다.
출력 데이터 (Output Data / Ground Truth: The "정답")
- 데이터의 종류와 포맷: X선 감쇠 계수(Attenuation coefficient)를 나타내는 완벽하게 깨끗한 3D 공간 데이터 볼륨입니다.
- 수량 및 예시: 이 3D 정답 데이터는 가로, 세로, 높이가 각각 2mm 간격(Isotropic spacing)으로 촘촘히 쪼개진 $256 \times 256 \times 256$ 형태의 거대한 3D 큐브(복셀 볼륨)로 구성되어 있습니다. 예를 들어, 혈관, 기관지, 그리고 종양의 경계면까지 노이즈나 왜곡 없이 뚜렷하게 관찰되는 3D 흉부 구조 모델이 정답 데이터로 제공됩니다.
네트워크는 수백 장의 2D 노이즈 사진(입력)을 받아들여 자신만의 3D 볼륨을 조립해 낸 뒤, 준비된 완벽한 3D 정답 데이터와 비교를 수행합니다. 두 영상 간의 차이를 평가하기 위해, 픽셀 값 자체의 차이를 측정하는 L1 손실(Mean Absolute Error)과 사람의 눈에 보이는 구조적 형태의 차이를 측정하는 구조적 유사도 손실(SSIM Loss)을 함께 계산합니다. 이 오차를 줄이는 방향으로 파라미터를 미세하게 조정하며 학습이 진행됩니다. 이 훈련 과정을 위해 260명의 환자 데이터가 사용되었으며, 22명의 데이터를 통해 검증을 수행했습니다.
7. 결과: 얼마나 좋아졌나? (Results)
재구성 알고리즘의 성패는 결국 복원된 영상의 질적 지표로 판가름 납니다. 연구진은 영상의 노이즈 억제 능력을 나타내는 PSNR(최대 신호 대 잡음비, 단위: dB, 높을수록 우수함)과 조직 구조의 형태 보존력을 나타내는 SSIM(구조적 유사도 지수, 1에 가까울수록 원본과 형태가 일치함)을 핵심 지표로 사용하여 성능을 평가했습니다. 평가는 모델이 학습 중에 한 번도 본 적 없는 142명의 흉부 CT 데이터를 통해 수행되었습니다.
흉부 CT 및 분포 외(Out-of-Distribution) 두경부 CT 성능 비교
딥러닝 모델의 가장 큰 위험성 중 하나는 훈련에 사용된 특정 장기(예: 폐)의 패턴만 무조건적으로 암기하여(Overfitting), 다른 부위를 촬영할 때는 성능이 급락할 수 있다는 점입니다. 이를 검증하기 위해 연구진은 흉부 데이터로만 훈련된 모델에 훈련 세트와는 해부학적 특성이 전혀 다른 79명의 두경부(Head & Neck) CT 데이터를 입력하는 가혹한 일반화(Generalization) 테스트를 진행했습니다.
아래 표는 가장 보편적인 임상 시나리오인 '대형 시야각(Large FoV)' 설정에서 2mm 복셀 해상도로 진행된 테스트 결과의 핵심을 보여줍니다.
| 평가 모델 (Reconstruction Method) | 흉부 CT (Thorax) PSNR | 흉부 CT (Thorax) SSIM | 두경부 CT (H&N) PSNR | 두경부 CT (H&N) SSIM |
| 고전적 해석 기법 (FBP) | $20.05 \pm 2.30$ dB | $0.66 \pm 0.07$ | $22.39 \pm 0.44$ dB | $0.71 \pm 0.02$ |
| 고전적 반복 기법 (PDHG w/ TV) | $29.23 \pm 2.87$ dB | $0.79 \pm 0.09$ | $37.86 \pm 1.36$ dB | $0.94 \pm 0.02$ |
| 2D 딥러닝 비교군 (Uformer + FBP) | $31.62 \pm 2.44$ dB | $0.81 \pm 0.06$ | $29.90 \pm 0.87$ dB | $0.86 \pm 0.01$ |
| 3D 딥러닝 비교군 (U-Net + FBP) | $34.29 \pm 2.71$ dB | $0.84 \pm 0.06$ | $37.06 \pm 1.21$ dB | $0.88 \pm 0.01$ |
| 제안된 기법 (LIRE) | $35.14 \pm 2.69$ dB | $0.91 \pm 0.05$ | $41.21 \pm 1.41$ dB | $0.97 \pm 0.01$ |
제시된 결과는 상당히 인상적입니다. 제안된 LIRE 기법은 기존에 널리 쓰이던 3D U-Net 기반의 딥러닝 후처리 모델과 비교하여 흉부 데이터에서 +0.85 dB의 PSNR 상승을 기록하며 State-of-the-art 수준을 달성했습니다. 구조적 형태 일치도를 보여주는 SSIM 역시 0.84에서 0.91로 크게 도약했습니다. 더욱 놀라운 것은 한 번도 학습하지 않은 두경부(Head & Neck) 테스트 결과입니다. 기존 딥러닝 비교군인 Uformer나 U-Net 모델은 분포 외 데이터에 직면하자 성능이 정체되거나 오히려 하락하는 경향을 보인 반면, LIRE 모델은 오히려 성능 격차를 벌리며 U-Net 대비 무려 +4.15 dB라는 압도적인 격차로 최상의 화질을 복원해 냈습니다. 이는 단순히 특정 장기의 형태를 암기하는 깊은 단일 신경망 모델(Single deep U-net)보다, 원본 투영 데이터를 오가며 물리적 역문제를 푸는 반복적 원시-쌍대 딥러닝 구조(Primal-dual scheme)가 물리학 법칙을 더 잘 이해하고 일반화 능력이 뛰어남을 강력하게 시사합니다. 시각적 평가에서도 기존 방법들에서는 노이즈에 묻혀 뭉개져 보이던 폐의 미세한 균열(Fissures) 구조가 LIRE 재구성 영상에서는 해부학적으로 뚜렷하게 관찰되었습니다.
추론 속도 및 고해상도 확장성
속도 측면에서, 256x256x256 크기의 3D 볼륨 하나를 재구성하는 데 단일 NVIDIA Quadro RTX 8000 GPU 환경에서 약 104초(소형 FoV) ~ 115초(대형 FoV)가 소요되었습니다. 고해상도의 반복 기법인 PDHG 알고리즘이 연산에 14분에서 18분 이상 소요되었던 것을 고려하면 실무 적용에 한 걸음 더 다가선 속도입니다. 나아가 연구진은 하드웨어 자원이 더 확보된 환경(NVIDIA A100 GPU 80GB)에서 모델의 한계를 테스트했습니다. 복셀 간격이 1mm로 매우 촘촘한 $512 \times 512 \times 512$ 초고해상도 데이터로 미세 조정(Fine-tuning)을 수행한 결과, 단 6분의 추론 시간 만에 탁월한 연조직(Soft tissue) 복원 품질을 보여주며 이 해상도에서도 기존 U-Net을 다시 한번 능가하는 성과를 거두었습니다.
실패 케이스 및 한계점 (Limitations)
의료 분야의 특성상 논문은 투명한 한계점 공유를 통해 신뢰도를 높입니다. 저자들은 LIRE가 X선이 환자 체내를 통과하며 불규칙하게 산란되는 산란(Scatter) 현상을 네트워크 내부에서 명시적으로 모델링하여 보정하지는 못했다고 인정합니다. 산란은 연조직의 명암 대비를 떨어뜨리는 주범이므로 향후 이를 엔드투엔드(End-to-end)로 학습시키는 과정이 필요합니다. 또한 환자가 숨을 쉬거나 심장이 뛸 때 발생하는 모션 아티팩트(Motion artifacts)에 대한 교정 로직이 부재하며, 재구성된 영상이 실제 방사선 치료 계획(Radiotherapy planning)에 직접 사용될 수 있는지 검증하기 위한 몬테카를로(Monte Carlo) 방식의 선량 시뮬레이션 검증이 아직 수행되지 않았다는 점을 분명한 한계로 적시했습니다.
8. 이 논문의 계보와 발전 (Impact & Follow-ups)
2023년에 정식으로 게재된 LIRE 논문은 3D CBCT 재구성에서 메모리의 족쇄를 풀어내는 획기적인 돌파구를 제시했습니다. 하지만 단일 볼륨 재구성에 여전히 115초라는 적지 않은 시간이 소요되며, 환자의 자세에 따라 성능이 민감하게 변하고, 산란(Scatter) 현상 보정이 누락되었다는 분명한 한계점들을 남겼습니다. 원저자들(Nikita Moriakov 등)은 이러한 약점을 보완하기 위해 발 빠르게 후속 연구를 발표하며, 이 기술을 임상에 즉각적으로 투입할 수 있는 강력한 파이프라인으로 진화시키고 있습니다. 이 논문을 출발점으로 하여 전개된 최신 기술 트렌드를 소개합니다.
속도 개선과 회전 면역성의 확보: LIRE+ (2024년)
원작자들은 불과 1년 만에 이전 버전의 한계를 대폭 개선한 LIRE+ 모델을 발표했습니다. 가장 눈에 띄는 변화는 다중 스케일(Multiscale) 재구성 전략의 도입입니다. 3D 영상을 처음부터 높은 해상도로 깎아내려가지 않고, 저해상도 단계에서 출발하여 큰 형태를 잡고 점진적으로 고해상도로 업샘플링(Upsampling)하는 방식을 Primal-Dual 가역적 네트워크 안에 훌륭하게 녹여냈습니다. 이 다중 스케일 전략을 통해 파라미터(가중치) 예산을 원본 LIRE 대비 단 37% 수준으로 크게 다이어트하면서도, 추론 연산 시간을 45%나 대폭 삭감하는 데 성공했습니다. 동시에 PSNR 수치는 오히려 +0.2 dB 상승하는 최적화의 진수를 보여주었습니다.
더욱 흥미로운 점은 딥러닝 모델의 근본적인 취약점을 수학적으로 해결했다는 것입니다. 기존의 딥러닝 모델들은 수술대 위에 누운 환자의 자세가 훈련 데이터와 조금만 다르게 회전되어 있어도 화질 복원 성능이 급격히 추락하는 문제가 있었습니다. LIRE+는 모델의 원시 블록(Primal block) 내부에 기하학적 대칭성을 강제로 유지시켜 주는 군 등변 합성곱(Group Equivariant Convolutions) 구조를 도입했습니다. 그 결과 환자가 어떤 각도로 틀어져 촬영되더라도 딥러닝 모델이 그 방향을 인식하여 흔들림 없이 동일한 고화질을 출력하는 강력한 회전 면역성(Rotational equivariance)과 강건성을 획득하게 되었습니다.
실전 임상 적용을 위한 최종 진화: LIRE++ (2025/2026년)
가장 최근 아카이브를 통해 공개된 최신 후속 연구인 LIRE++는, 이 기술이 단순한 연구실 수준을 넘어 실제 병원의 방사선 치료 워크플로우에 투입되기 위해 본격적으로 칼을 뽑아 든 결과물입니다. 기존 버전에서 가장 큰 아쉬움으로 꼽혔던 산란(Scatter) 현상의 엔드투엔드(End-to-end) 보정 기능이 신경망 내부로 완전히 통합되었습니다. 뼈와 촘촘한 장기들로 구성되어 있어 엑스선 산란이 극심하게 일어나 딥러닝 재구성이 가장 까다롭다고 정평이 난 골반(Pelvic) CBCT 데이터를 정밀한 몬테카를로 물리 시뮬레이터로 모사하여 모델을 학습시켰습니다. 그 결과는 놀라웠습니다. 최신 고성능 하드웨어인 NVIDIA A100 GPU를 사용할 경우, 2mm 복셀 해상도의 3D 영상 복원 및 추론에 걸리는 시간이 115초에서 단 7초로 극적으로 단축되었으며, 1mm 초고해상도 영상 역시 40초 만에 완성이 가능해졌습니다. 이러한 초고속 추론 속도는 방사선 치료기에 환자가 누워있는 상태에서 실시간에 가깝게 영상을 보며 치료 계획을 즉석에서 수정하는 온라인 적응형 방사선 치료(Online Adaptive Radiotherapy) 환경에서 결정적인 역할을 할 수 있습니다. 더욱이 실제 병원의 임상 환자 데이터를 대상으로 성능을 평가한 결과, LIRE++는 현재 상용화되어 병원에서 쓰이고 있는 최첨단 비공개 하이브리드 재구성 소프트웨어와 비교하여서도 원본 진단용 CT와의 평균 오차(Mean Absolute Error, MAE)를 10 HU(Hounsfield Unit)나 더 정밀하게 줄이는 탁월한 임상적 성과를 증명해 내었습니다.
이러한 숨 가쁜 후속 연구의 발전 흐름은 딥러닝이 단순히 망가진 이미지를 후처리하는 '그림 수정 도구'에 머물지 않고, 날것의 투영 측정 데이터(Raw projection data)를 입력받아 실시간으로 물리적 왜곡 현상을 스스로 판단하고 역문제를 해결해 내는 완전한 형태의 인공지능 물리 재구성 엔진으로 빠르게 진화하고 있음을 뚜렷하게 보여줍니다.
9. 마무리
지금까지 심도 있게 살펴본 "End-to-end Memory-Efficient Reconstruction for Cone Beam CT" 연구는 딥러닝과 의료 3D 영상 처리 분야가 오랫동안 직면하여 타협할 수밖에 없었던 거대한 장벽, 즉 '하드웨어 메모리의 물리적 한계'를 순수한 소프트웨어적 구조 설계의 혁신을 통해 돌파해 낸 획기적인 사례로 평가됩니다. 중간 기억의 의존성을 끊어낸 수학적 가역성(Invertibility) 설계와, 3D 공간의 국소성을 영리하게 활용한 패치 단위 연산(Patch-wise computation)이라는 두 가지 강력한 무기를 결합하여, 이전에는 불가능이라 여겨졌던 고해상도 볼륨 데이터의 원본 기반 학습을 상용 GPU 환경에서 실현했습니다.
이 연구가 딥러닝과 의료 영상 산업 전반에 끼칠 파급력은 지대합니다. 기존의 많은 의료 인공지능 연구들이 장비 제조사가 이미 재구성해 낸 2차적인 이미지를 바탕으로 암을 진단하거나 영역을 분할하는 '판독 보조'의 역할에 머물러 있었다면, 본 연구가 제시하는 패러다임은 인공지능이 의료 장비 시스템 내부의 가장 깊숙한 핵심 소프트웨어로 들어가 영상 자체가 형성되는 물리적 과정(Image Reconstruction) 자체를 주도하게 됨을 의미합니다. 이러한 구조적 혁신은 결과적으로 환자가 감내해야 하는 방사선 피폭량을 획기적으로 줄이면서도 이전보다 훨씬 명확한 해부학적 해상도를 얻을 수 있는 길을 열어주어, 방사선에 취약한 소아 환자들이나 잦은 주기로 경과를 추적해야 하는 종양 환자들의 치료 안정성과 직접적으로 연결될 것입니다.
하지만 이 모델을 실제 임상 현장(Clinical Practice)과 상용화 단계에 적용할 때는 다음과 같은 현실적인 도전과제들을 반드시 고려해야 합니다.
가장 주의해야 할 지점은 딥러닝 모델의 성능을 결정짓는 훈련 데이터 구축의 복잡성입니다. 실제 병원에서 측정한 CBCT 영상은 이미 노이즈와 왜곡을 포함하고 있기 때문에 딥러닝의 지도 학습을 위한 정답(Ground Truth)으로 사용할 수 없습니다. 따라서 연구에서 수행한 것처럼 고화질 진단용 CT를 바탕으로 X선의 산란(Scatter), 광자 부족, 기하학적 흔들림 등의 물리적 왜곡 현상을 극한까지 모사해 내는 정교한 몬테카를로(Monte Carlo) 기반 시뮬레이터 인프라가 필수적입니다. 시뮬레이션 환경이 현실 세계의 물리적 복잡성(Domain gap)을 완벽하게 반영하지 못한다면, 실험실에서의 뛰어난 지표(PSNR 등)가 임상 현장 환자 앞에서는 무용지물이 될 위험이 여전히 남아 있습니다.
또한, 가역성 개념과 패치 연산을 통해 훈련 시 요구되는 GPU 메모리의 최대치(Peak memory)를 24GB 수준으로 획기적으로 낮추는 데는 성공했으나, 여전히 전체 모델 파라미터를 학습시키기 위해서는 막대한 컴퓨팅 파워가 요구된다는 점입니다. 8대의 최상급 워크스테이션 GPU를 병렬 연산으로 수일간 가동해야 하는 초기 인프라 투자가 필요합니다. 임상 현장에 배포되어 환자를 실제로 스캔할 때에도 빠르고 안정적인 실시간 추론 결과를 얻기 위해, 도입하려는 병원의 IT 인프라 환경과 요구되는 재구성 속도, 화질 간의 타협점(Trade-off)을 섬세하게 조율해야 합니다.
결론적으로, 이 논문과 그 철학을 계승하여 눈부시게 발전하고 있는 후속 버전(LIRE+, LIRE++)의 궤적은 "깊은 도메인 지식(의료 물리학)과 딥러닝 아키텍처 설계(소프트웨어 엔지니어링)의 화학적 결합"이 어떻게 물리적인 컴퓨팅의 한계라는 거대한 코끼리를 좁은 냉장고 안에 우아하게 집어넣을 수 있는지 보여주는 탁월한 본보기입니다. 무작정 연산을 포기하거나 데이터의 차원을 뭉개지 않고, 근본적인 기술의 틀(가역성과 공간 분할)을 재설계하여 한계를 우회한 연구진의 접근 방식은, 방대한 3D 입체 데이터를 다루는 자율주행, 정밀 로보틱스, 산업용 비파괴 검사 등 컴퓨터 비전의 수많은 영역에 거대한 영감과 통찰을 제공할 것입니다.