본문 바로가기

딥러닝

X-GRM: Large Gaussian Reconstruction Model - 희소 뷰 X선에서 1초 만에 3D CT를 복원하는 트랜스포머와 가우시안 스플래팅의 만남

반응형


일러두기 (Disclaimer)

본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.

 

 

논문 링크 : https://arxiv.org/abs/2505.15235

 

X-GRM: Large Gaussian Reconstruction Model for Sparse-view X-rays to Computed Tomography

Computed Tomography serves as an indispensable tool in clinical workflows, providing non-invasive visualization of internal anatomical structures. Existing CT reconstruction works are limited to small-capacity model architecture and inflexible volume repre

arxiv.org

 

 

초록 (Abstract)

컴퓨터 단층 촬영(Computed Tomography, CT)은 임상 워크플로우에서 필수적인 도구로, 내부 해부학적 구조의 비침습적 시각화를 제공합니다. 기존의 CT 재구성 연구는 소용량 모델 아키텍처와 유연하지 못한 볼륨 표현 방식에 국한되어 있었습니다. 본 연구에서는 희소 뷰(sparse-view) 2D X선 투영 이미지로부터 3D CT 볼륨을 재구성하기 위한 대규모 피드포워드(feedforward) 모델인 X-GRM(X-ray Gaussian Reconstruction Model)을 제안합니다. X-GRM은 확장 가능한 트랜스포머(transformer) 기반 아키텍처를 사용하여 희소 뷰 X선 입력을 인코딩하며, 서로 다른 뷰(view)의 토큰을 효율적으로 통합합니다. 그런 다음, 이 토큰들은 복셀 기반 가우시안 스플래팅(Voxel-based Gaussian Splatting, VoxGS)이라는 새로운 볼륨 표현 방식으로 디코딩되어, 효율적인 CT 볼륨 추출과 미분 가능한 X선 렌더링(differentiable X-ray rendering)을 가능하게 합니다. 이러한 고용량 모델과 유연한 볼륨 표현의 결합은 도메인 내(in-domain) 및 도메인 외(out-domain) X선 투영을 포함한 다양한 테스트 입력 환경에서 고품질의 재구성을 생성할 수 있도록 모델의 성능을 극대화합니다.

 

1. 한줄 요약 & 3줄 핵심 (Executive Summary)

X-GRM은 대규모 트랜스포머 아키텍처와 3D 가우시안 스플래팅 기술을 결합하여, 단 몇 장의 2D X선 사진만으로도 1초 이내에 정밀한 3D CT 볼륨을 복원해내는 의료 영상 파운데이션 모델입니다.

  1. 기존의 문제점 (Pain point): 기존의 희소 뷰(Sparse-view) CT 복원 방식 중 최적화 기반 모델은 환자 한 명당 수 분에서 수 시간이 소요되어 실시간 임상 적용이 불가능했고, 피드포워드 기반 모델은 렌더링 제약을 반영할 수 없는 경직된 복셀 구조와 제한된 신경망 용량으로 인해 복원 화질이 현저히 떨어졌습니다.
  2. 이 논문의 해결책 (Solution): 대규모 데이터로 학습된 뷰 간(cross-view) 어텐션 기반의 트랜스포머 아키텍처를 도입하고, 미분 가능한 렌더링이 가능하도록 복셀의 중심에 3D 가우시안을 고정하는 '복셀 기반 가우시안 스플래팅(VoxGS)' 표현법을 새롭게 고안하여 적용했습니다.
  3. 달성한 성과 (Key Result): 15,000여 개의 대규모 통합 CT 데이터셋(ReconX-15K)을 통해 학습된 X-GRM은 기존 최고 성능 모델 대비 복원 품질(PSNR)을 3.5dB 이상 향상시켰으며, 한 케이스당 0.9초라는 압도적인 추론 속도를 달성하여 실시간 고품질 CT 복원의 임상적 활용 가능성을 입증했습니다.

 

2. 들어가며: 왜 이 연구가 필요했나? (The "Why")

의료 현장에서 컴퓨터 단층 촬영(CT)은 질병 진단, 수술 전 치료 계획 수립, 그리고 수술 중 내비게이션에 있어 핵심적인 역할을 수행합니다. 전통적인 의료 영상 기기들은 X선 튜브가 환자의 신체 주위를 360도 회전하면서 수백 장 이상의 고밀도 2D X선 투영(projection) 데이터를 획득합니다. 이렇게 얻어진 데이터는 해석적 재구성 방식인 FBP(Filtered Back Projection)나 FDK 알고리즘을 통해 우리가 보는 3D 단면 이미지로 변환됩니다. 그러나 이러한 전통적 방식은 치명적인 단점을 지니고 있습니다. 진단에 적합한 고품질 이미지를 얻기 위해서는 필연적으로 수백 번의 X선 조사가 필요하며, 이는 환자를 과도한 방사선에 노출시킵니다. 특히 소아 환자나 주기적인 추적 검사가 필요한 암 환자의 경우 방사선 피폭에 따른 2차 발암 위험이 존재하므로, 의료계에서는 방사선 노출을 합리적으로 달성 가능한 가장 낮은 수준으로 유지해야 한다는 ALARA(As Low As Reasonably Achievable) 원칙을 엄격하게 강조하고 있습니다.

 

이러한 방사선 피폭 문제를 해결하기 위해 등장한 개념이 바로 '희소 뷰 CT 복원(Sparse-view CT Reconstruction)'입니다. 수백 장이 아닌 단 6장, 8장, 혹은 10장 수준의 극소수 X선 투영 이미지만을 사용하여 전체 3D 볼륨을 복원해내려는 시도입니다. 만약 이것이 가능하다면 환자의 방사선 피폭량을 획기적으로 줄일 수 있을 뿐만 아니라, 수술실에서 사용하는 모바일 C-arm 기기처럼 물리적으로 360도 회전이 불가능하거나 촬영 속도가 느린 장비에서도 실시간 3D 영상을 얻을 수 있게 됩니다. 그러나 투영 데이터의 수가 기하급수적으로 줄어들면, 역문제(Inverse problem)를 푸는 과정에서 정보의 결핍으로 인해 심각한 스트리크 아티팩트(streak artifact, 방사형으로 퍼지는 노이즈 선)와 구조적 왜곡이 발생하게 됩니다.

 

초기에는 이러한 정보의 공백을 메우기 위해 반복적 재구성 기법(Iterative Reconstruction)이나 압축 센싱(Compressed Sensing) 기법이 사용되었으나 성능에 한계가 있었습니다. 이후 딥러닝 시대가 도래하면서 인공지능을 활용한 접근법들이 크게 두 가지 갈래로 나뉘어 연구되었습니다.

 

첫 번째 갈래는 최적화 기반(Optimization-based) 신경망 모델입니다. 최근 컴퓨터 비전 분야에서 혁신을 일으킨 NeRF(Neural Radiance Fields)나 3D 가우시안 스플래팅(3DGS)을 CT 복원에 적용한 연구들(예: NAF, SAX-NeRF, $R^2$-Gaussian)이 이에 해당합니다. 이 방식은 환자의 2D X선 이미지를 기반으로 3D 공간의 신경망을 수천 번 반복 학습시켜 최적의 구조를 찾아냅니다. 복원된 화질은 매우 우수하지만, 새로운 환자의 데이터가 들어올 때마다 모델을 처음부터 다시 최적화해야 하므로 한 케이스를 복원하는 데 짧게는 몇 분에서 길게는 수 시간이 소요됩니다. 분초를 다투는 응급 상황이나 수술 중 실시간 모니터링이 필요한 임상 현장에서는 사실상 사용이 불가능한 방식입니다.

 

두 번째 갈래는 회귀 기반(Regression-based) 또는 피드포워드(Feedforward) 모델입니다. 입력 데이터가 인공지능 네트워크를 한 번 통과(Forward)하기만 하면 즉시 결과가 도출되는 방식입니다. 1초 내외의 매우 빠른 속도로 결과를 얻을 수 있다는 강력한 장점이 있어 주목받았습니다. 하지만 기존의 피드포워드 모델들(예: FreeSeed, DIF-Net 등)은 주로 합성곱 신경망(CNN)을 사용했습니다. CNN은 태생적으로 이미지의 국소적인 영역(Local receptive field)만을 집중적으로 분석하므로, 인체의 앞면과 측면에서 촬영된 여러 뷰(view) 사이의 거시적인 3D 공간 관계를 파악하는 능력이 부족했습니다. 더 나아가, 이 모델들은 최종 결과를 이산적인 3D 복셀(Discrete 3D Voxel) 형태로 출력했습니다. 3D 복셀은 컴퓨터 그래픽스 관점에서 미분 가능한 렌더링(Differentiable rendering)을 원활하게 지원하지 않습니다. 즉, 인공지능이 생성한 3D 모델에 가상의 X선을 투과시켜 다시 2D 이미지를 만들어보는 물리적 시뮬레이션 과정의 오차를 학습에 직접 반영(역전파)하기가 매우 까다로워 복원 화질이 낮을 수밖에 없었습니다.

 

연구진은 이러한 배경 속에서 깊은 딜레마에 빠졌습니다. "어떻게 하면 피드포워드 모델의 1초 이내 빠른 속도를 유지하면서도, 물리적인 X선 렌더링 제약을 학습 과정에 자연스럽게 통합하여 최적화 기반 모델 수준의 정밀한 화질을 달성할 수 있을까?" 이것이 바로 본 연구가 시작된 출발점이며, 연구진은 대규모 트랜스포머 아키텍처와 새로운 3D 가우시안 표현법을 융합하는 것으로 그 해답을 찾고자 했습니다.

 

3. 이 논문의 뿌리 (Key Reference)

X-GRM 모델은 컴퓨터 비전과 의료 영상 처리 분야의 기념비적인 패러다임들을 비판적으로 계승하고 조합하여 탄생했습니다. 이 모델을 이해하기 위해 반드시 짚고 넘어가야 할 세 가지 핵심 뿌리가 있습니다.

 

1. Vision Transformer (ViT) 및 DINO (2021-2022): 국소적 CNN을 넘어 전역적 이해로 X-GRM은 기존 모델들이 애용하던 CNN 아키텍처를 과감히 버리고, 트랜스포머(Transformer) 구조를 전면 도입했습니다. 자연어 처리 분야를 평정한 트랜스포머는 이미지 처리에서도 그 진가를 발휘합니다. CNN은 이미지를 작은 픽셀 단위로 훑어보며 형태를 파악하지만, ViT(Vision Transformer)는 이미지를 여러 개의 패치(Patch) 토큰으로 나눈 뒤 셀프 어텐션(Self-attention) 메커니즘을 통해 이미지 내의 모든 패치들이 서로 어떻게 연관되어 있는지를 전역적으로 계산합니다. X-GRM은 DINO 프로젝트에서 사전 학습된 ViT 구조를 기반으로 삼아, 여러 각도에서 촬영된 희소 뷰 X선 이미지들 간의 복잡한 3D 기하학적 상관관계를 완벽하게 파악하는 인코더와 퓨전 네트워크를 구축했습니다.

 

2. 3D Gaussian Splatting (2023): 빠르고 명시적인 3D 렌더링 혁명 2020년 NeRF의 등장 이후 3D 영상 복원 분야는 신경망 안에 공간의 빛과 밀도를 압축해 저장하는 암시적(Implicit) 표현법이 주류를 이루었습니다. 하지만 NeRF는 렌더링 속도가 너무 느리다는 단점이 있었습니다. 2023년에 등장한 3D 가우시안 스플래팅(3DGS)은 공간상에 반투명한 타원체(가우시안) 수십만 개를 명시적(Explicit)으로 흩뿌려 놓고 이들을 2D 화면에 빠르게 투영(Splatting)하는 래스터화(Rasterization) 기법을 제안했습니다. 이 방식은 실시간 렌더링이 가능할 뿐만 아니라 계산 과정이 모두 미분 가능하여 신경망 학습에 매우 유리했습니다. 하지만 일반적인 3DGS는 빈 공간에 자유롭게 가우시안 타원체들이 배치되는 구조이므로, 고정된 해상도의 정형화된 격자(Grid)가 필요한 의료용 CT 볼륨으로 변환할 때 치명적인 단점이 존재했습니다. X-GRM은 3DGS의 '미분 가능한 래스터화'라는 핵심 장점만 차용하고, 자유분방한 가우시안의 배치를 격자에 고정하는 방식으로 단점을 극복했습니다.

 

3. X-LRM (2025) 및 DeepSparse (2025): 대규모 의료 파운데이션 모델의 태동 X-GRM과 거의 동시대에 발표된 이 두 논문은 의료 영상 분야에서 소규모 데이터 학습의 한계를 깨고, 방대한 데이터셋으로 훈련된 파운데이션 모델(Foundation model)의 가능성을 처음으로 열었습니다. 이들은 대규모 트랜스포머를 사용하여 이전에 본 적 없는 새로운 데이터(OOD)에 대해서도 강력한 일반화 성능을 보여주었습니다. 하지만 X-LRM은 3D 공간을 세 개의 2D 평면으로 압축하는 삼중 평면(Tri-plane) 기반의 암시적 신경망을 사용했고, DeepSparse는 벡터 양자화(VQ) 기반의 이산 3D 복셀 구조를 사용했습니다. 두 방식 모두 3D 구조를 정교하게 렌더링하여 X선 투과 시뮬레이션을 수행하고 이를 학습에 반영하는 '미분 가능한 X선 렌더링'을 지원하지 못한다는 한계가 있었습니다. X-GRM은 이들의 대규모 모델링 및 트랜스포머 아키텍처라는 거시적 뼈대는 가져오되, 최종 3D 볼륨 표현 방식을 앞서 언급한 수정된 가우시안 기법으로 교체함으로써 결정적인 성능 차이를 만들어냈습니다.

 

4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)

X-GRM이 기존 연구들과 차별화되는 가장 획기적인 아이디어는 '복셀 기반 가우시안 스플래팅(VoxGS, Voxel-based Gaussian Splatting)'이라는 새로운 3D 표현법의 발명입니다.

 

이 개념을 쉽게 이해하기 위해 3D 인체 모형을 만드는 두 가지 방식을 비교해 보겠습니다.

 

첫 번째 방식은 전통적인 이산 복셀(Discrete Voxel) 방식입니다. 이는 마치 수만 개의 정육면체 '레고 블록'을 차곡차곡 쌓아 인체를 조립하는 것과 같습니다. 각 레고 블록은 인체의 밀도(투명도) 값을 하나씩 가지고 있습니다. 단단히 고정되어 있어서 단면 이미지를 잘라 보기는 쉽지만, 빛(X선)이 수많은 레고 블록을 대각선으로 관통할 때 발생하는 복잡한 감쇠 과정을 매끄러운 수학적 미분 방정식으로 역추적하여 학습하기가 매우 까다롭습니다.

 

두 번째 방식은 일반적인 3D 가우시안 스플래팅(3DGS) 방식입니다. 이는 공중에 크기와 방향이 자유자재로 변하는 반투명한 '물풍선' 수십만 개를 띄워놓는 것과 같습니다. 빛이 물풍선들을 통과하는 과정은 수학적으로 계산하기 매우 부드럽고 렌더링 속도도 빠릅니다. 하지만 물풍선들이 공간상에 불규칙하게 떠다니기 때문에, 최종적으로 의사가 진단을 위해 확인해야 하는 정교한 '바둑판 격자 형태의 3D CT 단면(Slice)'을 추출하려면 물풍선들의 값을 다시 억지로 바둑판 모양으로 욱여넣는 보간(Interpolation) 연산을 거쳐야 합니다. 이 과정에서 뼈의 날카로운 경계가 뭉개지거나, 허공에 떠 있는 가우시안들로 인해 부동 아티팩트(Floating artifacts)라는 노이즈가 발생합니다.

 

여기서 연구진의 "Aha!" 모멘트가 빛을 발합니다.

"레고 블록의 안정성과 물풍선의 빠르고 부드러운 렌더링 장점을 동시에 취할 수는 없을까?"

 

이에 대한 해답으로 연구진은 레고 블록(복셀)의 정중앙에 물풍선(가우시안)을 단단히 묶어두는 발상의 전환을 수행했습니다. 수학적으로 말하자면, 각 가우시안 타원체의 중심 위치($\mu_i$)를 3D 격자의 각 정중앙 좌표 공간에 영구적으로 고정($\mu_i = (x, y, z)$) 시켜버린 것입니다. 네트워크는 더 이상 가우시안이 공간 어디에 위치해야 할지를 고민할 필요가 없습니다. 오직 정해진 위치에서 가우시안의 크기(Scale, $s_i$), 회전(Rotation, $r_i$), 그리고 가장 중요한 불투명도(Opacity, $\alpha_i$)만을 예측하면 됩니다.

 

이러한 발상의 전환은 두 가지 엄청난 이점을 가져왔습니다.

  1. 복잡한 연산 없는 초고속 볼륨 추출: CT 단면 이미지를 얻고 싶을 때, 복잡한 보간 연산을 수행할 필요 없이 고정된 위치에 있는 가우시안의 불투명도($\alpha_i$) 값만 그대로 인덱싱(Indexing)하여 3D 행렬로 옮겨 담으면 완벽한 CT 볼륨이 즉시 완성됩니다.
  2. 물리적 제약의 직접 학습: 모델을 학습할 때는 가우시안 특유의 빠르고 미분 가능한 래스터화 엔진을 이용해, 생성된 3D 모델에 가상의 X선을 투과시키는 시뮬레이션을 즉각적으로 수행할 수 있습니다. 생성된 가짜 2D X선이 실제 입력된 2D X선 사진과 얼마나 일치하는지(Data consistency)를 손실 함수로 즉시 계산하여 네트워크의 가중치를 수정할 수 있게 된 것입니다.

더불어, 한 가지 훌륭한 최적화가 추가되었습니다. 일반적인 3DGS는 보는 각도에 따라 색상이 달라지는 뷰 의존적 색상(View-dependent color)을 표현하기 위해 구면 조화 함수(Spherical Harmonics, SH)라는 복잡한 파라미터를 사용합니다. 하지만 방사선 물리학의 관점에서 X선은 인체를 통과하며 그저 물질의 등방성(Isotropic) 밀도에 따라 감쇠될 뿐, 바라보는 각도에 따라 뼈의 밀도나 색이 변하지 않습니다. 연구진은 이 불필요한 색상 파라미터를 과감히 제거함으로써 메모리 부담을 획기적으로 줄이고 네트워크의 안정성을 극대화했습니다.

 

5. 작동 원리: 어떻게 돌아가는가? (The "How")

X-GRM 아키텍처에 환자의 2D X선 데이터가 입력되어 최종적으로 정밀한 3D CT 볼륨이 출력되기까지의 데이터 흐름(Flow)은 다음과 같이 체계적이고 직관적인 단계로 진행됩니다. 복잡한 수식을 배제하고 데이터가 여행하는 과정을 따라가 보겠습니다.

 

전체 시스템은 크게 'X-ray Reconstruction Transformer'라는 거대한 정보 압축기(인코더)와, 'VoxGS 디코딩 및 렌더링'이라는 복원 및 검증 과정으로 나뉩니다.

 

Step 1: 독립적인 투영 이미지 토큰화 (Encoder ViT) 먼저 환자의 주위를 특정 각도만큼 돌며 촬영한 K개(예: 6장, 8장, 10장)의 2D X선 투영 이미지($I_i$)가 모델에 입력됩니다. 각 이미지는 사전 학습된 트랜스포머 인코더(DINO의 가중치를 활용한 ViT-B/16 모델)를 통과합니다. 이때 이미지는 $16 \times 16$ 크기의 작은 퍼즐 조각(Patch)들로 잘게 쪼개어지고, 각각의 조각들은 고차원 특징 토큰(Feature tokens, $H_i$)으로 변환됩니다. 이 과정은 여러 장의 이미지에 대해 독립적이고 병렬적으로 수행되어 처리 시간을 크게 단축합니다.

 

Step 2: 카메라 기하학 정보 주입 (Camera Pose Integration) 단순히 2D 이미지의 시각적 특징만으로는 이 사진이 환자의 정면에서 찍힌 것인지 측면에서 찍힌 것인지, 즉 3D 공간상의 위치를 알 수 없습니다. 따라서 각 X선이 촬영된 카메라의 위치와 빛이 뻗어 나가는 방향 정보를 토큰에 알려주어야 합니다. X-GRM은 기존 모델들이 주로 쓰던 복잡한 행렬 곱셈 대신, 기점과 방향의 외적(Cross product)으로 정의되는 '플뤼커 광선(Plücker ray)' 형태의 임베딩을 사용합니다. 이 기하학적 임베딩 정보는 적응형 레이어 정규화 기법인 ModLN(Modulated Layer Normalization)을 통해 앞서 만든 2D 특징 토큰들에 섬세하게 스며들게 됩니다. 이는 단순히 정보를 더하는 것(Dense add)보다 네트워크가 공간 기하학을 훨씬 정밀하게 인식하도록 돕습니다.

 

Step 3: 다중 뷰 정보 전역 융합 (Fusion ViT) 이 단계가 모델의 핵심 두뇌 역할을 합니다. 카메라 정보가 담긴 모든 뷰의 토큰들을 하나의 거대한 시퀀스로 길게 연결한 뒤, 12개의 레이어로 구성된 퓨전 트랜스포머(Fusion ViT)에 통과시킵니다. 여기서 토큰들은 자기 주의 집중(All-to-all Self-Attention) 메커니즘을 통해 서로 활발하게 정보를 교환합니다. 예를 들어, 0도에서 촬영된 갈비뼈의 앞면 정보를 담은 토큰과 90도에서 촬영된 측면 정보를 담은 토큰이 서로를 참조(Attention)하여 결합함으로써, 3D 공간상에 뼈가 어떻게 입체적으로 놓여 있는지를 완벽하게 맥락적으로 파악하게 됩니다.

 

Step 4: VoxGS 속성 디코딩 및 볼륨 추출 (Decoding & Volume Extraction) 이제 사전에 정의된 3D 격자의 각 복셀 중심 위치($\mu_i$)마다 가우시안을 하나씩 올려놓고 살을 붙일 차례입니다. 각 복셀 위치에 대해, 해당 위치를 지나는 2D 이미지 평면의 특징들을 앞서 융합된 토큰들로부터 투영 행렬을 이용해 쿼리(Query)해 옵니다. 이미지 픽셀 사이의 값은 이선형 보간(Bilinear interpolation)으로 부드럽게 채웁니다. 여러 뷰에서 가져온 특징 정보들은 가장 두드러진 특징만 골라내는 최대 풀링(MaxPooling) 레이어를 거친 후, 다층 퍼셉트론(MLP) 네트워크를 통과합니다. 그 결과, 각 3D 복셀 위치에 존재하는 가우시안의 불투명도($\alpha$), 크기($s$), 회전($r$) 값이 최종적으로 예측됩니다. 최종 3D CT 볼륨 밀도 필드($V$)를 얻고 싶다면, 복잡한 연산 없이 이 가우시안들의 불투명도($\alpha_i$) 값들만 그대로 3D 행렬 구조로 인덱싱하여 가져오면 됩니다.

 

Step 5: 미분 가능한 물리적 렌더링 (Differentiable Rasterization) 생성된 3D 볼륨이 정확한지 검증하기 위해, 예측된 가우시안 파라미터들을 물리적 래스터화(Rasterizer) 엔진에 통과시켜 가상의 X선을 투과시킵니다. 이를 통해 인공적인 2D X선 투영 이미지를 렌더링합니다. 이 렌더링 과정은 모델 학습(Training) 중에 역전파(Backpropagation)를 통해 오차를 수정하는 핵심적인 역할을 수행합니다.

 

6. 작동 원리: 어떻게 학습하는가? (The "How")

대규모 파운데이션 모델이 다양한 인체 부위의 풍부한 기하학적 특징을 일반화하여 학습하기 위해서는 막대한 양의 고품질 데이터가 필수적입니다. X-GRM 연구진은 기존의 소규모 단일 장기 벤치마크를 탈피하여, 의료 영상 분야에서 이례적으로 거대한 통합 데이터셋인 'ReconX-15K'를 직접 구축하여 학습을 진행했습니다.

 

1. 입력 데이터 (Input Data):

학습을 위해서는 환자의 실제 3D CT 볼륨 원본(Ground Truth)과 이를 바탕으로 시뮬레이션된 2D X선 투영 이미지 쌍(Pair)이 대량으로 필요합니다.

  • 수량 및 종류: 연구진은 AbdomenAtlas v1.0(복부, 흉부, 골반), RSNA2023(복부, 골반), LUNA16(흉부), AMOS(복부), MELA(흉부), RibFrac(복부, 흉부), ToothFairy2(치아), STSTooth(치아) 등 가장 임상 활용도가 높은 8개의 공개 데이터셋을 모두 긁어모아 총 14,972개의 환자 CT 볼륨을 수집했습니다. 이 중 무려 13,612개의 데이터가 신경망 학습에 투입되었습니다. 다양한 신체 부위를 하나의 모델로 동시에 학습시키는 것은 일반화 능력을 극대화하기 위한 파운데이션 모델의 전형적인 접근법입니다.
  • 포맷 및 전처리: 서로 다른 장비에서 촬영된 원본 CT 데이터들을 일관되게 학습시키기 위해 흉부, 복부, 골반 볼륨은 $50^3 \text{ cm}^3$ 크기로, 치아 데이터는 $40^3 \text{ cm}^3$ 크기로 샘플링한 후 모두 $256 \times 256 \times 256$ 크기의 3D 복셀 해상도로 정규화했습니다. 또한, 방사선 투과율을 나타내는 하운스필드 유닛(Hounsfield Units, HU) 값은 노이즈를 제거하기 위해 특정 범위(흉부/복부: [-1000, 1000], 치아: [-1000, 3000])로 클리핑(Clipping)한 뒤, 신경망이 학습하기 쉬운 사이의 값으로 스케일링을 완료했습니다.
  • X선 투영 시뮬레이션 예시: 전처리된 CT 볼륨을 오픈소스 툴박스인 TIGRE를 사용해 컴퓨터 내부에서 360도 회전시키며 50장의 고해상도($256 \times 256$) 합성 2D X선 투영 이미지를 생성해 냅니다. 이때 실제 의료 현장의 물리적 노이즈(광자 산란 등)를 모사하기 위해 가우시안 및 포아송 노이즈(Poisson noise)를 인위적으로 주입하여 데이터의 현실성을 높였습니다.
  • 학습 전략: 한 번 학습할 때 50장을 모두 보여주지 않고, 무작위로 6장, 8장, 10장의 희소 뷰만 추출하여 네트워크의 입력 데이터로 사용합니다. 모델이 극한의 정보 부족 상황에서도 볼륨을 추론해 내도록 가혹한 훈련을 시키는 것입니다.

2. 출력 데이터 및 손실 함수 (Output & Loss):

  • 출력 데이터: 네트워크는 3D CT 볼륨(밀도값을 가지는 $256^3$ 크기의 텐서)과, 학습 과정에서 미분 렌더링을 통해 투영된 여러 장의 가상 2D X선 이미지를 동시에 출력합니다.
  • 손실 계산(Loss): 모델은 두 가지 정답지를 채점받습니다. 첫째는 예측된 3D CT 볼륨이 병원에서 찍은 실제 정답(Ground Truth) CT 볼륨과 얼마나 똑같은지를 픽셀 단위로 비교하는 볼륨 제약(Volume constraints, MSE Loss)입니다. 둘째는, 복셀에 고정된 가우시안으로부터 렌더링 된 2D X선 이미지가 실제 입력으로 들어왔던 2D X선 이미지와 얼마나 시각적으로 동일한지를 구조적 유사도와 밝기로 측정하는 렌더링 제약(Rendering constraints, L1 + SSIM Loss)입니다.
  • 메모리 최적화 기법: $256^3$이라는 거대한 3D 볼륨 전체에 대해 렌더링 손실을 계산하며 역전파 기울기(Gradient)를 저장하려면 GPU 메모리(VRAM)가 폭발하게 됩니다. 연구진은 이를 방지하기 위해 학습 시에는 전체 볼륨에서 가로, 세로, 높이를 1/4로 줄인 서브 볼륨(Sub-volumes, 즉 $64^3$ 크기) 패치 단위로 무작위 샘플링하여 렌더링 손실을 계산하는 최적화 프로토콜을 적용했습니다.

 

7. 결과: 얼마나 좋아졌나? (Results)

X-GRM은 대규모 파운데이션 학습과 물리적 렌더링 제약의 통합을 통해 기존의 전통적 방식, 피드포워드 방식, 최적화 방식 모두를 성능과 속도 면에서 압도하며 명실상부한 SOTA(State-of-the-art)를 달성했습니다.

 

압도적인 추론 속도와 복원 품질의 동시 달성

모델 평가(동일한 10-view 입력 기준)에서, 기존 최고 성능을 자랑하던 2D 피드포워드 모델인 FreeSeed와 3D 피드포워드 모델인 DIF-Gaussian과 비교했을 때, X-GRM은 PSNR(최대 신호 대 잡음비)을 각각 3.78dB, 3.63dB나 비약적으로 향상시켰습니다 (PSNR 29.21dB 달성). 구조의 선명도를 나타내는 SSIM(구조적 유사도) 지표 역시 0.886으로 타 모델들을 월등히 앞섰습니다. 정성적 이미지 결과를 보더라도 기존 피드포워드 모델들이 뼈의 윤곽선이나 미세 조직을 뭉개버리며 지나치게 부드럽게(Over-smooth) 만들어 버렸던 반면, X-GRM은 해부학적 미세 구조의 무결성을 완벽에 가깝게 보존해 냈습니다.


모델 / 방법론 유형  6-View  PSNR 10-View PSNR 한 케이스당 추론 속도
SART 전통적 최적화 (해석 기반) 21.89 dB 23.66 dB 21.0초
FreeSeed 2D 피드포워드 (CNN) 24.67 dB 25.43 dB 0.5초
DIF-Gaussian 3D 피드포워드 24.83 dB 25.58 dB 2.1초
$R^2$-Gaussian 모델-기반 최적화 (3DGS) 22.90 dB 25.33 dB 8.5분 (510초)
X-GRM (Ours) 대규모 트랜스포머 + VoxGS 28.39 dB 29.21 dB 0.9초

무엇보다 놀라운 점은 실행 속도입니다. NAF나 SAX-NeRF, $R^2$-Gaussian과 같은 기존의 최적화 기반 모델들이 고품질 화질을 얻기 위해 환자 한 명당 각각 3분, 48분, 8.5분의 긴 시간을 소모하는 반면, X-GRM은 단 0.9초 만에 전체 3D 복원을 완료합니다. 이는 기존 최적화 방식 대비 수백 배의 속도 향상을 이루어 낸 것으로, 수술 중 실시간 모니터링이 가능해진다는 것을 의미합니다.

 

도메인 외(Out-of-Distribution) 일반화 능력 증명

기존 소규모 CNN 모델들이 지녔던 가장 치명적인 약점은 훈련받지 않은 장비에서 촬영되거나, 학습에 포함되지 않은 다른 신체 부위를 테스트할 때 성능이 급격히 무너진다는 것이었습니다. 그러나 방대한 데이터로 단련된 대규모 트랜스포머 아키텍처로 무장한 X-GRM은 학습에 전혀 사용되지 않은 완전한 외부 데이터셋인 FUMPE(흉부)와 PENGWIN(골반) 환경에서도 타 피드포워드 모델들보다 1.5~2.5dB 이상 높은 PSNR을 기록하며 강력한 OOD 일반화 성능을 증명했습니다.

 

어블레이션 스터디 (Ablation Study)

핵심 아이디어의 유효성을 검증하기 위해 부품을 하나씩 빼보는 실험도 흥미롭습니다. X-GRM에서 카메라 기하학 정보(Pose)를 빼면 0.28dB의 성능 하락이 발생했습니다. 퓨전 네트워크의 셀프 어텐션(Cross-view aggregation)을 빼면 0.52dB가 하락했습니다. 가장 중요한 결과는 볼륨 표현을 VoxGS에서 일반 3D 복셀로 교체했을 때(w/o VoxGS) 0.55dB가 하락했으며, 가우시안의 위치를 복셀 중심에 고정하지 않고 좌표를 이동(Shift)시키도록 예측하게 만들었을 때 무려 2.37dB나 성능이 폭락했다는 점입니다. 이는 위치를 복셀 중심에 단단히 고정하는 역발상이 얼마나 최적화를 안정시키고 복원 오차를 줄였는지 명확히 보여주는 증거입니다.

 

솔직한 한계점과 실패 케이스 (Limitations)

저자들은 솔직하게 논문의 한계점도 명시하여 신뢰도를 높였습니다. 복셀 공간 구조마다 고정된 3D 가우시안을 사용하는 VoxGS의 특성상, 출력할 3D 볼륨의 해상도가 커지면($256^3$ 등) 활용되는 가우시안의 총 개수도 비례하여 증가하므로 추론 및 렌더링 시 막대한 GPU 메모리(VRAM)를 소비하게 됩니다. 또한, 입력되는 X선 뷰의 개수가 6장을 넘어 단 1장이나 2장처럼 극단적으로 부족해질 경우, 전역적 어텐션 메커니즘을 십분 활용하더라도 심도(Depth) 정보를 완벽히 추론하기 어려워 성능이 기대치에 미치지 못하는 한계가 발견되었습니다. 향후 가우시안의 개수를 줄이는 가지치기(Pruning) 기법이나 환각을 제어할 생성형 사전 지식(Generative prior)의 도입이 필요함을 시사합니다.

 

8. 이 논문의 계보와 발전 (Impact & Follow-ups)

X-GRM은 단순히 성능을 소폭 개선한 하나의 논문을 넘어, 2025~2026년 의료 영상 복원 분야의 거대한 패러다임 전환(Paradigm shift)을 상징하는 이정표적인 연구입니다. 이 논문을 기점으로 의료 영상 커뮤니티는 대규모 파운데이션 모델(Foundation Models)과 빠르고 명시적인 3D 가우시안 스플래팅(3DGS)의 실질적인 융합 단계로 접어들었습니다. 독자 여러분이 후속으로 찾아볼 만한 최신 연구 트렌드와 파생 모델들은 다음과 같습니다.

  • CT 복원을 위한 대규모 파운데이션 모델 생태계의 태동: X-GRM과 거의 동시대에 발표된 X-LRM (2025)DeepSparse (2025)는 트랜스포머와 방대한 임상 데이터를 바탕으로 한 CT 파운데이션 모델의 서막을 올렸습니다. X-LRM은 삼중 평면(Tri-plane) 구조를, DeepSparse는 벡터 양자화(Vector Quantization) 코드를 활용하여 일반화 성능을 높였습니다. 최근에는 이러한 트랜스포머 아키텍처에 조건부 디퓨전(Conditional Diffusion) 생성 방식을 결합하여, 이전에 본 적 없는 희소 뷰 환경(OOD)에서도 확률적 표본 추출을 통해 정밀한 해부학적 세부 묘사를 이끌어내는 모델(예: CDPIR, DiffusionBlend, 2025-2026)로 진화하고 있습니다.
  • 의료 환경에 최적화된 이산/고정 가우시안(Discretized Gaussians) 모델의 발전: 일반적인 3DGS가 가진 연속적인 좌표 체계와, 허공에 떠다니는 가우시안들이 만들어내는 부동 아티팩트를 억제하려는 시도 역시 폭발적으로 증가하고 있습니다. ICCV 2025에 발표된 DGR (Discretized Gaussian Representation)이나 FaCT-GS (2026) 논문은 X-GRM의 VoxGS 아이디어와 궤를 같이합니다. 이 연구들은 가우시안의 기여도를 국소적 영역의 이산적 그리드(Discrete grid)에 정렬시켜 계산 복잡도를 대폭 낮춤으로써, 병렬 처리 속도를 기존 3DGS 기반 CT 복원 대비 4배에서 13배까지 끌어올리는 극적인 혁신을 이루어 냈습니다.
  • 다양한 영상 모달리티와 산업용 장비로의 확장: X-GRM이 증명한 VoxGS와 피드포워드 아키텍처의 유효성은 단일 의료용 X선 장비에만 국한되지 않습니다. 최근에는 산업용 검사나 판상형 구조물 검사에 쓰여 X선 궤적이 제한적인 라미노그래피(Laminography) 장비의 고질적인 아티팩트를 제거하는 데 가우시안 스플래팅을 도입한 LamiGauss (2026) 연구가 발표되었습니다. 또한 혈관 조영술(DSA)처럼 조영제가 주입되고 확산되는 '시간의 흐름'까지 4차원으로 복원해 내는 4D Radiative Gaussian Splatting 연구들이 속속 등장하며 그 계보가 끊임없이 확장되는 추세입니다.

 

9. 마무리

본 분석에 따르면, X-GRM은 컴퓨터 비전 생태계를 뒤흔든 비전 트랜스포머(ViT)의 거시적 이해 능력과, 빠르고 물리적인 시뮬레이션이 가능한 3D 가우시안 스플래팅(3DGS)이라는 두 가지 최신 무기를 의료 영상 역문제(Inverse problem) 해결에 매우 영리하게 결합한 연구입니다. 특히 렌더링에 최적화된 가우시안 타원체들을 3D 볼륨의 기본 단위인 복셀(Voxel) 중심에 족쇄를 채워 고정해버린 'VoxGS'라는 발상의 전환은, 모델의 성능과 1초 이내의 빠른 추론 속도, 그리고 물리적 미분 가능성이라는 세 마리 토끼를 동시에 잡아낸 탁월한 공학적 성취로 평가됩니다.

 

이 논문이 임상 워크플로우에 끼칠 파급력은 지대합니다. 현재 수술실에서 수술 중 실시간으로 환자의 뼈나 혈관 위치를 확인하기 위해 사용하는 모바일 C-arm 기기의 경우, 공간적 제약으로 엑스레이 튜브의 회전 속도가 느려 환자의 호흡이나 미세한 움직임에 의해 영상이 심하게 흔들리는 모션 아티팩트(Motion artifact)가 가장 큰 걸림돌이었습니다. X-GRM과 같은 모델이 상용화되어 단 6장~10장의 희소한 엑스레이 투영만으로 0.9초 이내에 선명한 3D 단층 영상을 재현해 낸다면, 촬영 시간을 획기적으로 단축시켜 모션 아티팩트를 원천적으로 차단하고, 환자의 방사선 피폭량 또한 기존의 1/10 이하 수준으로 획기적으로 줄일 수 있게 됩니다.

 

실무 도입 시 주의할 점 및 향후 과제

그러나 의료 AI 기술을 실제 상용화하기 위해 연구진과 의료 기기 엔지니어들이 경계하고 극복해야 할 실무적인 장벽 또한 분명히 존재합니다.

  1. GPU 메모리(VRAM) 의존성과 엣지 컴퓨팅의 한계: 본 논문에서 평가된 볼륨 해상도는 $256 \times 256 \times 256$으로 설정되어 있습니다. 이 해상도만 하더라도 3D 공간에 무려 1,670만 개 이상의 고정된 복셀 중심이 존재한다는 뜻입니다. 만약 실제 임상 진단에서 요구하는 $512^3$ 이상의 고해상도 CT 볼륨으로 스케일 업(Scale-up) 하려면, 복셀의 수가 기하급수적으로 늘어납니다. 복셀마다 가우시안 파라미터를 예측하고 저장하며 렌더링 연산을 수행해야 하므로, 다수의 고가 엔터프라이즈급 GPU(예: A100 40GB 다수) 장비가 필수적으로 요구됩니다. 이는 중소형 병원의 C-arm 기기에 내장된 로컬 엣지(Edge) 디바이스에서 실시간으로 구동하기에는 막대한 비용과 발열 문제를 수반할 수 있습니다.
  2. 평가 지표의 맹점과 의학적 환각(Hallucination) 리스크: 6~10장 수준의 극단적 희소 뷰 환경에서는 정보가 절대적으로 부족합니다. 모델이 데이터를 완벽히 '물리적으로 역산'한다기보다는, 트랜스포머가 그간 수만 명의 환자 데이터(ReconX-15K)를 학습하며 얻은 강력한 사전 지식(Prior)을 활용해 그럴듯한 해부학적 구조를 '생성(Generation)'하여 빈 공간을 메우는 것에 가깝습니다. 따라서 PSNR이나 SSIM 같은 전반적인 픽셀 오차 지표는 매우 높게 나올 수 있으나, 임상적으로 환자의 생사를 가르는 결정적인 미세 병변(작은 암 결절, 미세 골절 등)이 노이즈로 취급되어 과도하게 평활화(Over-smoothing)되거나, 반대로 존재하지 않는 조직을 인공지능이 생성해 내는 환각 현상 리스크가 여전히 잔존합니다. 진단을 보조하는 데 있어 이 부분은 치명적이므로, 의사의 교차 검증 도구와 불확실성(Uncertainty)을 시각화해 주는 후속 연구가 병행되어야만 안전한 의료 행위가 보장될 것입니다.

결론적으로 X-GRM은 기존의 느리고 무거운 최적화 알고리즘들을 거대한 '피드포워드 생성 모델' 기반으로 완벽히 대체하려는 의료 영상 분야의 강력한 패러다임 변화를 증명했습니다. 향후 중요도가 낮은 배경 영역의 가우시안 개수를 획기적으로 줄이는 가지치기(Gaussian Pruning) 기법이나 SVO(Sparse Voxel Octree) 등의 자료 구조 최적화가 성공적으로 결합된다면, 딥러닝 기반의 초저선량 3D 진단과 수술용 AR/VR 실시간 내비게이션의 대중화를 앞당기는 가장 핵심적인 원동력이 될 것임이 틀림없습니다.

 

반응형