본문 바로가기

딥러닝

Cross-view Generalized Diffusion Model - 확산 모델은 어떻게 10번의 스텝만으로 의료 방사선 피폭의 한계를 극복했는가?

반응형


일러두기 (Disclaimer)

본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.

 

 

논문 링크 : https://arxiv.org/abs/2508.10313

 

Cross-view Generalized Diffusion Model for Sparse-view CT Reconstruction

Sparse-view computed tomography (CT) reduces radiation exposure by subsampling projection views, but conventional reconstruction methods produce severe streak artifacts with undersampled data. While deep-learning-based methods enable single-step artifact s

arxiv.org

 

 

초록 (Abstract)

희소 뷰 컴퓨터 단층촬영(Sparse-view CT)은 투영 뷰(Projection views)를 서브샘플링하여 환자의 방사선 노출을 크게 줄이는 기술입니다. 하지만 이 데이터를 기존의 복원 방법에 적용하면 심각한 줄무늬 아티팩트(Streak artifact)가 생성되는 문제가 발생합니다. 최근 도입된 딥러닝 기반 방법들은 단일 단계(Single-step) 연산만으로 이러한 아티팩트를 억제할 수 있게 해주었으나, 투영 데이터가 극도로 희소한 환경에서는 이미지가 과도하게 평활화(Over-smoothed)되어 세부적인 해부학적 구조가 소실되는 결과를 초래합니다.

이러한 한계를 극복하기 위해 도입된 확산 모델(Diffusion models)은 반복적인 개선 과정과 학습된 생성적 사전 지식(Generative priors)을 활용하여 복원 품질을 크게 향상시켰습니다. 하지만 기존의 확산 모델은 복원 과정에서 수백 번 이상의 샘플링 단계가 필요하여 연산 비용이 지나치게 높으며, 극도로 희소한 투영 데이터 환경에서는 모델의 안정성이 급격히 저하되는 구조적인 어려움을 겪습니다.

본 연구에서는 이러한 복합적인 문제들을 해결하기 위해 희소 뷰 CT 복원을 일반화된 확산 과정(Generalized diffusion process)으로 재구성한 교차 뷰 일반화 확산 모델(Cross-view Generalized Diffusion Model, CvG-Diff)을 제안합니다. 확률적인 가우시안 열화(Stochastic Gaussian degradation) 현상에 의존하는 기존의 확산 접근법과 달리, 제안하는 CvG-Diff 모델은 각도 서브샘플링으로 인해 발생하는 이미지 도메인 내의 아티팩트를 확정적 열화 연산자(Deterministic degradation operator)로 명시적으로 모델링합니다. 이를 통해 다양한 샘플링 속도를 가진 희소 뷰 CT 데이터 간의 상관관계를 효과적으로 활용할 수 있습니다.

나아가, 일반화된 확산 모델에 내재되어 있는 아티팩트 전파(Artifact propagation) 현상과 순차적 샘플링 과정의 비효율성을 극복하기 위해 두 가지 혁신적인 기법을 도입했습니다. 첫째, 훈련 과정에서 오류가 발생하기 쉬운 영역을 선제적으로 식별하고 단계 간 전파되는 아티팩트를 억제하는 에러 전파 억제 학습(Error-Propagating Composite Training, EPCT)입니다. 둘째, 세부적인 픽셀을 정제하기 전에 전반적인 해부학적 의미의 정확성(Semantic correctness)을 우선적으로 확보하는 적응형 전략인 의미 우선 이중 단계 샘플링(Semantic-Prioritized Dual-Phase Sampling, SPDPS)입니다.

이러한 혁신적 구성 요소들을 통합함으로써 CvG-Diff는 최소한의 반복 연산만으로도 고품질의 의료 영상 복원을 가능하게 합니다. 구체적으로 AAPM-LDCT 데이터셋을 활용한 실험에서 단 10번의 추론 스텝만으로 18-view CT 조건 하에 38.34 dB의 최대 신호 대 잡음비(PSNR)와 0.9518의 구조적 유사도(SSIM)를 달성했습니다. 광범위한 비교 실험 결과는 CvG-Diff가 기존의 최첨단 희소 뷰 CT 복원 방법들 대비 성능, 효율성, 안정성 측면에서 압도적인 우위를 점하고 있음을 실증합니다.

 

1. 한줄 요약 & 3줄 핵심 (Executive Summary)

CT 촬영 시 방사선 피폭량을 줄이기 위해 데이터를 적게 추출할 때 발생하는 특유의 줄무늬 노이즈를, 무작위 노이즈가 아닌 물리적 규칙을 가진 '확정적 훼손 과정'으로 정의하여, 단 10번의 연산 스텝만으로 임상 수준의 선명한 3D 의료 이미지를 복원해 내는 인공지능 모델입니다.

  1. 기존의 문제점 (Pain point): 방사선 노출을 줄이기 위해 CT 촬영 각도(View)를 줄이면 이미지에 심각한 줄무늬가 생깁니다. 이를 기존 딥러닝으로 지우면 종양 같은 세밀한 부위까지 뭉개지며, 최신 생성형 확산 모델(Diffusion Model)을 사용하면 복원 품질은 좋으나 수백 번의 반복 연산이 필요해 임상 현장에서 실시간으로 사용하기에는 너무 느리고 불안정합니다.
  2. 이 논문의 해결책 (Solution): 무작위 가우시안 노이즈를 더하고 빼는 기존 방식을 버리고, '촬영 각도가 줄어들며 발생하는 줄무늬 생성 과정' 자체를 물리적 함수로 모델링했습니다. 또한, 복원 중간 단계에서 오류가 눈덩이처럼 불어나는 것을 막는 방어적 학습법(EPCT)과, 해부학적 큰 뼈대부터 맞추고 세밀한 픽셀을 나중에 정제하는 똑똑한 샘플링 기법(SPDPS)을 도입했습니다.
  3. 달성한 성과 (Key Result): 기존 확산 모델이 1000번의 연산(약 264초)으로도 형체를 알아보기 힘든 이미지를 만들었던 극한의 희소 조건(18-view)에서, 단 10번의 연산(0.68초)만으로 38.34 dB라는 현존 최고 수준(SOTA)의 복원 성능과 구조적 정확도를 달성했습니다.

 

2. 들어가며: 왜 이 연구가 필요했나? (The "Why")

의료 진단 환경에서 X선 컴퓨터 단층촬영(CT)은 인체 내부의 뼈, 장기, 혈관 구조를 3차원으로 정밀하게 파악할 수 있게 해주는 대체 불가능한 진단 도구입니다. 원통형의 기기 내부에서 X선 발생 장치가 환자의 몸을 360도 회전하며 수많은 각도에서 X선을 투사하고, 반대편의 검출기가 이를 흡수하여 인체 조직의 밀도 차이를 데이터로 기록합니다. 이렇게 수집된 수많은 각도의 1차원 투영 데이터(Projection data)들이 모여 2차원 사이노그램(Sinogram)을 형성하고, 이를 수학적으로 역산하여 우리가 흔히 보는 3차원 단면 이미지를 만들어냅니다.

 

하지만 CT 촬영이 제공하는 막대한 의학적 이점의 이면에는 치명적인 부작용이 존재합니다. 바로 이온화 방사선(Ionizing radiation)에 대한 노출입니다. CT 스캔 중 인체에 흡수되는 방사선은 세포의 DNA를 손상시켜 장기적으로 암 발생 위험을 유의미하게 높이는 것으로 알려져 있습니다. 이러한 건강상의 위협 때문에 의료계에서는 '합리적으로 달성 가능한 가장 낮은 수준(As Low As Reasonably Achievable, ALARA)'으로 방사선량을 억제해야 한다는 원칙을 엄격하게 준수하고자 노력합니다. 진단에 필요한 선명한 이미지 품질을 완벽하게 유지하면서도 환자에게 조사되는 방사선량을 최소화하는 것은 지난 수십 년간 의료 영상 공학 분야가 직면한 가장 크고 어려운 과제였습니다.

 

방사선 피폭량을 근본적으로 줄이는 가장 직관적이고 효과적인 방법은 X선 발생 장치가 회전할 때 X선을 투사하는 횟수, 즉 '투영 뷰(Projection views)'의 개수를 대폭 줄이는 것입니다. 이를 희소 뷰 CT (Sparse-view CT)라고 부릅니다. 정상적인 CT가 360도를 돌며 1000장 이상의 투영 데이터를 찍는다면, 희소 뷰 CT는 이를 72장, 36장, 심지어 18장으로 줄여서 촬영합니다. 환자가 받는 방사선량은 투영 뷰의 개수에 비례하여 획기적으로 감소하지만, 영상 복원의 관점에서는 재앙에 가까운 문제가 발생합니다.

 

수학적으로 완전한 3차원 이미지를 복원하기 위해서는 충분히 조밀한 각도의 투영 데이터가 필요합니다. 투영 데이터가 듬성듬성 존재하는 희소 뷰 데이터를 병원에서 전통적으로 널리 사용하는 표준 알고리즘인 '여과 역투영(Filtered Back-Projection, FBP)' 방식에 적용하면, 정보가 비어있는 각도들로 인해 이미지 전반에 걸쳐 날카로운 선들이 교차하는 형태의 심각한 '줄무늬 아티팩트(Streak artifact)'가 발생하게 됩니다. 화면 전체에 쏟아지는 비처럼 보이는 이 줄무늬 노이즈들은 실제 인체의 미세한 병변이나 종양의 형태를 완전히 가려버려, 의사가 정확한 진단을 내리는 것을 불가능하게 만듭니다.

 

이러한 물리적 한계를 인공지능 알고리즘으로 극복하기 위해 연구자들은 수많은 시도를 해왔으며, 크게 세 세대에 걸쳐 기술이 진화해 왔습니다. 하지만 각 세대의 방식은 치명적인 단점들을 내포하고 있었습니다.

 

1세대: 반복적 재구성 (Iterative Reconstruction) 초기에는 인공지능 대신 총변동(Total Variation, TV)과 같은 수학적 정규화 기법을 사용하는 반복적 재구성 알고리즘이 도입되었습니다. 이 방식은 데이터의 빈 공간을 수학적 가정으로 채워 넣으며 아티팩트를 줄여나갔습니다. 하지만 연산 과정이 지나치게 복잡하여 이미지 한 장을 복원하는 데 수십 분이 걸리는 경우가 허다했고, 결과적으로 인체 장기 특유의 자연스러운 질감(Texture)이 찰흙처럼 뭉개지는 현상이 나타났습니다.

 

2세대: 단일 단계 딥러닝 (Single-step Deep Learning) 합성곱 신경망(CNN)의 발전과 함께 딥러닝 모델들이 CT 복원 분야를 장악하기 시작했습니다. 연구자들은 줄무늬가 가득한 훼손된 이미지와 고품질의 깨끗한 정답 이미지를 짝지어(Paired data) U-Net 구조의 신경망에 학습시켰습니다. 이 모델들은 이미지 도메인, 사이노그램 도메인, 또는 두 도메인을 동시에 오가며 매우 빠른 속도로 줄무늬 아티팩트를 억제하는 데 성공했습니다. 그러나 이 방식은 근본적인 한계를 지니고 있었습니다. 단일 신경망이 한 번의 순방향 연산(Feed-forward)만으로 빈 공간을 추론해야 하다 보니, 모델이 정답에 대한 확신이 서지 않는 영역의 픽셀 값들을 평균(Average) 내버리는 경향을 보인 것입니다. 그 결과, 줄무늬 노이즈는 지워졌지만 전체적인 이미지가 안개가 낀 것처럼 흐릿해지는 과도한 평활화(Over-smoothing) 문제가 나타났습니다. 뼈의 날카로운 윤곽선이나 미세한 혈관의 경계가 뭉개지는 현상은 의료 영상에서 오진을 유발할 수 있는 치명적인 약점입니다.

 

3세대: 표준 확산 모델 (Standard Diffusion Models) 최근 생성형 AI 분야에서 압도적인 이미지 생성 능력을 입증한 확산 모델(Diffusion Model)이 의료 영상 복원의 새로운 구원자로 등장했습니다. 기존의 딥러닝 모델이 단순히 노이즈를 '지우는' 역할만 했다면, 확산 모델은 방대한 정상 인체 데이터의 확률 분포를 미리 학습하여 빈 공간에 정상적인 해부학적 구조를 새롭게 '그려 넣는' 생성적 사전 지식(Generative priors)을 활용합니다. 이 방식은 기존 CNN 모델들이 뭉개버리던 미세한 조직의 질감과 경계선을 매우 사실적으로 살려냈습니다. 그러나 표준 확산 모델 역시 병원 환경에 즉각 도입하기에는 결정적인 걸림돌이 존재했습니다.

  1. 극악의 연산 속도: 확산 모델은 무작위 가우시안 노이즈(Gaussian noise)를 점진적으로 추가한 뒤, 이를 다시 수백에서 수천 단계에 걸쳐 미세하게 제거하는 마르코프 체인(Markov chain) 과정을 거칩니다. 수천 번의 신경망 연산을 반복해야 하므로, 단 한 장의 단면 이미지를 복원하는 데 수 분의 시간이 소요됩니다. 수백 장의 슬라이스를 처리해야 하는 3D CT 환경이나 즉각적인 판독이 필요한 응급 상황에서는 실용성이 전무합니다.
  2. 가우시안 노이즈 가정의 물리적 오류: 표준 확산 모델은 이미지의 훼손이 정규 분포를 따르는 무작위 가우시안 노이즈에 의해 발생한다고 가정합니다. 하지만 희소 뷰 CT의 줄무늬 아티팩트는 무작위 노이즈가 아니라, '특정 각도의 데이터 누락'이라는 명확한 기하학적, 물리적 원인에 의해 발생하는 확정적인(Deterministic) 패턴입니다. 물리적 원인이 다른 훼손을 가우시안 노이즈로 억지로 끼워 맞추어 해결하려다 보니 학습 과정이 비효율적일 수밖에 없습니다.
  3. 극한 희소 환경에서의 구조 왜곡 및 충실도 저하 (Low Fidelity): 투영 뷰가 18개 이하로 극단적으로 부족한 환경에서는 모델을 가이드할 원본 데이터의 정보량이 임계치 이하로 떨어집니다. 이때 기존 확산 모델은 정보가 누락된 빈 공간을 채우는 과정에서 재구성 에러를 크게 증폭시키는 경향이 있습니다. 그 결과, 시각적으로는 생생하고 그럴듯해 보이지만 실제 환자의 해부학적 구조와는 일치하지 않는 왜곡된 결과물(Low fidelity)을 생성할 위험이 커지며, 이는 정밀함이 생명인 의료 환경에서 치명적인 약점입니다.

이러한 배경 속에서 본 논문의 연구진들은 본질적인 의문을 제기합니다.

"의료 영상의 훼손은 무작위 가우시안 노이즈가 아니다. 그렇다면 확산 모델이 가진 강력한 생성 능력만을 취하되, 노이즈를 제거하는 방식이 아니라 '각도가 줄어들며 발생하는 줄무늬의 물리적 생성 과정' 자체를 직접 역산하는 방식으로 바꾼다면 어떨까? 훼손 과정의 인과관계가 명확해진다면 1000번의 불필요한 스텝을 극적으로 줄일 수 있지 않을까?"

 

이러한 물리적 훼손 원인에 대한 깊은 고찰과 발상의 전환이 바로 본 논문이 제안하는 혁신적인 CvG-Diff 아키텍처의 탄생 배경이자 가장 강력한 동기부여가 되었습니다.

 

3. 이 논문의 뿌리 (Key Reference)

본 논문이 제안하는 아키텍처는 확산 모델의 수학적 정의를 근본적으로 확장한 핵심 선행 연구들을 비판적으로 계승하고, 의료 영상 도메인의 특수성에 맞게 발전시켰습니다. 본 연구의 근간을 이루는 세 가지 핵심 논문과 그 관계성을 살펴보면 이 모델이 어떻게 진화했는지 명확하게 이해할 수 있습니다.

  • Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise (Bansal et al., 2022/2023)
    • 이 논문과의 관계: 이 논문은 CvG-Diff가 탄생할 수 있었던 가장 중요한 이론적 토대인 '일반화된 확산 모델(Generalized Diffusion Model)'의 개념적 뼈대를 제공한 모델입니다. 본 논문은 Cold Diffusion의 철학을 차용하여 CT 아티팩트를 확정적 연산자로 정의합니다.
    • 설명: 기존 AI 학계의 확고한 믿음은 "확산 모델의 랑주뱅 역학(Langevin dynamics)이나 점수 매칭(Score matching)이 작동하려면 반드시 훈련과 샘플링 과정에 무작위 가우시안 노이즈(Noise)가 주입되어야 한다"는 것이었습니다. 하지만 Bansal 연구팀은 무작위 노이즈가 전혀 없는 '차가운(Cold)' 상태, 즉 블러(Blur) 처리, 픽셀 마스킹(Masking), 다운샘플링과 같은 '확정적 열화(Deterministic degradation)' 과정만으로도 신경망이 이를 역산하도록 훈련시키면 기존 확산 모델과 동일한, 혹은 그 이상의 생성적 복원 능력을 발휘할 수 있음을 수학적, 실험적으로 증명했습니다. CvG-Diff의 저자들은 이 개념에서 영감을 얻어, 무작위 노이즈를 버리고 '각도 누락에 의한 줄무늬 생성 과정'을 하나의 확정적 열화 연산자로 정의하는 과감한 시도를 할 수 있었습니다.
  • Solving Zero-Shot Sparse-View CT Reconstruction with Variational Score Solver (VSS) (He et al., 2024)
    • 이 논문과의 관계: 이 논문은 CvG-Diff가 실험을 통해 넘어서고자 한 최신 경쟁 모델(SOTA)이자, 기존 가우시안 기반 확산 모델이 의료 영상에서 가지는 근본적인 한계를 명확히 보여주는 기준점(Baseline) 역할을 합니다.
    • 설명: VSS 모델은 줄무늬가 있는 이미지와 깨끗한 정답 이미지가 짝지어진(Paired) 데이터셋이 없는 환경에서도, 사전 학습된 잠재 확산 모델(Latent Diffusion Model)을 데이터 일관성 조건과 결합하여 고해상도 CT 이미지를 복원해 내는 강력한 제로샷(Zero-shot) 복원 기법을 제안했습니다. 구조적 디테일을 살리는 데는 뛰어난 성공을 거두었으나, 여전히 가우시안 노이즈 제거 방식을 고수하여 단 한 장의 이미지를 복원하는 데 무려 1000번의 샘플링 단계(NFE=1000)를 요구하며 연산 시간이 260초 이상 소요된다는 치명적인 비효율성을 안고 있었습니다. CvG-Diff는 VSS가 보여준 선명함과 세밀함이라는 장점을 유지하면서도 연산 단계를 1000번에서 10번으로 압축하여 속도 문제를 극복하는 것을 핵심 목표로 삼았습니다.
  • CoSIGN: Few-Step Guidance of Consistency Model to Solve General Inverse Problems (Zhao et al., 2024)
    • 이 논문과의 관계: 확산 모델의 치명적 단점인 느린 샘플링 속도를 단축하기 위해 등장한 또 다른 최신 선행 연구로, 본 논문이 성능 평가에서 직접적으로 비교하고 한계를 지적하는 대상입니다.
    • 설명: CoSIGN은 OpenAI가 제안한 일관성 모델(Consistency Model)을 역문제(Inverse Problem) 해결에 적용한 기법입니다. 확산 모델의 기나긴 궤적을 하나의 스텝으로 증류(Distillation)하는 기술에, 측정 일관성을 강제하는 ControlNet 구조를 결합하여 수백 번의 확산 스텝을 단 1~2단계로 압축하는 데 성공했습니다. 하지만 이 방법 역시 통계적 근사와 증류 기법에 크게 의존하기 때문에, 투영 각도가 18-view에 불과하여 정보가 극단적으로 결핍된 비선형적 희소 뷰 CT 환경에서는 이미지의 구조적 일관성을 유지하지 못하고 해부학적 구조가 붕괴되는 현상을 보였습니다. CvG-Diff는 단순히 속도를 줄이는 것을 넘어 극단적 희소 환경에서도 붕괴하지 않는 안정성을 확보하고자 했습니다.

요약하자면, 본 논문의 아키텍처는 Cold Diffusion의 철학을 수용하여 의미 없는 무작위 가우시안 노이즈를 과감히 버리고, VSS가 가진 높은 계산 비용과 느린 속도 문제를 근본적으로 해결하며, CoSIGN이 겪는 극단적 희소 환경에서의 구조적 붕괴를 극복하는 방향으로 정교하게 진화한 결과물입니다.

 

4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)

기존의 확산 방식과 본 논문이 제안하는 CvG-Diff 간의 가장 결정적인 발상의 차이는 데이터가 망가지는 과정, 즉 '노이즈(Noise)'의 물리적 성질을 대하는 태도에 있습니다.

 

기존의 표준 확산 모델을 "탁해진 흙탕물 속에서 본래의 물체를 찾아내는 과정"에 비유해 볼 수 있습니다. 모델을 훈련시킬 때 맑은 물(원본 CT 이미지)에 흙먼지(무작위 가우시안 노이즈)를 잔뜩 뿌린 뒤, 신경망이 이 흙먼지를 아주 조금씩 걷어내는 방법을 1000번에 걸쳐 학습시킵니다. 이 방식은 고양이나 자동차 같은 일반적인 자연 이미지를 무에서 유로 창작할 때는 매우 훌륭하게 작동합니다. 하지만 CT 촬영에서 각도 데이터가 부족하여 발생한 거대한 '줄무늬(Streak)'를 지우는 데는 수학적, 물리적 연결 고리가 턱없이 부족합니다. CT의 줄무늬는 센서에서 무작위로 생기는 잡음이 아니라, 엑스선이 투과하지 못한 빈 공간의 수학적 역산 과정에서 필연적으로 생기는 일종의 물리적인 '그림자'이기 때문입니다. 물리적 원인이 다른 그림자를 단순히 무작위 흙먼지 취급하여 지우려다 보니 모델이 불필요한 고생을 하게 됩니다.

 

CvG-Diff 연구진의 '아하! 모먼트'는 바로 "CT의 줄무늬 아티팩트는 흙탕물이 아니라, 특정한 방향으로 깨진 유리와 같다"는 깨달음이었습니다. 깨진 유리는 언뜻 보면 무작위로 부서진 것 같지만, 물리적으로 살펴보면 타격점의 위치와 가해진 힘의 방향에 따라 매우 일정한 파편의 패턴과 규칙성을 가집니다.

 

이러한 통찰을 수학적 모델로 전환하기 위해, 연구진은 기존 모델처럼 데이터에 의미 없는 무작위 노이즈를 더하는 행위를 전면 중단했습니다. 대신, 물리학과 기하학 법칙을 그대로 따르는 확정적 열화 연산자(Deterministic Degradation Operator) $D$를 설계했습니다. 이 연산자는 다음과 같이 작동합니다.

  1. 완벽하게 맑은 고품질의 CT 정답 이미지($x_0$)를 모델에 입력합니다.
  2. 컴퓨터 환경 내에서 가상의 엑스선을 360도로 쏘아 라돈 변환(Radon Transform)을 수행하여 수학적 데이터(사이노그램)를 얻어냅니다.
  3. 여기서 엑스선을 쏘는 각도를 인위적으로 듬성듬성 빼버립니다(Angular Subsampling).
  4. 이 듬성듬성한 데이터를 다시 이미지로 역투영(Filtered Back-Projection)하여 의도적으로 줄무늬가 가득한 훼손된 이미지($x_T$)로 만듭니다.

이렇게 모델의 열화 과정을 설계하면, 인공지능 모델은 출처를 알 수 없는 가상의 노이즈를 지우는 것이 아니라 실제 병원 환경에서 엑스선 각도가 줄어들 때 발생하는 바로 그 줄무늬 패턴의 물리적 생성 원리를 정확히 역추적할 수 있게 됩니다.

 

특히 연구진은 투영 각도의 개수(예: 72뷰, 36뷰, 18뷰)에 따라 생성되는 줄무늬 패턴들이 완전히 독립적인 것이 아니라, 서로 매우 강력한 상관관계를 가진다는 점을 파악했습니다. 각도를 조금씩 줄여나가는 단계 자체를 확산 모델의 스텝(Step)으로 정의했습니다. 이전 모델들이 가우시안 노이즈 양을 1000단계로 나누어 점진적으로 제거했다면, 이 모델은 "각도의 개수"를 늘려가는 과정을 밟습니다. 예를 들어, 18개의 각도만 있는 최악의 훼손 이미지에서 출발하여, 36개, 54개, 72개의 각도를 가진 중간 상태들을 징검다리 삼아 최종적으로 완전한 이미지를 복원하는 법을 학습하는 것입니다. 기존 모델이 눈을 가린 채 1000번의 임의의 노이즈 제거 단계를 더듬으며 가야 했다면, CvG-Diff 모델은 눈을 뜨고 각도의 개수를 늘려가는 명확하고 확실한 10단계의 계단만 빠르게 오르면 되는 구조로 발상의 전환을 이룩했습니다.

 

5. 작동 원리: 어떻게 돌아가는가? (The "How")

CvG-Diff의 전체 아키텍처가 실제로 데이터를 받아들여 복원하기까지의 데이터 흐름(Flow)은 크게 두 가지 혁신적인 메커니즘으로 구성됩니다. 학습 단계에서 모델을 단련시키는 EPCT와 추론 단계에서 자원을 효율적으로 배분하는 SPDPS입니다.

 

역방향 샘플링의 치명적 문제: 에러 전파 (Error Propagation)

일반화된 확산 모델(Cold Diffusion)의 개념을 그대로 CT 복원에 적용하면 치명적인 연쇄 작용이 일어납니다. 확산 모델의 복원은 가장 많이 훼손된 상태인 $t$ 단계에서 조금 덜 훼손된 상태인 $t-1$ 단계로 이미지를 점진적으로 업데이트하며 진행됩니다. 이때 신경망은 현재 이미지 상태를 보고 원래의 깨끗한 이미지가 무엇일지 예측하여, 그 차이만큼 줄무늬를 빼내는 연산을 수행합니다. 문제는 신경망이 완벽하지 않다는 데 있습니다. 만약 $t$ 단계에서 신경망이 간이나 뼈의 미세한 곡선을 살짝 잘못 예측했다면 어떻게 될까요? 가우시안 노이즈 기반 모델에서는 무작위성이 이러한 작은 오류를 덮어주기도 하지만, 확정적 연산을 수행하는 모델에서는 이 작은 예측 오류가 수학적으로 다음 단계의 계산식에 그대로 포함되어 버립니다. 결과적으로 이전 단계의 작은 실수가 다음 단계로 넘어가면서 엉뚱한 위치에 추가적인 가짜 줄무늬(Streak artifact)를 만들어내는 오류 증폭 현상이 발생합니다. 스텝이 몇 번만 반복되어도 이 오류는 눈덩이처럼 불어나 결국 전체 해부학적 구조를 망치게 됩니다.

 

학습 단계 해결책: 에러 전파 억제 학습 (EPCT, Error-Propagating Composite Training)

이러한 연쇄적 붕괴를 막기 위해 연구진은 EPCT라는 훈련 전략을 설계했습니다. 쉽게 말해, 모델이 실전에서 범할 수 있는 연쇄적인 실수들을 훈련장(Training phase)에서 미리 고의로 겪어보게 하고 대처법을 가르치는 '예방 접종' 훈련법입니다.

  • Step-by-step 흐름:
    1. 안정적인 예측 생성: 훈련 중, 현재 학습 중인 메인 신경망과 별개로 파라미터가 매우 천천히 업데이트되어 안정적인 예측을 내놓는 그림자 모델(EMA 네트워크, $R_{\theta^{EMA}}$)을 가동합니다. 이 그림자 모델을 이용해 훼손된 이미지로부터 일단 복원된 '임시 이미지'를 하나 만듭니다.
    2. 고의적인 오류 주입 및 되돌림: 이 임시 이미지는 완벽하지 않아 약간의 복원 오류와 왜곡을 포함하고 있습니다. 모델은 이 오류가 묻은 임시 이미지를 확정적 열화 연산자($D$)에 다시 통과시켜, 임의의 중간 단계인 $t$ 단계의 열화 상태로 강제로 되돌립니다.
    3. 메인 신경망 훈련: 이렇게 만들어진 '과거의 오류가 누적되어 전파된 중간 데이터($x_t$)'를 메인 신경망($R_\theta$)에 입력으로 줍니다. 그리고 이 오염된 데이터로부터 최종적으로 완벽하게 깨끗한 정답 이미지($x_0$)를 예측하도록 강제합니다.
    4. 오류 교정 학습: 이 험난한 과정을 거치며 메인 신경망은 단순히 줄무늬를 지우는 것을 넘어, "이전 스텝에서 잘못 넘어온 찌꺼기(에러) 패턴"이 무엇인지 스스로 파악하고 이를 능동적으로 무시하거나 교정하는 방법을 깨우치게 됩니다. 이 훈련을 통해 추론 시 스텝 사이의 도약 간격이 커도 모델이 무너지지 않고 견고하게 작동하는 맷집을 갖추게 됩니다.

 

추론 단계 해결책: 의미 우선 이중 단계 샘플링 (SPDPS, Semantic-Prioritized Dual-Phase Sampling)

학습이 성공적으로 끝난 후, 실제 병원 환경에서 환자의 새로운 데이터를 복원할 때 사용하는 고효율 추론(Inference) 기법입니다. 데이터를 복원할 때 모델에게 10번의 연산 기회(Step)가 주어졌다고 가정해 봅시다. 기존 방식은 10번 내내 똑같은 강도로 이미지 전체를 다듬으려 했습니다. 하지만 SPDPS는 이 기회를 두 가지 목표로 쪼개어 전략적으로 배분합니다.

  • Phase 1: 의미론적 교정 (Semantic Correction - 처음 $n$ 번의 스텝)
    • 처음 절반의 스텝 동안 모델은 미세한 픽셀 값의 변화나 장기의 질감에는 전혀 신경 쓰지 않습니다. 오직 심장, 폐, 뼈의 전체적인 형태와 위치(해부학적 Semantic)의 거시적인 뼈대를 정확히 잡는 데 모든 연산력을 집중합니다.
    • 이때 적응형 리셋(Adaptive Reset)이라는 안전장치를 가동합니다. 모델이 한 스텝을 진행한 뒤 이전 단계의 결과물과 '구조적 유사도(SSIM)'를 비교 평가합니다. 만약 두 결과물이 일정 수준 이상 비슷하다면 "이제 큰 골격은 흔들리지 않고 어느 정도 고정되었다"라고 판단합니다.
    • 골격이 안정화되었다고 판단되면, 이 개선된 뼈대 정보를 그대로 쥔 상태로 다시 처음의 가장 열악한 희소 뷰 상태(Input level)로 환경을 리셋하여 복원을 한 번 더 시도합니다. 이 행위는 모델이 미세한 세부 묘사를 하다가 엉뚱한 곳으로 궤도를 이탈하는 것을 원천 차단하고 해부학적 위치를 완벽히 굳히는 역할을 합니다.
  • Phase 2: 세부 묘사 정제 (Detail Refinement - 나머지 $m$ 번의 스텝)
    • 1단계를 통해 장기의 위치와 뼈대가 콘크리트처럼 단단하게 굳어지면, 남은 스텝 동안에는 모델이 안심하고 해상도를 높이며 미세한 혈관이나 조직의 질감(High-frequency details)을 날카롭게 깎아내는 데 집중합니다.

기존의 순차적 샘플링 방식이 거시적인 뼈대와 미세한 디테일을 동시에 잡으려다 연산력을 낭비하고 둘 다 놓치는 경우가 많았던 반면, SPDPS는 화가가 인물화를 그릴 때 해부학적 비율과 스케치를 먼저 완벽히 끝낸 뒤에 명암과 세부 묘사를 올리는 것과 정확히 동일한 방식으로 데이터를 처리하여 10번이라는 극도로 적은 횟수만으로도 시각적 퀄리티를 극대화합니다.

 

6. 작동 원리: 어떻게 학습하는가? (The "How")

모델이 CT의 물리적 열화 과정과 인체 구조를 정확히 이해하도록 만들기 위해, 본 연구는 전 세계 의료 AI 연구의 표준으로 쓰이는 미국 의학물리학회(AAPM)의 Low-Dose CT (LDCT) 대규모 데이터셋을 활용했습니다.

 

1) 훈련을 위한 입력 데이터 (Input Data)

  • 데이터의 정의: 모델이 복원하는 방법을 배우기 위해 받아들이는 문제지 역할입니다.
  • 종류 및 포맷: 투영 각도가 인위적으로 줄어든(Subsampled) 2D 희소 뷰 CT 슬라이스 이미지입니다. 해상도는 일반적으로 512x512 픽셀 형태를 띠며, 컴퓨터 비전에서 흔히 쓰이는 RGB 컬러 값이 아닌 단일 채널의 흑백 이미지 데이터입니다.
  • 단위: 픽셀의 값은 단순히 빛의 밝기가 아니라, 인체 조직이 X선을 흡수하는 밀도를 나타내는 의료 표준 수치인 하운스필드 유닛(Hounsfield Units, HU)으로 표현됩니다. (예: 물은 0 HU, 공기는 -1000 HU, 단단한 뼈는 +1000 HU 이상).
  • 물리적 시뮬레이션 과정: 단순히 이미지에 블러를 먹인 것이 아닙니다. 토치라돈(TorchRadon)이라는 수학적 툴박스를 이용해 병원 환경의 CT 기계와 완벽히 동일한 부채꼴 빔(Fan-beam) 기하학 구조를 소프트웨어적으로 시뮬레이션했습니다.
    • X선 방출기부터 반대편 검출기까지의 거리: 59.5 cm.
    • 엑스선을 수신하는 디스검출기 소자의 수: 672개.
    • X선 스캔 튜브 파라미터: 120 kVp, 500 mA (실제 방사선 촬영과 동일한 환경 조건).
  • 수량 및 분배: 총 10명의 환자로부터 5,936장의 깨끗한 CT 단면 슬라이스를 확보했습니다. 일반화를 위해 9명의 환자 데이터(5,410장)를 학습용으로, 모델이 한 번도 본 적 없는 나머지 1명의 데이터(526장)를 최종 평가용으로 엄격하게 분리했습니다.
  • 입력 데이터 예시: 정상적인 흉부 CT 이미지에서 투영 각도를 강제로 18개, 36개, 72개로 대폭 줄여서 역투영한 결과물입니다. 척추뼈 주변에서 사방으로 뻗어나가는 하얀 줄무늬 아티팩트가 가득 차 있어 주변 장기를 가리고 있는 2D 이미지들($x_T$)이 입력 데이터로 주어집니다.

 

2) 훈련을 위한 출력 데이터 (Output/Target Data)

  • 데이터의 정의: 모델이 예측해야 하는 최종 정답지(Ground Truth) 역할입니다.
  • 종류 및 포맷: 아티팩트나 잡음이 전혀 섞이지 않은 고해상도의 2D 전체 뷰(Full-view) 정상 CT 이미지($x_0$)입니다.
  • 출력 데이터 예시: 폐의 미세한 기관지 혈관망이나 갈비뼈의 선명한 윤곽선이 뚜렷하게 보이며, 공간적 왜곡이나 줄무늬가 전혀 나타나지 않는 고품질의 512x512 해상도 단면 이미지입니다.

 

3) 학습 환경 설정의 특이점

모델은 4가지 해상도 스케일(Resolution scales)을 오르내리며 특징을 추출하는 Diffusion UNet 구조를 뼈대로 사용했습니다. 모델이 데이터를 한 번에 4장씩(Batch size=4) 가져와 40번 반복 학습(Epoch)하도록 설정되었습니다. 여기서 학습 데이터 설정의 가장 혁신적인 점은, 18뷰를 복원하는 모델, 36뷰를 복원하는 모델, 72뷰를 복원하는 모델을 따로따로 3개 만들지 않았다는 것입니다. 데이터 세팅 단계에서 가장 심하게 훼손된 18뷰 상태부터 288뷰의 가장 덜 훼손된 상태까지의 연속적인 징검다리 데이터를 모두 하나의 리스트($\mathcal{T}$)로 구성했습니다. 그 결과, 단 하나의 통합된 네트워크 가중치(Single Model)만으로도 임상 현장에서 요구하는 모든 각도의 훼손을 동시에 복원할 수 있도록 훈련 효율성을 극대화했습니다.

 

7. 결과: 얼마나 좋아졌나? (Results)

제안된 CvG-Diff는 AAPM-LDCT 데이터셋을 활용한 객관적 평가에서 기존의 1세대 복원 기법부터 3세대 최첨단(SOTA) 확산 모델들까지 모두 성능 지표와 처리 속도 양면에서 압도하는 결과를 보여주었습니다. 성능 측정에는 픽셀 값의 오차를 직접 측정하는 RMSE(낮을수록 좋음), 영상의 노이즈 대비 신호의 선명함을 보는 PSNR(높을수록 좋음), 그리고 의사가 육안으로 판단하는 해부학적 구조의 유사도를 수치화한 SSIM(1에 가까울수록 좋음) 지표가 사용되었습니다.

 

다음 표는 데이터가 가장 심각하게 부족한 극한 상황(18-view)과 비교적 여유가 있는 상황(72-view)에서의 주요 모델 성능을 비교한 결과입니다.

 

모델 접근 방식 복원 모델명 18-view (PSNR / SSIM) 72-view (PSNR / SSIM) 이미지 1장당 소요 시간 (연산 횟수)
단일 단계 딥러닝 DuDoTrans 34.02 dB / 0.9012 42.76 dB / 0.9762 0.13초 (단 1회 연산)
  FreeSeed 34.31 dB / 0.9040 42.93 dB / 0.9753 0.07초 (단 1회 연산)
기존 확산 모델 VSS (기존 SOTA) 32.34 dB / 0.8790 41.92 dB / 0.9707 264.71초 (1000번 반복 연산)
  CoSIGN 31.84 dB / 0.8631 37.87 dB / 0.9320 1.66초 (10번 반복 연산)
본 논문 제안 모델 CvG-Diff (Ours) 38.34 dB / 0.9518 45.94 dB / 0.9863 0.68초 (10번 반복 연산)

 

극한 환경에서의 현존 최고 화질 달성 (State-Of-The-Art)

표에서 가장 주목해야 할 부분은 정보가 95% 이상 유실된 극한의 희소 환경인 18-view에서의 성능 방어력입니다. 한 번의 연산으로 결과를 뿜어내는 기존 딥러닝(FreeSeed, DuDoTrans 등)은 빈 공간을 추론하지 못하고 이미지를 뭉개버려 PSNR이 34 dB 대에 머물렀습니다. 더 심각한 것은 기존 최고 성능의 잠재 확산 모델이었던 VSS입니다. VSS는 72-view에서는 준수한 성능을 보였으나, 18-view로 정보가 극단적으로 부족해지자 불충분한 투영 데이터로 인해 재구성 에러가 걷잡을 수 없이 증폭되었습니다. 결과적으로 실제와 어긋나는 부정확한 해부학적 구조를 생성하며 원본 충실도(Fidelity)를 상실했고, 32.34 dB로 성능이 크게 하락했습니다.  반면, 물리적 훼손 과정을 학습한 CvG-Diff는 18-view 환경에서도 타 모델 대비 약 4 dB 이상 훌쩍 뛰어넘는 38.34 dB라는 압도적인 선명도를 기록했으며, 구조적 무결성을 나타내는 SSIM 역시 0.9518을 방어하며 해부학적 정확도를 완벽하게 유지했습니다.

 

임상 적용이 가능한 획기적인 속도 개선

기존 최고 성능 확산 모델(VSS)이 가진 최악의 단점은 한 장의 이미지를 복원하는 데 무려 1000번의 미세한 스텝(NFE=1000)을 밟아야 하여 264.71초(약 4분 24초)가 소요된다는 것이었습니다. 수백 장의 슬라이스를 처리해야 하는 병원 시스템에서는 절대 사용할 수 없는 속도입니다. 하지만 CvG-Diff는 모델의 샘플링 효율을 극대화하여 단 10번의 스텝만으로 복원을 완료합니다. 소요 시간은 이미지 한 장당 0.68초에 불과하며, 6번의 스텝(0.39초)만 거쳐도 이미 기존 모델들의 최고 성능을 가볍게 뛰어넘습니다. 확산 모델의 가장 큰 진입 장벽이었던 추론 속도 지연 문제를 완전히 해결한 쾌거입니다.

 

시각적 결과 비교 및 솔직한 한계점 (Failure Cases)

논문의 시각적 결과물(Figure 3)을 분석해 보면, 경쟁 모델들은 공통적으로 인접한 장기 사이의 미세한 공간을 찰흙으로 문지른 것처럼 덮어버리거나(Over-smoothing), 본래 조직에는 없는 자글자글한 점박이 질감을 만들어냈습니다. 반면 CvG-Diff는 뼈의 끝단과 부드러운 조직 사이의 해부학적 경계가 칼로 자른 듯 뚜렷하게 구분되며 원래의 질감이 그대로 살아있는 놀라운 시각적 결과를 보여주었습니다.

 

그럼에도 불구하고 연구진은 논문의 결론부에서 이 모델의 한계점과 아쉬운 부분을 솔직하게 기술하여 신뢰도를 높이고 있습니다. 현재의 CvG-Diff 모델은 구조상 컴퓨터 픽셀로 변환된 최종 결과물인 '이미지 도메인(Image-domain)'에서만 복원 연산을 수행합니다. CT 기계 검출기가 받아들이는 가공되지 않은 날것의 초기 물리 데이터인 '사이노그램(Sinogram)' 도메인과 이미지 도메인을 동시에 왕복하며 에러를 교차 검증하는 이중 도메인(Dual-domain) 최적화 방식을 아직 아키텍처에 구현하지 못했습니다. 이는 극단적인 금속 아티팩트(환자 몸속의 임플란트 등으로 인한 노이즈) 등 더 가혹한 환경을 극복하고 추가적인 성능 한계 돌파를 위해 다음 단계에서 반드시 풀어야 할 과제로 남겨두었습니다.

 

8. 이 논문의 계보와 발전 (Impact & Follow-ups)

CvG-Diff는 2025년 의료 영상 컴퓨팅 및 컴퓨터 보조 중재 국제 회의(MICCAI 2025)에서 학계의 큰 주목을 받으며 Spotlight 논문으로 당당히 채택되었습니다. 이 논문이 입증한 '무작위 가우시안 노이즈를 버린 확정적 열화 기반의 초고속 확산 모델'이라는 개념은 단순한 아이디어를 넘어, 이후 2026년까지 쏟아져 나온 최신 의료 AI 연구들의 기술적 패러다임을 바꾸는 핵심 기반 트렌드로 자리 잡았습니다.

  • ReCo-Diff (Choi et al., 2026): 추론의 우아함을 더하다
    • 발전 방향: 이 논문은 CvG-Diff의 직접적인 후속 연구 성격을 띱니다. CvG-Diff가 제안한 샘플링 방식(SPDPS)은 구조적 유사도(SSIM)가 특정 임계치(0.97)를 넘으면 강제로 스텝을 리셋하는 등 약간의 경험적(Heuristic)인 규칙에 의존했습니다. ReCo-Diff 연구진은 이러한 인위적인 강제 리셋 룰을 완전히 버렸습니다.
    • 적용점: 대신, 모델이 매 스텝 예측해 낸 이미지와 센서에서 측정한 실제 희소 뷰 입력 데이터 사이의 수학적 오차(Observation residual)를 계산하고, 이 오차 값 자체를 다음 스텝의 나침반(Condition)으로 사용하는 '잔차 조건부 자가 유도 샘플링(Residual-Conditioned Self-Guided Sampling)' 방식을 도입했습니다. 이를 통해 인위적인 간섭 없이도 모델 스스로 교정 방향을 찾는 수학적 우아함과 복원 안정성을 한 차원 더 끌어올렸습니다.
  • CT-SDM (Yang et al., 2025/2026): 샘플링 비율의 제약을 허물다
    • 발전 방향: CvG-Diff 모델은 18뷰, 36뷰, 72뷰와 같이 연구진이 사전에 정해둔 불연속적인 징검다리 단계 사이의 상관관계를 이용해 학습했습니다. CT-SDM은 이러한 제약을 넘어서고자 했습니다.
    • 적용점: 이 모델은 특정 각도에 국한되지 않고, 완전히 연속적이고 다양한 모든 샘플링 속도(Sampling rates)에 실시간 적응형으로 대응할 수 있는 샘플링 확산 모델 아키텍처를 제안하여 모델의 범용성을 극대화했습니다.
  • PTD (Progressively Texture-aware Diffusion, 2026): 이중 도메인의 벽을 넘다
    • 발전 방향: CvG-Diff 연구진이 논문 마지막에 한계점으로 솔직하게 지적했던 '단일 도메인의 한계'를 정면으로 해결하기 위한 시도입니다.
    • 적용점: 이 모델은 이미지의 해부학적 뼈대 복원뿐만 아니라 인체 조직의 자연스러운 텍스처와 고주파 세부 묘사(High-frequency details)를 완벽하게 보존하기 위해, 사이노그램과 이미지 도메인을 동시에 활용하는 이중 도메인 가이드(Dual-domain guidance)를 통합하여 확산 모델의 생성 능력을 극한으로 끌어올렸습니다.

이처럼 CvG-Diff는 단순히 CT 복원 성능 지표를 조금 높인 단발성 모델 하나에 그치지 않았습니다. 이 연구는 가우시안 노이즈의 맹신에서 벗어나, 물리적 법칙을 확산 모델에 결합하는 '물리 정보 기반 확산 모델(Physics-informed Diffusion Model)' 트렌드가 의료 영상 분야의 차세대 표준이 되는 길을 열어준 거대한 마중물 역할을 수행하고 있습니다.

 

9. 마무리

지금까지 MICCAI 2025 Spotlight 논문인 CvG-Diff의 핵심 기술과 성과를 상세히 살펴보았습니다. 이 논문은 단순히 AI 경진대회에서 성능 지표 몇 퍼센트를 더 올린 기술적 성과를 넘어, 최첨단 생성형 AI인 확산 모델이 가진 수학적 본질을 데이터의 근본적인 물리적 생성 원리(CT의 X선 각도 누락 현상)와 완벽하게 융합해 냈다는 점에서 의료 딥러닝 분야에 매우 깊고 날카로운 통찰을 제공합니다.

 

기존의 DALL-E나 Midjourney 같은 생성형 AI 기술들이 자연어 처리나 예술 이미지 생성에 자유롭게 쓰이던 방식, 즉 '무작위성(Stochasticity)'을 의료 데이터에 그대로 가져왔던 과거의 관행에 경종을 울린 연구입니다. 이 연구는 인명과 직결된 의료 도메인에서는 무작위한 창작이 아닌 물리 기반의 '결정론적 역추적(Deterministic inversion)'이 얼마나 빠르고 강력한 결과를 낼 수 있는지 증명했습니다.

 

특히 기존 확산 모델이 수행하던 1000번의 복잡한 신경망 계산을 단 10번으로 줄였다는 것은, 단순히 속도가 빨라졌다는 것을 넘어 병원의 딥러닝 서버가 감당해야 할 전력 소모와 GPU 연산 비용을 100분의 1 수준으로 줄였다는 것을 의미합니다. 이는 향후 고가의 대규모 워크스테이션 인프라를 갖추지 못한 중소형 병원의 소형 엣지 디바이스(Edge device) 환경에서도 SOTA 수준의 AI 복원 기술을 원활하게 사용할 수 있게 만드는 결정적 계기가 될 것입니다.

 

실무에 적용할 때 주의할 점 (Practical Caveats)

하지만, 이 혁신적인 기술을 당장 내일 실제 대학병원의 임상 현장 시스템에 즉시 도입하기에는 아직 넘어야 할 몇 가지 실무적, 기술적 장벽이 존재합니다.

  1. OOD(Out-of-Distribution) 데이터와 환각(Hallucination)의 위험: 확산 모델은 본질적으로 자신이 훈련받은 정상적인 인체 해부학 데이터의 확률 분포를 강력하게 암기하고 있습니다. 만약 학습 데이터 세트에 단 한 번도 포함되지 않은 매우 희귀한 형태의 선천성 기형 뼈 구조나 비정상적으로 거대한 암 병변(OOD 데이터)이 입력으로 들어올 경우 문제가 생깁니다. 모델이 이를 '비정상'이 아니라 '복원 과정에서 생긴 노이즈'로 착각해 임의로 지워버리거나, 반대로 평범한 폐 조직처럼 잘못 채워 넣어 버릴(환각) 위험성이 구조적으로 남아있습니다. 따라서 이 AI가 내놓은 결과를 100% 맹신하지 않고 전문 전문의가 원본 희소 뷰 데이터를 교차 검증하는 인적 안전장치(Human-in-the-loop)가 필수적입니다.
  2. GPU 연산 메모리의 물리적 한계: 본 연구의 실험은 2D 단면 슬라이스 이미지들을 기준으로 복원을 수행했습니다. 하지만 실제 임상 진단용 CT는 수백 장의 슬라이스가 위아래로 연속되어 쌓인 방대한 3D 볼륨(Volume) 데이터입니다. 이 2D 기반 모델을 연속된 3D 볼륨을 한 번에 처리하는 3D 확산 모델로 온전히 확장할 경우, 층간 공간적 연속성을 유지하기 위해 기하급수적으로 막대한 양의 VRAM(GPU 메모리)을 요구하게 됩니다. 메모리 병목 현상을 해결하기 위한 메모리 최적화 기술이 필수적으로 동반되어야 합니다.
  3. 병원 기기별 도메인 이동(Domain Shift) 문제: 이 논문의 훈련은 수학적 시뮬레이션 된 이상적인 데이터를 기반으로 수행되었습니다. 그러나 현실의 병원마다 사용하는 CT 스캐너 제조사(GE, Siemens, Philips 등)의 하드웨어 특성과 촬영 프로토콜이 모두 제각각입니다. 기계적 차이로 인해 발생하는 입력 데이터의 미세한 노이즈 특성 변화(도메인 이동)에 이 확정적 모델이 얼마나 강건하게 버틸 수 있는지 대규모 임상 시험을 통한 교차 검증이 필요합니다.

논문의 저자들도 결론부에서 솔직하게 언급했듯이, 궁극적인 형태의 희소 뷰 CT 복원은 이미지가 만들어지기 전 센서에서 측정한 날것의 원시 데이터인 '사이노그램(Sinogram)' 도메인과 컴퓨터 픽셀로 변환된 '이미지(Image)' 도메인 양쪽을 동시에 오가며 서로의 에러를 상호 보완적으로 잡아내는 이중 도메인 연속 확산 모델 형태로 발전할 것입니다. 여기에 앞서 언급한 ReCo-Diff 연구에서 보여준 수학적 잔차 기반(Residual-based) 정밀 제어 기법이 성공적으로 합쳐진다면 , 머지않아 환자들은 방사선 피폭에 대한 두려움 없이 마치 가벼운 흉부 엑스레이를 한 번 찍듯 단 18번의 매우 짧은 찰칵거림만으로도, 몸속 미세한 종양 세포 하나까지 완벽하게 잡아내는 3D 정밀 CT 결과를 받아볼 수 있는 시대가 열릴 것입니다.

 

 

반응형