일러두기 (Disclaimer)
본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.
논문 링크 : https://arxiv.org/abs/2603.02691
ReCo-Diff: Residual-Conditioned Deterministic Sampling for Cold Diffusion in Sparse-View CT
Cold and generalized diffusion models have recently shown strong potential for sparse-view CT reconstruction by explicitly modeling deterministic degradation processes. However, existing sampling strategies often rely on ad hoc sampling controls or fixed s
arxiv.org
초록 (Abstract)
최근 콜드 디퓨전(Cold Diffusion) 및 일반화된 디퓨전(Generalized Diffusion) 모델들은 결정론적(Deterministic) 열화 과정을 명시적으로 모델링함으로써 희소 촬영 컴퓨터 단층촬영(Sparse-View CT) 복원에 있어 강력한 잠재력을 보여주고 있습니다. 하지만, 기존의 샘플링 전략들은 종종 임의적인(Ad hoc) 샘플링 제어나 고정된 스케줄에 의존하고 있어, 오차 누적과 샘플링 불안정성에 여전히 민감하다는 한계를 지닙니다.
본 연구에서는 잔차 조건부 자가 지도 샘플링(Residual-conditioned self-guided sampling)을 통해 관측 잔차(Observation residuals)를 활용하는 잔차 조건부 디퓨전 프레임워크인 'ReCo-Diff'를 제안합니다. 매 샘플링 단계마다 ReCo-Diff는 먼저 조건이 부여되지 않은(Unconditioned) 기본 복원 결과물(Null baseline)을 생성한 뒤, 예측된 이미지와 측정된 희소 촬영 입력값 사이의 관측 잔차를 후속 예측의 조건으로 부여합니다. 이러한 잔차 기반의 가이던스(Guidance)는 휴리스틱한 개입을 요구하지 않으면서도, 결정론적 샘플링 스케줄을 유지하는 동시에 측정값에 기반한 지속적인 오차 교정을 제공합니다.
실험 결과, ReCo-Diff는 기존의 콜드 디퓨전 샘플링 베이스라인 모델들을 지속적으로 능가하며, 더욱 높은 복원 정확도, 향상된 안정성, 그리고 극단적인 희소 환경에서도 강화된 강건성을 달성함을 입증했습니다. 코드는 지정된 저장소를 통해 공개되어 있습니다.
1. 한줄 요약 & 3줄 핵심 (Executive Summary)
이 논문은 희소 촬영 CT 이미지를 복원할 때, 임의의 설정 값에 의존하여 복원을 강제 초기화하던 기존 디퓨전 모델의 방식을 버리고, 매 단계마다 예측값과 실제 측정값의 차이(관측 잔차)를 다음 복원의 길잡이로 삼아 스스로 오차를 교정하는 'ReCo-Diff' 프레임워크를 제안합니다.
- 기존의 문제점 (Pain point): 무작위 가우시안 노이즈 대신 물리적 왜곡을 다루는 기존 '콜드 디퓨전' 모델(예: CvG-Diff)들은, 복원 단계가 반복될수록 초기 오차가 눈덩이처럼 불어나는 구조적 취약점을 지니고 있었습니다. 이를 막기 위해 사람이 임의로 정한 임계값(예: SSIM 하락 시 강제 리셋)에 따라 복원 과정을 초기화해야 했으며, 이는 막대한 계산 낭비와 결과의 불안정성을 초래했습니다.
- 이 논문의 해결책 (Solution): 매 샘플링 단계에서 신경망은 우선 조건 없는 기본 예측을 수행하고, 이 예측값이 실제 촬영된 CT 측정값과 얼마나 물리적으로 차이가 나는지(잔차)를 계산합니다. 그리고 이 잔차 정보를 다시 신경망의 입력 채널에 이어 붙여(Concatenation) 다음 예측을 위한 '조건(Condition)'으로 제공하는 잔차 조건부 자가 지도 샘플링 기법을 도입했습니다.
- 달성한 성과 (Key Result): 기존 최고 성능(SOTA) 모델이었던 CvG-Diff를 모든 지표에서 상회하는 복원 품질을 달성했습니다. 특히 단 18번의 촬영만 진행된 극단적인 데이터 부족 상황(18-view)에서도 최고 수준의 PSNR 및 SSIM 지표를 기록하였으며, 강제 리셋 없이도 오차 곡선이 지속적으로 하락하는 안정적인 샘플링 궤적을 증명했습니다.
2. 들어가며: 왜 이 연구가 필요했나? (The "Why")
질병의 정확한 진단과 수술 전 계획 수립을 위해 컴퓨터 단층촬영(CT)은 현대 의학에서 대체 불가능한 도구입니다. CT는 X선을 발생시키는 튜브가 환자의 신체 주위를 360도로 회전하며 수백 장 이상의 단면 투영(Projection) 데이터를 획득하고, 이를 컴퓨터 알고리즘으로 재구성하여 인체 내부를 들여다봅니다. 하지만 이 과정에서 환자는 불가피하게 전리 방사선에 피폭됩니다. 방사선 노출은 잠재적인 암 발생 위험을 높일 수 있으므로, 임상 현장에서는 환자가 받는 방사선량을 '합리적으로 달성 가능한 가장 낮은 수준(ALARA: As Low As Reasonably Achievable)'으로 유지해야 한다는 엄격한 윤리적, 제도적 원칙을 따릅니다.
이러한 ALARA 원칙을 준수하기 위해 의료계와 공학계는 촬영에 사용되는 방사선 자체의 강도를 낮추는 저선량 CT(Low-Dose CT) 기술과 함께, 엑스레이 촬영 횟수 자체를 대폭 줄이는 희소 촬영 CT(Sparse-View CT) 기술을 꾸준히 연구해 왔습니다. 일반적인 CT가 1도 단위로 촘촘하게 360번 이상 데이터를 수집한다면, 희소 촬영 CT는 각도를 듬성듬성 건너뛰며 단 18번, 36번, 72번의 투영 데이터만을 수집합니다.
촬영 횟수를 줄이면 방사선 피폭량과 검사 시간이 획기적으로 줄어드는 이점이 있습니다. 그러나 데이터를 수학적으로 뼈대에 맞춰 역투영(Backprojection)하는 과정에서 획득하지 못한 빈 각도의 데이터가 톱니바퀴의 이가 빠진 것처럼 작용하게 됩니다. 그 결과 복원된 이미지에는 선명한 장기 구조 대신 날카로운 빗살무늬 형태의 줄무늬 패턴, 즉 '스트릭 아티팩트(Streak Artifact)'가 화면 전체를 뒤덮게 됩니다. 이러한 아티팩트는 미세한 종양이나 병변을 가려버려 오진을 유발할 수 있으므로, 의료 영상 처리 분야의 가장 큰 과제로 남아 있습니다.
과거에는 이러한 데이터 누락 문제를 해결하기 위해 다양한 시도가 있었습니다. 초창기에는 여과 후역투영법(Filtered Backprojection, FBP)이라는 전통적인 수학적 알고리즘이 사용되었습니다. 하지만 FBP는 데이터가 완전할 때만 정상 작동하며, 희소 촬영 환경에서는 치명적인 아티팩트를 뿜어냅니다. 이후 총 변동(Total Variation) 최적화 기법 등 반복적 재구성 알고리즘이 등장하여 픽셀 간의 차이를 최소화하는 방식으로 이미지를 다듬으려 했으나, 이 방식들은 극단적인 희소 상황에서 찰흙을 뭉개놓은 듯한 과도한 평활화(Over-smoothing) 현상을 일으키는 단점이 있었습니다.
딥러닝 시대가 도래하면서 수많은 합성곱 신경망(CNN)과 생성적 적대 신경망(GAN) 기반 모델들이 CT 복원에 투입되었습니다. 단일 단계(Feed-forward)로 동작하는 신경망은 입력 이미지가 들어오면 즉시 복원된 이미지를 출력하여 속도가 매우 빠르다는 장점이 있었습니다. 그러나 이러한 네트워크들은 특정 촬영 조건(예: 정확히 36번 촬영된 데이터)에 맞추어 고정된 방식으로 학습되기 때문에, 임상 현장에서 촬영 조건이 조금만 바뀌어도 복원 성능이 급격히 무너지는 '도메인 일반화 부족' 문제에 직면했습니다.
최근 수년간 생성 인공지능 분야를 평정한 디퓨전 모델(Diffusion Model)이 이 문제의 새로운 구원자로 떠올랐습니다. 이미지에 무작위 가우시안 노이즈(Gaussian Noise)를 점진적으로 입힌 뒤, 이를 다시 걷어내는 방법을 학습하는 디퓨전 모델은 전례 없는 고해상도의 선명한 이미지를 생성해 냅니다. 하지만 연구자들은 곧 표준 디퓨전 모델을 희소 촬영 CT에 적용하는 데 근본적인 모순이 있음을 깨달았습니다. CT에서 발생하는 스트릭 아티팩트는 무작위로 흩뿌려진 가우시안 노이즈가 아니라, '각도 누락'이라는 명확하고 결정론적인 물리 법칙에 의해 발생하는 구조적인 왜곡이기 때문입니다.
이에 따라 '콜드 디퓨전(Cold Diffusion)'이라는 새로운 개념이 등장했습니다. 콜드 디퓨전은 무작위 노이즈라는 열역학적 붕괴 과정 없이, 이미지 흐림(Blur)이나 데이터 누락과 같은 물리적이고 결정적인 열화 과정을 디퓨전의 프레임워크 안에 편입시킵니다. 이를 바탕으로 개발된 CvG-Diff와 같은 최신 모델들은 희소 촬영 CT 복원에서 놀라운 성과를 거두었습니다.
하지만 연구자들은 콜드 디퓨전 구조 내에서 또 다른 치명적인 난관에 부딪혔습니다. 표준 디퓨전 모델은 무작위 노이즈를 다루기 때문에 확률적인 완충 지대가 존재하지만, 물리 법칙을 따르는 콜드 디퓨전은 초기 단계에서 단 한 번 잘못 예측한 픽셀의 오차가 다단계 복원 과정을 거치면서 걷잡을 수 없이 증폭되는 '오차 전파(Error Propagation)' 현상을 겪습니다. 이를 무마하기 위해 기존 연구들은 복원 도중 이미지의 구조적 유사도(SSIM)가 특정 임계값 이하로 떨어지면 진행 상황을 폐기하고 이전 단계로 되돌려버리는 Ad hoc 리셋 스케줄을 도입했습니다. 하지만 이런 임시방편적인 방식은 기준치 설정에 따라 결과가 크게 달라지며, 연산 시간을 예측할 수 없고 모델의 수학적 안정성을 크게 훼손합니다.
이러한 배경 속에서 연구진은 질문을 던졌습니다. 강제적이고 인위적인 리셋 메커니즘을 버리고, 모델이 스스로 물리적인 관측 데이터를 실시간으로 참고하여 누적되는 오차를 부드럽고 연속적으로 교정할 수 있는 우아한 해법은 없을까? 본 논문이 제시하는 ReCo-Diff는 바로 이 깊은 고민에 대한 해답입니다.
3. 이 논문의 뿌리 (Key Reference)
본 논문인 ReCo-Diff은 디퓨전 모델의 한계를 돌파하기 위해 제안된 과거의 중요한 사상적, 기술적 근간들을 흡수하고 발전시켰습니다. 본 연구가 뼈대로 삼거나 비판적으로 극복한 세 편의 핵심 선행 논문과 그 관계성을 살펴보면 이 기술의 발전 궤적을 명확히 이해할 수 있습니다.
- Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise (2023) 이 논문은 ReCo-Diff가 발을 딛고 있는 세계관 자체를 정립한 기념비적인 연구입니다. 오랫동안 딥러닝 학계는 디퓨전 모델이 작동하기 위해서는 열역학의 랑주뱅 동역학(Langevin dynamics)에 기반한 확률적 가우시안 노이즈가 필수적이라고 믿어왔습니다. 그러나 Bansal 등의 연구진은 디퓨전의 본질이 노이즈에 있는 것이 아니라, '점진적인 열화와 그 역산'이라는 구조 자체에 있음을 증명했습니다. 그들은 무작위 노이즈 대신 이미지를 픽셀레이션(Pixelation)하거나 흐릿하게(Blur) 만들거나 검은 마스크로 가리는 등 완전히 결정론적인(Deterministic) 방식의 변환을 사용해도 모델이 원본을 훌륭히 역산해 냄을 보였습니다. ReCo-Diff는 이 콜드 디퓨전의 핵심 아이디어를 계승하여, CT 스캔 시 각도를 건너뛰는 행위 자체를 열화 연산자로 정의하는 물리적 근간을 마련했습니다.
- Classifier-Free Diffusion Guidance (2022) 일명 'CFG'로 불리는 이 논문은, 오늘날 우리가 텍스트를 입력하여 원하는 그림을 생성하는 생성 AI(예: Stable Diffusion)의 품질을 비약적으로 끌어올린 주역입니다. CFG는 모델에게 조건을 명시한 예측(예: "우주복을 입은 개")과 조건을 주지 않은 예측(무작위 이미지) 두 가지를 동시에 수행하게 한 후, 두 예측 사이의 방향성 차이를 계산하여 조건이 제시하는 방향으로 이미지를 더 강하게 밀어붙이는 기법입니다. ReCo-Diff는 CFG가 사용하는 조건부/비조건부의 분기(Branching) 방식을 차용하되, 이를 확률 기반의 가중치 조절이 아닌 물리적 관측 공간에서의 오차 교정이라는 새로운 개념으로 승화시켰습니다. 즉, 텍스트 프롬프트 대신 '측정된 CT 잔차'를 조건으로 주입하여 모델의 생성 궤적을 올바른 방향으로 이끄는 데 영감을 주었습니다.
- Cross-view Generalized Diffusion Model for Sparse-view CT Reconstruction (CvG-Diff) (2025) CvG-Diff는 희소 촬영 CT에 콜드 디퓨전을 적용한 선구적인 모델이자, 본 논문이 극복해야 할 직접적인 경쟁 상대였습니다. 이 모델은 다양한 희소 촬영 조건에서 통합적으로 작동할 수 있는 단일 네트워크를 구축했으며, 특히 다단계 복원 중 오차가 누적되는 것을 방지하기 위해 '오차 전파 복합 학습(EPCT, Error-Propagating Composite Training)'이라는 혁신적인 학습법을 제안했습니다. ReCo-Diff는 CvG-Diff의 우수한 학습 방법론인 EPCT를 그대로 차용하여 모델의 기본 강건성을 확보했습니다. 그러나 앞서 지적한 대로 CvG-Diff가 의존했던 SSIM 기반의 임시방편적 샘플링 초기화 방식은 불안정성을 야기했기에, ReCo-Diff는 이 치명적인 샘플링 로직을 도려내고 자신만의 잔차 조건부 샘플링으로 완벽히 대체하여 단점을 보완하고 성능을 한 차원 끌어올렸습니다.
4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)
ReCo-Diff의 가장 핵심적인 발상의 전환은 무엇일까요? 이를 일상적인 상황에 비유하자면, 모델에게 지속적으로 피드백을 제공하는 '실시간 오답 노트'를 쥐여준 것과 같습니다.
기존의 방식(CvG-Diff 등)을 생각해 봅시다. 수험생(신경망 모델)이 복잡한 수학 문제(희소 촬영 이미지 복원)를 여러 단계에 걸쳐 풀고 있습니다. 수험생이 풀이 과정을 이어가다가 계산 실수가 누적되어 오답률이 일정 기준(SSIM 임계값)을 넘어가는 순간, 감독관이 개입하여 시험지를 강제로 빼앗고 처음 상태로 되돌립니다. "너무 틀렸으니 방금 푼 건 무효로 하고 뒤로 돌아가서 다시 풀어!"라고 명령하는 것입니다. 이 방식은 오답을 막을 수는 있지만, 수험생의 학습 효율을 떨어뜨리고 언제 문제를 다 풀 수 있을지 예측 불가능하게 만듭니다.
반면, 본 논문이 제시한 잔차 조건부 자가 지도 샘플링(Residual-Conditioned Self-Guided Sampling)은 완전히 다른 접근법을 취합니다. 수험생이 매 단계마다 1차적인 중간 답안(Null baseline)을 도출하면, 감독관이 이를 실제 정답의 단서(측정된 희소 촬영 입력값)와 대조해 봅니다. 그리고 "지금 네가 도출한 이미지와 실제 기계가 측정한 데이터 사이에 이만큼의 픽셀 오차(관측 잔차)가 발생했어"라고 실시간으로 오답 노트를 작성해 줍니다. 수험생은 문제를 다시 처음부터 푸는 것이 아니라, 방금 자신이 도출한 결과와 이 오답 노트를 함께 참고하여 다음 단계의 답을 더욱 정밀하게 교정해 나갑니다.
이러한 비교 구조를 논문에 등장하는 개념적 아키텍처 흐름으로 풀어서 설명하면 다음과 같습니다.
- 이전 방식 (A) 무방비 예측 후 강제 리셋
- 망가진 입력 이미지가 신경망을 통과하여 조금 복원된 이미지를 생성합니다. 이 과정을 여러 번 반복합니다. 도중에 오류가 심해지면 진행을 중단하고 과거 상태로 재설정합니다. 모델은 자신이 무엇을 틀리고 있는지 중간 과정에서 인지하지 못합니다.
- ReCo-Diff 방식 (B) 잔차를 활용한 2-Step 교정 예측
- Step 1: 망가진 입력 이미지를 바탕으로 신경망이 우선 '가설 이미지(조건이 없는 기본 예측)'를 만듭니다.
- Step 2: 이 가설 이미지를 다시 CT 촬영의 물리 공식에 넣어 가짜 투영 데이터를 만들고, 이를 진짜 병원에서 촬영된 원본 투영 데이터와 비교하여 '관측 잔차(오차)'를 산출합니다.
- Step 3: 망가진 입력 이미지와 방금 구한 관측 잔차를 하나의 데이터블록으로 이어 붙여(Concatenation) 신경망에 다시 넣습니다. 신경망은 오차 정보라는 조건(Condition)을 바탕으로 훨씬 더 정교하게 교정된 복원 이미지를 출력하며 다음 단계로 넘어갑니다.
이러한 발상의 전환을 통해 ReCo-Diff는 임의의 설정값으로 초기화하는 불안정한 과정 없이도, 매번 물리적으로 타당한 경로를 따라 부드럽고 일관되게 이미지를 선명하게 만들어 갈 수 있습니다. 이것이 바로 노이즈 모델의 CFG 기법을 결정론적 콜드 디퓨전에 맞게 완벽히 재해석한 순간입니다.
5. 작동 원리: 어떻게 돌아가는가? (The "How")
이제 논문에 제시된 수식을 일상 언어로 번역하여, 실제로 환자의 희소 촬영 CT 데이터가 시스템에 들어와서 깨끗한 단면 이미지로 출력될 때까지의 전 과정을 흐름(Flow) 위주로 살펴보겠습니다.
이 시스템은 여러 번의 반복 단계(Time step)를 거치며 영상을 다듬습니다. 총 반복 횟수를 $T$번이라고 할 때, 노이즈가 가장 심한 $T$ 단계에서 출발하여 완전히 선명해지는 1단계까지 역순으로 카운트다운을 하며 진행됩니다.
- 상태 초기화 및 입력 수신: 알고리즘의 첫 단계에는 병원의 CT 스캐너에서 각도를 건너뛰며 촬영되어 줄무늬 왜곡이 심하게 발생한 영상 데이터가 입력으로 들어옵니다. 현재 단계를 $t$라고 부르며, 이 초기 망가진 이미지를 현재 상태 영상으로 설정합니다.
- 조건 없는 기본 예측 (Null Baseline Prediction): 먼저 복원 신경망 알고리즘(U-Net 구조를 사용)에 현재 상태 영상을 입력합니다. 이때, 신경망이 추가적인 힌트를 받을 수 있는 '조건(Condition)' 채널에는 아무런 데이터도 넣지 않고 빈 상태(Null, $\emptyset$)로 둡니다. 신경망은 오로지 자신이 과거에 학습했던 기억만을 되살려 현재 상황에서 최선이라고 생각되는 깨끗한 이미지를 1차로 추측하여 출력합니다.
- 관측 잔차 산출 (Observation Residual Calculation): 신경망이 추측해 낸 깨끗한 이미지가 과연 물리적으로 말이 되는지 검증할 차례입니다. 추측된 이미지를 컴퓨터 시뮬레이터에 넣고, 마치 실제 환자를 촬영하듯 희소한 각도로 다시 가상의 X선 투영을 진행합니다(이를 라돈 변환 및 역투영 연산자인 $D$에 통과시킨다고 표현합니다). 이렇게 생성된 '가상의 망가진 이미지'와 맨 처음 입력받은 '진짜 망가진 이미지'의 차이를 픽셀 단위로 뺍니다. 이 차이값이 바로 현재 신경망이 놓치고 있는 물리적 모순, 즉 '관측 잔차'입니다.
- 잔차 정규화 (Bounded Residual Normalization): 여기서 연구진의 치밀한 엔지니어링 기법이 적용됩니다. 계산된 잔차 값을 그대로 다음 단계에 넘겨주지 않습니다. 왜냐하면 복원 초기 단계에는 모델의 1차 추측이 너무 엉망이어서 잔차 값의 스케일이 비정상적으로 클 수 있기 때문입니다. 이 거대한 오차 덩어리가 신경망에 바로 들어가면 신경망의 계산 회로가 마비되거나 특정 채널이 과부하를 일으킵니다. 이를 막기 위해 하이퍼볼릭 탄젠트(Tanh)라는 수학 함수를 사용하여 오차 값이 일정한 범위(예: -1에서 1 사이)를 넘지 않도록 꾹 눌러 담아 정규화합니다.
- 잔차 조건부 교정 예측 (Residual-Conditioned Prediction): 이제 진짜 마법이 일어납니다. 현재 상태 영상과 방금 정규화 과정을 거친 '오차 노트(잔차)'를 블록 조립하듯 두께 방향으로 이어 붙입니다(채널 병합). 이를 다시 복원 신경망에 입력합니다. 신경망은 원본 영상과 함께 "이전 예측에서 이 부분이 물리적으로 틀렸었다"라는 가이던스(조건)를 동시에 확인하게 됩니다. 이를 바탕으로 신경망은 물리 법칙에 훨씬 부합하는 정밀하게 교정된 2차 추측 이미지를 도출해 냅니다.
- 다음 단계로의 상태 업데이트: 최종 교정된 예측 이미지를 바탕으로 디퓨전 모델의 수학적 규칙에 따라 현재 영상을 살짝 다듬어, 노이즈가 조금 더 제거된 다음 단계($t-1$)의 영상 상태를 만들어 냅니다.
- 단발성 레벨 전환 (One-Time Level Transition, 예외 처리): 일반적으로 위 과정을 반복하면 되지만, 극도로 데이터가 적은 환경(예: 18번만 촬영한 환경)에서는 복원 극초기에 도출되는 관측 잔차 자체가 완전히 틀린 정보일 확률이 높습니다. 이로 인해 모델이 시작부터 길을 잃는 것을 방지하고자, 초기 몇 번의 웜업(Warm-up) 단계를 거친 직후 단 한 번만 수식을 통해 상태를 재조정하는 예외적인 로직을 선택적으로(Optionally) 적용할 수 있도록 마련했습니다.
이러한 사이클이 $T$번 반복 완료되면, 스트릭 아티팩트가 모두 사라지고 장기의 윤곽이 뚜렷한 깨끗한 단면 CT 영상이 완성됩니다.
6. 작동 원리: 어떻게 학습하는가? (The "How")
뛰어난 추론 시스템이 작동하려면, 신경망이 이러한 잔차 정보를 받아들이고 교정하는 방법을 훈련 데이터 상에서 철저히 학습해야 합니다.
활용된 실제 데이터의 구성
신경망의 학습과 평가를 위해 의료 AI 분야에서 국제적으로 가장 권위 있는 오픈 데이터셋 중 하나인 'AAPM Low-Dose CT (미국의학물리학회 저선량 CT 그랜드 챌린지)' 데이터가 사용되었습니다.
- 입력 및 출력 데이터 수량: 10명의 환자로부터 수집된 총 5,936장의 깨끗한 원본 2D CT 단면 이미지가 활용되었습니다. 이 중 알고리즘을 훈련하는 데 5,410장이 쓰였고, 모델이 한 번도 본 적 없는 환자의 데이터 526장을 별도로 분리하여 최종 테스트 평가용으로 사용했습니다.
- 데이터의 가공 (시뮬레이션 포맷): 병원의 CT 촬영 환경을 컴퓨터 속에서 구현하기 위해 'TorchRadon'이라는 오픈소스 물리 시뮬레이션 툴박스가 사용되었습니다. 부채꼴 형태의 방사선 빔(Fan-beam geometry)이 환자를 투과하는 상황을 모사합니다.
- 학습용 포맷: 깨끗한 원본 이미지(출력용 정답)를 시뮬레이터에 넣어 강제로 18번, 36번, 72번 각도에서만 촬영한 것과 같은 상태로 망가뜨립니다. 이렇게 생성된 [망가진 이미지 + 관측 잔차 채널] 구조가 입력 데이터의 포맷이 되며, 최종적으로는 노이즈가 없는를 복원해 내도록 정답(Label)이 주어집니다.
학습을 이끄는 두 가지 핵심 기준 (손실 함수)
모델이 학습할 때는 가중치를 올바른 방향으로 수정하기 위해 두 가지 형태의 채점표(손실 함수)를 사용합니다.
- 직접 복원 손실 (Direct Restoration Loss): 가장 직관적인 채점 방식입니다. 망가진 이미지를 신경망에 입력하여 잔차 조건부 교정 과정을 거친 후 최종 도출된 예측 이미지를, 실제 깨끗한 원본 이미지와 픽셀 대 픽셀로 비교합니다. 두 이미지 간의 수학적 거리 차이(L2 Norm)를 계산하여 이 차이를 0에 가깝게 줄이도록 신경망을 훈련합니다. 이는 모델이 가장 기본적인 복원 능력을 갖추도록 돕습니다.
- 오차 전파 복합 학습 손실 (EPCT, Error-Propagating Composite Training): 본 연구의 핵심 파트너였던 CvG-Diff에서 도입된 혁신적인 훈련 기법입니다. 실제 복원 시스템은 단 한 번의 예측으로 끝나지 않고 여러 단계를 거칩니다. 만약 모델이 항상 깨끗한 상태에서 출발하는 문제만 푼다면, 실전에서 이전 단계의 실수가 누적되어 입력될 때 당황하게 됩니다. 이를 방지하기 위해 학습 시퀀스 내에 가상의 '선생님 신경망(EMA Teacher Network)'을 둡니다. 선생님 신경망을 이용해 과거 단계에서 고의적으로 오차가 발생하고 그것이 다음 단계로 전파되어 누적된 형태의 가상 '중간 상태 이미지'를 합성해 냅니다. 학생 신경망은 이처럼 오차가 누적되어 더욱 엉망이 된 상태의 이미지를 입력받고도, 잔차를 이용해 원본 이미지를 복원해 내야 합니다. 이 복합 학습을 통해 신경망은 실전 추론 시 다단계 과정에서 발생하는 오차 누적에 강한 면역력(강건성)을 기르게 됩니다. 연구진은 매 반복(Iteration)마다 이 두 가지 채점 방식을 순차적으로 적용하여 모델을 최적화했습니다.
7. 결과: 얼마나 좋아졌나? (Results)
본 논문은 다양한 촬영 설정(18-view, 36-view, 72-view)에 대해 AAPM 데이터셋 환경에서 기존 SOTA(최고 성능) 모델들과 품질 및 처리 속도를 정량적으로 비교했습니다. 비교 대상은 한 번에 연산하는 피드포워드 방식의 FreeSeed, 수천 번 반복하는 초기 확률적 디퓨전 모델인 VSS, 빠른 가이던스를 제안한 COSIGN, 그리고 본 모델의 직접적 근간이 된 CvG-Diff입니다.
복원 영상의 화질 평가에는 픽셀 간 오차를 보는 RMSE(평균 제곱근 오차), 영상의 전체적인 신호 대비 잡음을 측정하는 PSNR(최대 신호 대 잡음비, 수치가 클수록 좋음), 인간의 시각 인지와 유사하게 구조적 형태를 평가하는 SSIM(구조적 유사도, 100%에 가까울수록 원본과 일치함) 지표가 사용되었습니다.
다양한 환경에서의 최고 성능(SOTA) 달성 입증
다음 표는 각 촬영 조건별 주요 지표들을 정리한 결과입니다.
| 모델명 (NFE: 신경망 연산 횟수) | 18-View (극단적 희소) | 36-View (중간 희소) | 72-View (경미한 희소) | 평균 복원 시간 (18-view 기준) |
| FreeSeed (단 1회) | PSNR 35.49 / SSIM 95.21 | PSNR 42.28 / SSIM 96.87 | PSNR 44.03 / SSIM 98.01 | 0.09초 (최고 속도) |
| VSS (1000회 반복) | PSNR 35.17 / SSIM 90.98 | PSNR 39.34 / SSIM 95.15 | PSNR 41.95 / SSIM 97.12 | 264.71초 (실사용 불가 수준) |
| COSIGN (10회 반복) | PSNR 31.84 / SSIM 86.31 | PSNR 34.96 / SSIM 89.67 | PSNR 37.87 / SSIM 93.20 | 1.82초 |
| CvG-Diff (10회 반복) | PSNR 36.65 / SSIM 95.18 | PSNR 41.77 / SSIM 97.05 | PSNR 45.63 / SSIM 98.54 | 0.69초 |
| ReCo-Diff (Ours, 16~18회) | PSNR 38.54 / SSIM 95.42 | PSNR 42.57 / SSIM 97.45 | PSNR 46.98 / SSIM 98.89 | 0.86초 |
(참고: PSNR은 로그 단위를 사용하므로, 1~2dB의 상승은 시각적인 노이즈가 비약적으로 감소하여 전문의의 육안으로도 확연히 구분되는 수치입니다.)
- 압도적인 화질 향상: ReCo-Diff는 모든 희소 촬영 조건에서 기존 베이스라인 모델들을 상회하는 압도적인 화질을 보여줍니다. 특히, 영상 데이터가 턱없이 부족하여 기존 기술들이 무너져 내리는 18-View 상황에서, 직전 최고 모델인 CvG-Diff 대비 PSNR을 1.89dB이나 끌어올리며(38.54 달성) 극한의 환경에서 진정한 강건성을 입증했습니다. 시각적 결과물 비교(Fig 3)에서도 타 모델들이 뭉개버리는 미세한 해부학적 구조와 미세 혈관 등을 선명하게 복원해 내고 스트릭 아티팩트를 깔끔히 제거하는 것을 확인했습니다.
- 오차 감소 궤적의 극적인 안정화: 이 논문의 가장 임팩트 있는 주장 중 하나는 '안정성'입니다. 결과 분석 그래프(Fig 4)를 살펴보면, 기존 CvG-Diff 모델은 단계가 지남에 따라 오차율(Error %)이 롤러코스터처럼 치솟았다가 다시 떨어지는 지그재그 패턴을 반복합니다. (품질이 떨어지면 강제로 초기화시키는 휴리스틱 스케줄 탓입니다.) 반면, ReCo-Diff의 오차 곡선은 매끄러운 미끄럼틀을 타듯 단 한 번의 튀어오름 없이 부드럽게 우하향 곡선을 그립니다. 물리적 잔차가 제대로 작동하고 있다는 가장 완벽한 증명입니다.
속도의 트레이드오프와 솔직한 한계점
디퓨전 모델은 본질적으로 여러 번 영상을 다듬는 구조적 특징을 지닙니다. 과거 1000회를 반복하며 한 장당 4분이 넘게(264초) 걸리던 VSS 모델의 악몽에 비하면, ReCo-Diff는 NFE(신경망 연산 횟수) 기준 16~18회(실제 디퓨전 샘플링 스텝은 8~9회) 만에 연산을 끝내며 0.86초까지 시간을 단축했습니다. 그러나 이는 여전히 단 한 번의 신경망 통과로 연산을 마치는 FreeSeed 방식(0.09초)보다는 약 10배가량 느립니다. 매 단계마다 기본 예측과 잔차 결합 예측이라는 두 번의 신경망 평가가 이루어져야 하므로 컴퓨팅 자원의 소모는 피할 수 없는 구조적 한계점입니다. 초각을 다투는 중증 외상 응급 환경에서 수백 장의 슬라이스를 실시간 스트리밍으로 복원해야 한다면, 이 시간적 지연은 실무 도입을 위해 반드시 극복해야 할 허들로 작용할 것입니다.
8. 이 논문의 계보와 발전 (Impact & Follow-ups)
ReCo-Diff는 영상 의학 복원 분야에 결정론적 제어와 잔차 조건이라는 새로운 스탠다드를 제시했습니다. 이 연구가 도달한 지점은 끝이 아니라, 2026년 현재 의료 AI 학계와 산업계에서 폭발적으로 성장하고 있는 새로운 트렌드들의 중요한 징검다리가 되고 있습니다.
- CT 파운데이션 모델(Foundation Models)로의 통합: 최근 MICCAI 2026 및 CVPR 워크샵과 같은 최상위 학회에서는 단일 질환이나 단일 장비에 국한되지 않고, 전신(복부, 흉부 등)에 걸친 다양한 촬영 조건과 질병의 종류(예: 림프절 비대, 신장 낭종, 비대증 등)를 통합적으로 이해하는 '의료 영상 파운데이션 모델' 구축 챌린지가 주요 아젠다로 부상하고 있습니다. 기존의 특정 뷰에 종속된 CNN 모델들과 달리, ReCo-Diff가 증명한 결정론적 물리 열화 모델링 기술은 다양한 제조사의 스캐너나 상이한 촬영 설정으로 수집된 이질적인 CT 데이터 간의 도메인 격차(Domain Shift)를 줄이는 기반 기술로 기능합니다. 파운데이션 모델의 든든한 데이터 정제 전처리 모듈로서 자리매김할 잠재력을 지닙니다.
- 2D 단면을 넘어 3D 입체 영상의 일관성 보장 (Inter-Slice Consistency): ReCo-Diff를 포함한 현재의 주류 디퓨전 모델들은 대부분 2D 평면 이미지 슬라이스를 낱장 단위로 복원하는 데 집중하고 있습니다. 하지만 실제 임상 현장의 의사들은 복원된 2D 슬라이스를 수백 장씩 차곡차곡 쌓아 올려 3D 입체 렌더링으로 환자의 장기를 관찰합니다. 이때 낱장 단위로 복원된 슬라이스들 간에 오차가 미세하게 어긋나게 되면, 3D로 쌓았을 때 혈관이 툭툭 끊기거나 장기 표면에 인공적인 계단 현상이 나타나는 부작용이 발생합니다. 이에 대응하기 위해, 2026년 ICLR 등의 학회에서는 슬라이스 간의 무작위성을 제어하여 Z축 방향의 연속성을 보장하는 ISCS (Inter-Slice Consistent Stochasticity)와 같은 제어 이론들이 속속 등장하고 있습니다. ReCo-Diff의 강력한 2D 잔차 조건부 로직과 이러한 3D 일관성 유지 기법이 결합된다면, 계산 복잡도를 폭발시키지 않으면서도 완벽한 3D 고정밀 복원이 가능해지는 차세대 연구로 진화할 것입니다.
- 동적 장기와 융합 기술 (Cardiac CT 및 복합 모달리티): CT 기술 중 가장 촬영 난이도가 높은 분야는 끊임없이 박동하는 심장을 촬영하는 '심장 CT(Cardiac CT)' 및 '심초음파(Echocardiogram)'입니다. 심장 박동으로 인해 발생하는 모션 아티팩트(Motion Artifact)는 구조가 매우 복잡합니다. 최신 연구들은 ReCo-Diff가 희소 촬영 잔차를 다루었던 방식을 응용하여, 모션으로 인한 물리적 잔차 자체를 디퓨전 과정의 역산 조건으로 주입하는 3D 잠재 디퓨전 모델(Latent Diffusion Models) 연구로 확장하고 있습니다. 이는 구조적 오류를 통제한다는 점에서 본 논문과 철학적 궤를 같이하는 발전 방향입니다.
9. 마무리
지금까지 살펴본 ReCo-Diff 논문은, 디퓨전 모델이 지니고 있던 본질적인 취약점인 '누적되는 오차의 불확실성'을 통제하기 위해 시스템 외부에서 억지로 시계를 멈추고 리셋 버튼을 누르는 대신, 모델 내부의 신경망 로직 안에 '관측 잔차'라는 물리적 진실을 길잡이로 직접 이식했다는 점에서 구조적 우수성이 빛을 발하는 연구입니다. 무작위 노이즈를 걷어내는 수학적 묘기를 물리적 현실 세계의 결정론적 한계를 극복하는 실용적 도구로 한 단계 격상시켰다는 평가를 내릴 수 있습니다.
본 논문을 심층 분석하며 실무 환경에 적용하고자 할 때 고려해야 할 인사이트와 주의할 점은 다음과 같습니다.
- 블랙박스 제어 메커니즘의 모범적 사례 창출: 대형 딥러닝 모델의 고질적인 한계는 중간 과정을 인간이 해석하거나 통제하기 어렵다는 '블랙박스(Black-box)' 성향입니다. 이전 모델들(CvG-Diff 등)이 결과물이 나빠지는 것을 보고 급하게 시스템의 퓨즈를 차단하는 방식으로 개입했다면, 이 연구는 모델의 입력단 설계 자체에 오차 정보를 병합하는 우회로를 뚫어 모델 스스로 궤도를 수정하게 만들었습니다. 이는 희소 촬영 CT 복원을 넘어, 낡은 필름 손상 복원, 기상 이변 예측 등 '결정론적인 물리 법칙'이 지배하지만 역산이 까다로운 모든 인버스 문제(Inverse Problem) 도메인에 광범위하게 적용할 수 있는 훌륭한 엔지니어링 템플릿(Template)을 제시합니다.
- 현업 도입 시의 하드웨어 딜레마 (GPU 메모리 및 연산 속도): 알고리즘 벤치마크 결과 장당 복원 속도가 1초 이내(0.86초)로 최적화되었음에도 불구하고, 실제 병원 환경 도입에는 병목이 발생할 수 있습니다. 일반적인 복부나 흉부 CT 한 세트는 보통 300~500장의 단면 슬라이스로 구성됩니다. 0.86초씩 계산한다면 환자 한 명당 최소 4분에서 7분의 추가 연산 시간이 필요합니다. 게다가 잔차 조건부 로직은 매 스텝마다 기본 예측과 오차 결합 예측 등 두 번의 신경망 통과(Network Forward Pass)를 수반하므로, 피드포워드 CNN 모델보다 방대한 VRAM과 고대역폭 메모리 전송을 일시적으로 점유하게 됩니다. 따라서 스캐너 장비 옆에 부착되는 소형 엣지(Edge) 컴퓨터보다는, 병원의 중앙 의료영상저장전송시스템(PACS) 서버 내에 거대한 GPU 클러스터를 구축하고 백그라운드 후처리 작업으로 구동시키는 형태의 인프라 설계가 요구됩니다.
- 생성 AI가 지닌 '할루시네이션(환각)'의 치명적 위험성: 의료 AI의 상용화 과정에서 임상 전문의들이 가장 우려하는 대목은 생성 모델 특유의 할루시네이션(Hallucination) 현상입니다. 모델이 자신이 배운 정답(깨끗하고 매끄러운 장기 형태)을 강박적으로 만들어내기 위해, 실제 환자에게는 존재하지 않는 혈관 구조를 그럴듯하게 그려 넣거나, 반대로 극초기 단계의 불규칙한 미세 종양을 노이즈 잔여물로 착각하여 지워버릴 수 있는 위험이 늘 존재합니다. ReCo-Diff가 매 단계 실제 관측된 물리 데이터를 잔차로 점검하며 이 위험성을 크게 낮춘 것은 큰 성과입니다. 하지만, PSNR이나 SSIM 같은 수학적 지표가 높게 나왔다고 해서 무조건 임상적으로 안전함을 의미하지는 않습니다. 향후 상용화를 위해서는, 알고리즘이 예측한 영역 중 어느 부분이 높은 확률적 불확실성을 가지는지 의사에게 히트맵 형태로 시각화해 주는 설명 가능성(Explainability) 기술이 반드시 덧붙여져야 합니다. 또한, 영상의학과 전문의들이 복원된 영상을 바탕으로 진행하는 블라인드 리딩(Blind Reading) 및 오진율 평가와 같은 엄격한 임상 검증 연구가 뒤따를 때, 비로소 이 훌륭한 알고리즘이 환자의 생명을 구하는 일선 현장에 깊숙이 뿌리내릴 수 있을 것입니다.