본문 바로가기

딥러닝

ONIX - An X-ray deep-learning tool for 3D reconstructions from sparse views - 3차원 정답 데이터 없이 극소수의 투영장만으로 연속적 3D 복원을 달성하다

반응형


일러두기 (Disclaimer)

본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.

 

 

논문 링크 : https://arxiv.org/abs/2203.00682

 

ONIX: an X-ray deep-learning tool for 3D reconstructions from sparse views

Three-dimensional (3D) X-ray imaging techniques like tomography and confocal microscopy are crucial for academic and industrial applications. These approaches access 3D information by scanning the sample with respect to the X-ray source. However, the scann

arxiv.org

 

 

초록 (Abstract)

시간 분해능을 갖춘 3차원(3D) X-선 이미징 기술은 각 시점의 3D 정보를 획득하는 데 의존하며, 학계 및 산업계의 재료 과학 응용 분야에서 핵심적인 역할을 합니다. 단층 촬영(Tomography)이나 공초점 현미경(Confocal microscopy)과 같은 표준 3D X-선 이미징 기술은 X-선 소스에 대해 샘플을 스캔하는 방식으로 3D 정보에 접근합니다. 하지만 스캔 과정은 동적 현상을 연구할 때 시간 분해능을 제한하며, 금속 폼(Metallic foams)의 세포벽 파열과 같은 많은 재료 과학 응용 분야에서는 실현하기 어렵습니다. 스캔이 불가능할 때 3D 정보를 얻는 대안으로는 X-선 입체 촬영(Stereoscopy) 및 다중 투영 이미징(Multi-projection imaging)이 있습니다. 하지만 이러한 접근법은 기존의 3D 스캔 기술과 비교할 때 극히 적은 수의 뷰(View)나 투영장(Projections)만을 획득하므로 체적(Volumetric) 정보가 제한된다는 단점이 있습니다.

본 연구에서는 작고 제한된 수의 희소 투영(Sparse projections) 집합만으로 연속적인 3D 객체 표현을 복원할 수 있는 딥러닝 알고리즘인 최적화된 신경망 암시적 X-선 이미징(ONIX, Optimized Neural Implicit X-ray imaging)을 제시합니다. ONIX는 X-선 전파 물리학에 대한 정확하고 미분 가능한 모델을 기반으로 합니다. 제한된 희소 뷰가 제공하는 체적 정보의 한계를 극복하기 위해 유사한 샘플의 다양한 인스턴스에 걸쳐 일반화(Generalization)를 수행합니다. 우리는 최대 8개의 투영장만을 획득한 시뮬레이션 및 실험 데이터셋에 ONIX를 적용하여, 최신 단층 촬영 복원 알고리즘과 비교한 ONIX의 성능을 입증합니다. ONIX는 어떠한 체적 정보에도 접근하지 않음에도 불구하고, 다양한 인스턴스에 대한 일반화 없이 단일 인스턴스만을 사용하여 복원하는 비지도 학습 기반 복원 알고리즘의 성능을 뛰어넘습니다.

우리는 ONIX가 (i) X-선 다중 투영 이미징과 함께 구현될 경우 오늘날에는 불가능한 빠른 동적 현상 연구를 가능하게 하고, (ii) X-선 입체 촬영 이미징의 체적 정보 및 기능을 향상시킴으로써 X-선 연구 커뮤니티의 핵심 도구가 될 것으로 예상합니다.

 

1. 한줄 요약 & 3줄 핵심 (Executive Summary)

ONIX는 X-선 투과 물리학을 내재화한 딥러닝 모델을 통해, 3차원 정답 데이터 없이 단 1~8장의 희소한 2D X-선 사진만으로 피사체의 연속적인 3D 형상을 고해상도로 복원해내는 기술입니다.

  1. 기존의 문제점 (Pain point): 기존 3D X-선 단층 촬영은 스캔 시간이 오래 걸려 빠른 동적 현상을 관찰할 수 없었으며, 다중 투영 기법은 촬영 뷰(View)가 극히 적어 3D 복원 시 정보 부족 현상이 발생했습니다. 더불어 기존 딥러닝 방식은 막대한 메모리를 요구하는 복셀 격자를 사용하거나 3D 정답 데이터를 필수로 요구했습니다.
  2. 이 논문의 해결책 (Solution): 공간을 복셀이 아닌 연속적인 함수(암시적 표현)로 정의하여 메모리 문제를 해결하고, X-선 물리 법칙(투영 근사법)을 융합한 신경망을 통해 여러 유사 데이터 간의 특징을 '일반화'하여 적은 정보량을 극복했습니다.
  3. 달성한 성과 (Key Result): 3D 정답 데이터(Ground Truth)를 제공받지 않은 비지도 학습 환경에서도 단 8장의 투영장만으로 기존의 수학적 복원 기법(SART)과 비지도 학습 모델(Noise2Inverse)을 뛰어넘어, 3D 지도 학습 모델에 필적하는 고품질 3D 복원에 성공했습니다.

 

2. 들어가며: 왜 이 연구가 필요했나? (The "Why")

1895년 뢴트겐이 X-선을 발견한 이래로, 방사선의 높은 투과력은 물체의 내부 구조와 체적 정보를 파괴 없이 파악할 수 있는 핵심적인 수단으로 발전해 왔습니다. 이러한 특성은 의학, 생물학, 화학, 재료 과학 및 산업 공정에 이르기까지 다양한 분야에서 필수적인 3D 단층 촬영(Tomography) 기술의 근간이 되었습니다. 표준적인 3D 단층 촬영 기술은 피사체를 중심에 두고 X-선 발생기나 검출기를 360도 회전시키며 수백에서 수천 장의 투영 이미지를 획득하는 스캔 방식을 사용합니다. 수집된 방대한 데이터는 역투영 알고리즘 등을 거쳐 물체 내부의 밀도 분포를 3차원 복셀(Voxel) 데이터로 재구성하게 됩니다.

 

그러나 현대 과학이 나노 단위의 미세 구조와 마이크로초 단위의 초고속 현상을 탐구하는 방향으로 발전함에 따라, 전통적인 스캔 방식은 물리적 한계에 직면하게 되었습니다. 가장 치명적인 단점은 시간 분해능(Temporal resolution)의 상실입니다. 금속 폼(Metallic foams) 내부에서 세포벽이 파열되는 과정, 유체가 혼합되는 찰나의 순간, 배터리 충방전 시 발생하는 급격한 구조 변화 등을 3D로 관찰하고자 할 때, 스캔에 소요되는 시간은 해당 물리적 현상이 지속되는 시간보다 훨씬 깁니다. 스캔을 진행하는 동안 피사체의 형태가 변형되면 심각한 모션 아티팩트(Motion artifact)가 발생하여 복원된 3D 이미지의 형상을 알아볼 수 없게 됩니다. 또한, 연속적인 스캔 과정 자체가 피사체에 물리적인 힘을 가하거나, 장시간의 방사선 노출로 인해 의료용 샘플이나 방사선에 민감한 생물학적 표본에 돌이킬 수 없는 손상을 입히는 문제도 존재합니다.

 

연구자들은 이러한 스캔 과정의 지연을 해결하기 위해 피사체를 회전시키는 대신 여러 대의 X-선 검출기와 광원을 동시에 배치하는 방식을 고안했습니다. 한 번의 X-선 조사로 여러 각도에서 동시에 투영장을 얻어내는 X-선 입체 촬영(Stereoscopy)이나 다중 투영 이미징(Multi-projection imaging) 기법이 그 대안으로 등장했습니다. 특히 최근 가동을 시작한 4세대 방사광 가속기(Diffraction-limited storage rings)나 X-선 자유 전자 레이저(XFEL)와 같은 고휘도 광원과 결합할 경우, 이러한 비스캐닝(Non-scanning) 기법은 전례 없는 펨토초 단위의 시간 분해능을 제공할 수 있습니다. 단 한 번의 강력한 X-선 펄스로 샘플이 파괴되기 직전의 구조를 포착하는 회절 전 파괴(Diffraction-before-destruction) 모드에서도 3D 정보를 얻을 수 있는 가능성이 열린 것입니다.

 

하지만 이 혁신적인 접근법은 또 다른 거대한 장벽에 부딪혔습니다. 물리적인 장비 구성의 한계와 검출기 배치 공간의 제약으로 인해 획득할 수 있는 뷰(View)의 개수가 2개에서 8개 정도로 극도로 제한된다는 점입니다. 전통적인 물리학 및 신호 처리 이론인 '크라우더 기준(Crowther criterion)'에 따르면, 특정 해상도로 3D 객체를 수학적으로 완벽히 복원하기 위해서는 물체의 크기와 해상도에 비례하는 최소한의 투영장 개수가 필수적입니다. 고작 8장 남짓한 투영장으로 3D 체적을 복원하려는 시도는 방정식의 개수보다 미지수가 기하급수적으로 많은 전형적인 과소결정(Under-constrained) 문제가 되며, 기존의 선형 대수학 기반 재구성 알고리즘을 적용할 경우 심각한 노이즈와 왜곡이 발생하여 체적 정보로서의 가치를 상실하게 됩니다.

 

이러한 희소 뷰(Sparse views)의 한계를 극복하기 위해 컴퓨터 비전 분야에서 급격히 발전한 딥러닝(Deep Learning) 기술이 도입되기 시작했습니다. 그러나 초기 딥러닝 접근법 역시 한계가 뚜렷했습니다. 기존의 합성곱 신경망(CNN) 기반 모델들은 3D 공간을 3차원 픽셀인 '복셀(Voxel)' 단위의 정규 격자로 나누어 연산했습니다. 복셀 기반 표현은 해상도가 선형적으로 증가할 때마다 필요한 메모리와 연산량이 세제곱으로 폭증하는 치명적인 구조적 한계가 있어, 고해상도를 요구하는 X-선 이미징에서는 작은 부피(Volume)에만 제한적으로 적용될 수 있었습니다. 대규모 체적을 복원하기 위해 샘플을 얇은 슬라이스(Slice)로 나누거나 슬라이딩 윈도우(Sliding-window) 방식을 사용하는 꼼수를 동원했지만, 이는 전체 객체의 다양한 스케일에 걸친 전역적 특징을 학습하는 것을 불가능하게 만들었습니다.

 

더욱 근본적인 문제는 학습 데이터의 부재였습니다. 대부분의 고성능 3D 딥러닝 모델들은 학습 과정에서 완벽한 3D 체적 데이터(Ground Truth)를 정답지로 요구하는 지도 학습(Supervised learning) 방식을 채택하고 있습니다. 그러나 재료 과학이나 유체 역학의 최전선 실험에서는 애초에 동적 현상에 대한 완벽한 3D 정답 데이터를 얻는 것 자체가 불가능합니다. 결과적으로 연구자들은 막대한 메모리를 소모하는 복셀 격자의 굴레를 벗어나면서도, 3D 정답 데이터의 도움 없이 극소수의 2D 사진만으로 고품질의 3D 객체를 복원해 낼 수 있는 새로운 패러다임의 알고리즘을 간절히 필요로 하게 되었고, 이러한 학계의 고민과 기술적 병목 현상이 ONIX(Optimized Neural Implicit X-ray imaging)가 탄생하게 된 결정적인 배경이 되었습니다.

 

3. 이 논문의 뿌리 (Key Reference)

ONIX 모델은 컴퓨터 비전 분야의 최신 인공지능 기술과 방사선 물리학의 전통적인 재구성 이론을 창의적으로 융합한 결과물입니다. 이 연구가 탄생하기 위해 가장 큰 영감을 주었거나 비판적으로 계승한 핵심 연구들은 다음과 같습니다.

  • Mildenhall et al. (2020) - NeRF (Neural Radiance Fields): 이 연구는 3D 공간을 복셀 대신 연속적인 함수로 표현하는 '암시적 신경망 표현(Neural Implicit Representation)'의 개념을 확립했습니다. ONIX는 이 구조를 차용하여 메모리 소모 한계를 극복했습니다.
  • Andersen & Kak (1984) - SART (Simultaneous Algebraic Reconstruction Technique): 소수의 투영장만 주어졌을 때 전통적으로 사용해 온 반복적 대수학 복원 기법입니다. ONIX 논문에서는 가장 대표적인 베이스라인 모델로 사용되어, 딥러닝이 어떻게 수학적 한계를 뛰어넘는지 증명하는 역할을 수행합니다.
  • Shen et al. (2021) 등 - 의료용 암시적 신경망 (Medical Implicit Nets): ONIX 이전에 CT 등 의료 분야에 암시적 표현을 적용한 선행 연구입니다. 단일 객체에 과적합되어 60장 이상의 투영장이 필요하다는 단점이 있었으나, ONIX는 이를 비판적으로 계승하여 '인코더'를 추가함으로써 단 8장으로도 학습할 수 있도록 일반화 능력을 부여했습니다.
  • Hendriksen et al. (2020) - Noise2Inverse (N2I): 3D 정답 데이터 없이 노이즈를 제거하는 최신 비지도 학습(Self-supervised) 기법입니다. ONIX의 성능을 평가할 때 가장 강력한 비교군(State-of-the-art unsupervised approach)으로 활용되었습니다.

가장 주목해야 할 선행 연구는 Mildenhall 연구진이 발표한 NeRF(Neural Radiance Fields)와 이를 계승한 암시적 신경망 표현(Implicit Neural Representation) 기술입니다. 과거의 딥러닝 모델들이 3D 데이터를 작은 정육면체 블록(복셀)의 집합으로 이해했다면, 이 기술은 공간의 특정 위치 좌표를 입력하면 해당 위치의 색상과 밀도 값을 출력하는 '연속적인 함수' 그 자체로 공간을 해석합니다. ONIX 연구진은 이러한 암시적 표현 방식이 X-선 이미징의 막대한 메모리 소모 문제를 해결할 수 있는 열쇠라고 판단하고 그 기본 뼈대를 적극적으로 수용했습니다. 다만, 광학 카메라 기반의 NeRF를 그대로 사용할 수는 없었기에, 빛의 반사를 계산하던 기존 공식을 X-선의 투과와 감쇠를 설명하는 투영 근사법(Projection approximation)이라는 물리 모델로 완전히 교체하여 재구성했습니다.

 

또한 Shen 연구진(2021) 등이 시도했던 의료 영상 분야의 초기 암시적 신경망 연구들을 비판적으로 발전시켰습니다. 기존 연구들은 개별 환자나 단일 샘플의 CT 데이터를 복원하는 데는 성공했지만, 모델이 오직 '하나의 객체'에만 과적합(Overfitting)되어 학습되는 치명적인 한계가 있었습니다. 따라서 특정 객체를 복원하려면 여전히 60장 이상의 많은 투영 데이터가 필요했습니다. ONIX는 이러한 한계를 극복하기 위해 다수의 실험 데이터로부터 보편적인 특징을 추출해 내는 합성곱 신경망(CNN) 기반의 인코더 구조를 전면에 배치했습니다.

 

전통적인 수리 모델과의 비교를 위해서는 1984년에 제안된 SART(Simultaneous Algebraic Reconstruction Technique)를 채택했습니다. SART는 소수의 뷰가 주어졌을 때 선형 대수학적 반복 연산을 통해 3D 단층을 추정하는 기법으로, 오늘날까지도 희소 투영 복원의 표준으로 널리 쓰입니다. 더불어 2020년에 제안된 Noise2Inverse 모델을 도입하여 3D 정답 데이터가 없는 환경에서의 최신 딥러닝 성능을 평가하는 기준으로 삼았습니다. ONIX는 이러한 선행 기술들의 장점을 흡수하고 단점을 물리 법칙 내재화를 통해 극복하며 새로운 세대의 복원 도구로 자리매김했습니다.

 

4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)

ONIX가 기존의 수많은 3D 복원 모델들과 확연히 구분되는 혁신성은 크게 두 가지 발상의 전환에서 비롯됩니다. 이를 직관적인 비유와 도식을 통해 설명하겠습니다.

 

발상의 전환 1: 격자형 데이터(복셀)에서 연속적인 함수(Implicit)로의 전환

이전의 딥러닝 모델들은 3차원 공간을 무수히 많은 정육면체 픽셀, 즉 '복셀(Voxel)'로 분할하여 저장하고 연산했습니다. 이는 컴퓨터 화면의 디지털 이미지를 확대하면 네모난 픽셀 테두리가 깨져 보이는 비트맵(Bitmap) 이미지 처리 방식과 정확히 동일합니다. 정밀한 복원을 위해 해상도를 두 배로 높이면 가로, 세로, 높이가 각각 두 배가 되어 연산에 필요한 메모리는 여덟 배로 폭증합니다.

 

ONIX는 공간을 물리적인 격자로 쪼개는 방식을 과감히 버리고, 공간 상의 특정 위치 좌표 $(x, y, z)$를 입력하면 그 위치의 물질 밀도와 굴절률을 계산해 내는 '함수' 자체를 인공지능이 학습하도록 만들었습니다. 이는 이미지를 아무리 확대해도 선명한 곡선이 유지되는 벡터(Vector) 그래픽 방식과 같습니다. 공간 상의 무한한 소수점 좌표를 함수에 집어넣어 값을 얻어낼 수 있으므로, 컴퓨터의 그래픽 카드 메모리를 적게 차지하면서도 이론상 해상도의 제약이 없는 무한대의 해상도(Theoretically infinite resolution)를 달성할 수 있게 되었습니다.

 

발상의 전환 2: 단일 암기가 아닌, 개념의 '일반화(Generalization)' 학습

과거의 3D 복원 모델이나 초기 암시적 모델들은 주어진 8장의 사진만 보고 그 형태의 빈 곳을 단순한 수리적 보간법으로 끼워 맞추는 데 급급했습니다. 비유하자면, 생전 처음 보는 특정 조각상의 측면 사진 8장만을 보고 조각상의 보이지 않는 뒷모습을 상상해서 찰흙으로 빚어내야 하는 것과 같습니다. 정보가 턱없이 부족하기 때문에 뒷모습이 기형적으로 빚어지기 일쑤였습니다.

 

여기서 ONIX는 두 번째 발상의 전환을 이룹니다. 인공지능 모델에게 오직 복원해야 할 하나의 피사체 사진만 보여주는 것이 아니라, '유사한 성질을 가진 다른 피사체(인스턴스)'들을 촬영한 여러 다중 투영 실험 데이터 수십 개를 동시에 제공하여 학습시킵니다. 인공지능은 데이터 A의 사진들, 데이터 B의 사진들, 데이터 C의 사진들을 종합적으로 분석합니다.

 

이 과정을 통해 ONIX는 단순히 사진을 암기하는 것이 아니라, "아, 이 실험에서 관찰되는 금속 폼의 기포들은 대략 이런 곡률과 물리적 형태를 가지고 생성되는구나"라는 보편적인 개념과 특징을 스스로 깨우치게 됩니다. 이를 일반화(Generalization) 혹은 사전 지식의 전이(Transferring prior knowledge)라고 합니다. 이렇게 전반적인 도메인 지식을 학습한 ONIX 조각가는, 새로운 조각상의 사진이 단 2~3장만 주어지더라도 자신이 머릿속에 축적한 배경 지식을 바탕으로 보이지 않는 영역의 형태를 매우 자연스럽고 정확하게 추론하여 채워 넣을 수 있습니다.

 

5. 작동 원리: 어떻게 돌아가는가? (The "How")

ONIX 모델이 데이터를 입력받아 최종적인 3D 결과물을 생성해 내기까지의 전 과정은 정밀한 파이프라인으로 구성되어 있습니다. 전체 시스템은 크게 영상의 특징을 추출하는 인코더(Encoder, E)와, 추출된 특징과 공간 좌표를 융합하여 밀도를 계산하는 완전 연결 신경망(Fully-connected neural network, F)이라는 두 개의 두뇌로 나뉩니다. 데이터가 처리되는 흐름을 단계별로 자세히 살펴보겠습니다.

  1. 제약 조건 뷰 선택 (Constraints Selection): 시스템은 다중 투영 실험을 통해 얻은 여러 장의 2D X-선 투영장 중 일부를 모델을 조건화하기 위한 기준점, 즉 '제약 조건(Constraints)'으로 무작위 선택합니다. 예를 들어 총 8장의 사진을 획득했다면, 그중 3장에서 6장 정도를 학습을 위한 기준 정보로 채택합니다.
  2. 인코더(E)를 통한 잠재 특징 추출 (Latent Feature Extraction): 선택된 2D 사진들은 ResNet34라는 널리 알려진 고성능 이미지 처리 신경망을 기반으로 한 인코더를 통과합니다. 이 인코더는 사전에 대규모 이미지 데이터셋(ImageNet)으로 훈련되어 있어 물체의 윤곽이나 질감을 파악하는 능력이 탁월합니다. 인코더는 입력된 X-선 투영장(감쇠 및 위상 정보 포함)을 분석하여 단순한 픽셀의 명암이 아닌, 물체의 기하학적 형태와 경계면 정보를 함축하고 있는 고차원의 데이터 지도인 '잠재 벡터(Latent vectors)'로 압축하여 변환합니다.
  3. 아핀 좌표 변환 (Affine Coordinate Transformation): 모델은 밀도를 예측할 가상의 3D 공간 상의 무수한 점(x, y, z 좌표)들을 설정합니다. 하지만 인코더가 만들어낸 특징 지도는 2D 형태입니다. 따라서 3D 공간의 특정 점이 각 X-선 투영 시점에서 바라보았을 때 2D 사진 상의 어느 픽셀 위치에 맺히는지 수학적으로 계산해야 합니다. 모델은 글로벌 3D 좌표를 각 투영 시점의 로컬 2D 좌표로 매핑하는 기하학적 좌표 변환을 수행합니다.
  4. 위치 인코딩을 통한 주파수 증폭 (Positional Encoding): 단순히 x, y, z 좌표를 그대로 메인 신경망에 입력하면, 인공지능 모델은 물체의 날카로운 모서리보다 둥글고 부드러운 전반적인 형태(저주파수 대역)만 우선적으로 학습하려는 편향성을 보입니다. 물체의 선명한 경계선과 미세 구조(고주파수 대역)를 살려내기 위해, 입력 좌표를 사인(sin)과 코사인(cos)의 푸리에 기저 함수를 이용해 더 높은 차원의 복잡한 신호로 뻥튀기하는 과정을 거칩니다. 이 위치 인코딩 과정을 통해 모델은 미세한 픽셀 변화에도 민감하게 반응할 수 있게 됩니다.
  5. 완전 연결 신경망(F)의 복소 굴절률 예측: 이제 모든 핵심 정보가 모였습니다. 앞서 증폭된 3D 위치 정보와, 해당 위치에 대응하는 인코더의 2D 잠재 벡터 정보를 메인 신경망(F)에 함께 입력합니다. 내부의 신경망 블록들은 이 정보들을 종합하여, 3D 좌표 위치에 물질이 얼마나 밀도 있게 분포하고 있는지를 수치화한 복소 굴절률(Complex index of refraction, $n = 1 - \delta + i\beta$)을 출력합니다. 여기서 계산되는 값은 물체가 X-선의 세기를 약화시키는 정도(감쇠, $\beta$)와 X-선 파동의 위상을 변화시키는 정도(위상 이동, $\delta$)를 모두 포함하는 완전한 물리적 지표입니다.
  6. 가상 광선 추적(Ray Tracing) 및 2D 투영장 생성: 마지막으로, 신경망이 빚어낸 3D 체적이 실제 물체와 동일한지 검증해야 합니다. 모델은 예측된 3D 공간 함수 구조체에 가상의 X-선을 통과시키는 광선 추적 시뮬레이션을 수행합니다. 이때 빛의 회절을 무시하고 직진성을 가정하는 '투영 근사법(Projection approximation)'이라는 물리 법칙을 적용합니다. 빛이 3D 공간을 뚫고 지나가면서 누적된 감쇠와 위상 변화량을 계산하여, 가상의 X-선 검출 평면에 2D 투영 이미지를 생성해 냅니다.

이러한 일련의 과정은 입력된 데이터를 바탕으로 3D 함수를 구성하고 다시 2D로 투영하는 물리적 순환 구조를 완벽하게 모사하고 있습니다.

 

6. 작동 원리: 어떻게 학습하는가? (The "How")

ONIX가 정밀한 3D 재구성을 수행할 수 있도록 지능을 훈련시키는 과정은 3D 정답 데이터가 전혀 필요 없는 비지도 학습(Unsupervised learning) 메커니즘을 따릅니다. 즉, 인공지능이 스스로 생성한 가상의 2D 투영장과 실제 X-선으로 촬영한 2D 원본 사진 간의 차이를 줄여나가는 자기 일관성(Self-consistency) 확보 방식을 사용합니다. 학습을 위해 투입되는 데이터의 구체적인 구성은 다음과 같습니다.

입력 및 출력 데이터 구조 요약

  • 입력 데이터 (시뮬레이션): X-선 2D 이미지 (다중 투영 모사)
    • 포맷: $256 \times 256$ 픽셀 해상도, 2채널(감쇠 및 위상 정보)
    • 객체 수: 무작위 타원체들이 포함된 독립적인 3D 객체 1000개
    • 투영 뷰: $0^\circ$에서 $140^\circ$ 사이의 좁은 간격에 배치된 8개의 투영장
  • 입력 데이터 (실험 환경): 방사광 가속기 X-선 2D 이미지
    • 포맷: $180 \times 256$ 픽셀 해상도로 축소된 이미지, 1채널(감쇠 정보만 존재)
    • 객체 수: 스위스 TOMCAT 가속기에서 획득한 금속 폼(Thixo) 실험 데이터 168개
    • 투영 뷰: $0^\circ$에서 $131^\circ$ 사이에 균등 분포된 8개의 투영장
  • 학습 중 출력 (Output): 생성된 2D 가상 투영장
    • 모델이 예측한 체적을 물리 방정식(Ray tracing)으로 투영해 낸 가상의 2D 픽셀 데이터 모음
  • 최종 추론 결과물: 연속적 3D 복소 굴절률 체적
    • 임의의 해상도(예: $256 \times 256 \times 256$ 복셀 격자)로 렌더링된 3D 단층 이미지 및 슬라이스

학습 최적화 과정은 다음과 같이 진행됩니다. 모델이 임의로 초기화된 상태에서 앞서 설명한 프로세스를 통해 가상의 2D 투영장을 생성합니다. 손실 함수(Loss function)는 이 가상의 2D 픽셀 값과, 실제 입력 데이터로 제공된 2D 원본 이미지의 픽셀 값 간의 유클리드 거리 오차(Squared $L_2$ Norm)를 정밀하게 수치화합니다. 인공지능은 이 오차를 최소화하는 방향으로 인코더와 신경망 내부의 가중치 파라미터들을 역전파 알고리즘(Adam optimizer)을 통해 끊임없이 미세 조정합니다.

 

다만, $256 \times 256$ 해상도의 이미지에 포함된 수만 개의 픽셀과 무수한 가상 광선의 경로를 한 번의 연산에 모두 포함하는 것은 최고 사양의 그래픽 카드 메모리로도 감당할 수 없습니다. 따라서 연구진은 여론 조사를 하듯 무작위로 여러 가닥의 광선(Ray sampling)을 추출하여 오차를 계산하는 기법을 도입했습니다. 학습 효율을 극대화하기 위해 빈 배경 공간보다는 물체의 윤곽선이나 밀도 변화가 급격한 경계면 픽셀을 더 자주 추출하는 기울기 샘플링(Gradient sampling) 기법을 적용하여 모델의 수렴 속도와 선명도를 획기적으로 높였습니다. 40GB 메모리를 갖춘 NVIDIA A100 GPU를 사용하여 실험 데이터셋 기준으로 약 12시간에서 24시간의 훈련 과정을 거쳐 안정적인 모델 최적화에 도달했습니다.

 

7. 결과: 얼마나 좋아졌나? (Results)

단 8장의 제한된 투영 이미지만을 사용하여 도출한 ONIX의 3D 복원 결과는 기존의 재구성 알고리즘들과 비교할 때 질적, 양적으로 압도적인 성능 향상을 입증했습니다. 정량적 평가를 위해 예측된 3D 체적이 완벽한 정답과 얼마나 일치하는지 거리 오차를 측정하는 $L_2$ Norm 지표와, 사람의 인지 관점에서 이미지의 구조적 유사성과 이질성을 평가하는 DSSIM(Dissimilarity Structure Similarity Index Metric) 지표를 적용했습니다. 두 지표 모두 수치가 작을수록 원본에 가까운 우수한 품질을 의미합니다.

 

3D 재구성 알고리즘 성능 지표 비교 (8개의 투영장 입력 기준)

재구성 알고리즘 (학습 방식) 시뮬레이션 L2 (×10−2) 시뮬레이션 DSSIM (×10−2) 실험 데이터 L2 (×10−2) 실험 데이터 DSSIM (×10−2)
3D Supervised (지도 학습, 3D 정답 데이터 학습에 활용) 1.1 0.86 5.5 3.3
SART (수학적 반복 기법, 정답 데이터 미사용) 21.0 7.5 21.0 16.0
Noise2Inverse (최신 비지도 학습, 정답 데이터 미사용) 39.6 15.3 17.5 12.9
ONIX (본 논문 - 비지도 학습, 3D 정답 미제공) 5.1 1.6 5.4 3.3

 

정량 및 시각적 성과 분석

표의 결과를 분석해 보면, 전통적인 수리 기법인 SART와 최신 비지도 학습 방식인 Noise2Inverse는 오차율($L_2$)과 구조적 이질성(DSSIM)이 모두 매우 높게 나타납니다. 뷰(View)의 개수가 8개로 극도로 적기 때문에 두 방식 모두 화면에 안개가 낀 것처럼 뿌연 아티팩트(Artifacts)를 다량 생성하며 저주파 왜곡을 피하지 못했습니다.

 

반면 ONIX는 동일하게 8장의 투영장만 사용하고도 SART 대비 오차를 무려 4분의 1 수준으로 급감시키는 혁신적인 성능을 보여주었습니다. 시각적인 3D 렌더링 결과물에서도 금속 폼 내부의 미세 대 기포 벽들이 뭉개짐 없이 매우 또렷하고 날카롭게 분리되어 표현되었습니다. 가장 괄목할 만한 성과는 3D 공간 전체의 완벽한 정답지(Ground truth)를 쥐고 훈련한 지도 학습(3D Supervised) 방식과 비교했을 때 나타납니다. 3D 정답지를 전혀 보지 않고 비지도 학습으로 훈련된 ONIX가 실험 데이터셋 평가에서 $L_2$ 수치 5.4 대 5.5, DSSIM 수치 3.3으로 사실상 지도 학습 모델에 필적하는 SOTA(State-of-the-art) 급의 성능을 달성한 것입니다.

 

실패 케이스 및 한계점 (Limitations)

과학적 무결성을 위해 논문은 ONIX 시스템이 가진 명확한 한계점과 실패를 유발할 수 있는 조건들을 상세히 밝히고 있습니다. 첫째, 도메인 일반화 의존성의 한계입니다. ONIX는 '유사한 여러 인스턴스' 사이의 공통된 패턴을 학습하여 부족한 체적 정보를 메우는 메커니즘을 사용합니다. 따라서 새로운 피사체가 기존에 학습한 영상 양식(Modality)과 전혀 다르거나, 일반화를 수행할 수 있을 만큼 충분한 양의 훈련 인스턴스가 존재하지 않는다면 성능 우위를 상실하게 됩니다. 둘째, 투영 각도 배치의 한계입니다. 촬영 뷰가 좁은 각도에 밀집되어 있을 경우, 넓은 공간의 사각지대를 추론하는 데 실패하여 복원 품질이 크게 떨어졌습니다. 최적의 성능을 위해서는 넓게 분산된 뷰의 배치가 필수적입니다. 셋째, 단일 재질(Binary material)에 편향된 검증입니다. 현재 연구의 모든 실험은 피사체의 구조와 빈 공간이 명확히 나뉘는 금속 폼이나 타원체와 같은 이진 재질에 집중되어 있습니다. 인체 내부처럼 밀도가 미세하게 변화하고 다종의 연부 조직이 뒤섞여 있는 복잡한 의료 영상에 대한 적용 가능성과 한계는 아직 검증되지 않았습니다.

 

8. 이 논문의 계보와 발전 (Impact & Follow-ups)

2023년에 발표된 이 ONIX 논문은 다중 투영 이미징 기술이 지닌 '극단적 정보 부족(Sparsity)'이라는 치명적 약점을 딥러닝과 물리 법칙의 결합을 통해 정면으로 돌파하며 X-선 커뮤니티에 거대한 반향을 일으켰습니다. 이 연구가 제시한 체적 재구성의 새로운 패러다임은 단발성 성과로 끝나지 않았으며, 이후 2024년과 2025년에 걸쳐 시간 분해능과 물리적 역학 모델을 흡수하며 비약적인 최신 트렌드로 진화하고 있습니다. 향후 주목해야 할 주요 후속 모델의 계보를 소개합니다.

모델명 (연도) 주요 발전 사항 및 추가 기능 기존 모델 대비 혁신 포인트
ONIX (2023) 정지된 3D 객체를 8장의 희소 투영장으로 복원 3D 정답 없이 2D 다중 투영장만으로 고품질 체적 복원
4D-ONIX (2024) 3D 공간에 '시간(t)' 차원을 추가하여 4D 동영상(Movie) 복원 구현 단 2~3방향의 X-선 투영만으로 물방울 충돌 등 빠른 동적 현상의 시공간 흐름을 실시간 추적. 시간 도메인 정규화(Temporal regularizer) 도입으로 프레임 간 안정성 극대화.
4D-PIONIX (2025) 편미분 방정식(PDE) 등 전체 물리 역학 모델(Full physical model)을 학습 손실에 편입 오직 단일 실험 데이터만으로도 4D 복원 가능. X-선 사진이 찍히지 않은 미관측 시간대(Unseen time points)의 3D 형태까지 물리 법칙으로 유추해 내는 시간적 초해상도(Temporal super-resolution) 달성.

 

가장 주목할 만한 후속 연구는 공간 좌표 $(x, y, z)$에 시간 좌표 $t$를 더하여 4차원 시공간 복원으로 확장한 4D-ONIX입니다. 기존 ONIX가 멈춰 있는 하나의 시점(Snapshot)을 복원했다면, 4D-ONIX는 물방울이 고속으로 충돌하여 튕겨 나가는 등 마이크로초 단위의 급격한 유체 역학 과정을 단 2~3대의 고정된 X-선 장비만으로 3D 동영상 형태로 복원해 내는 쾌거를 이루었습니다. 이를 위해 시간에 따라 인접한 프레임 간의 급격한 구조적 변화를 부드럽게 억제하는 '프레임 변동 정규화(Frame variation regularizer)' 기법이 새롭게 통합되어 고해상도 환경에서도 안정적인 영상 처리를 가능하게 했습니다.

 

나아가 2025년에 제안된 최신 연구인 4D-PIONIX(Physics-informed 4D ONIX)는 인공지능이 데이터를 다루는 방식을 한 차원 더 끌어올렸습니다. 기존 4D-ONIX의 한계는 모델을 학습시키기 위해 수십 개의 유사한 다중 투영 실험 데이터가 필요했다는 점과, 셔터가 열려 투영장이 확보된 특정 시점의 3D 영상만 재구성할 수 있다는 점이었습니다. 4D-PIONIX는 모델 내부에 샘플의 역학적 움직임을 지배하는 편미분 방정식(PDE) 기반의 물리 모델을 직접 편입시켰습니다. 그 결과, 수십 개의 실험 데이터 없이 단 '하나의 실험 관측 데이터'만으로도 완벽한 4D 복원에 성공했습니다. 더욱 놀라운 것은, 모델이 유체의 물리적 거동 메커니즘 자체를 수학적으로 이해하게 되면서 실제 X-선 펄스가 조사되지 않아 투영장이 존재하지 않는 미관측 시간대(Unseen time points)의 3D 체적 상태까지 역학적 추론을 통해 완벽하게 복원해 내는 단계에 이르렀다는 점입니다. 이는 하드웨어 센서의 물리적 한계를 딥러닝과 물리 역학의 융합 소프트웨어로 뛰어넘은 결정적 성과입니다.

 

9. 마무리

ONIX 연구는 컴퓨터 비전의 암시적 신경망 기술을 단순히 차용하는 데 그치지 않고, X-선 이미징 시스템의 뼈아픈 한계였던 크라우더 기준(Crowther criterion)의 정보량 제약을 돌파하기 위해 물리 법칙과 전이 학습을 정교하게 맞물려 설계한 탁월한 방법론입니다. 전통적인 단층 촬영의 수학적 툴들이 극복하지 못했던 '투영 정보의 절대적 부재'라는 빈 도화지를, 인공지능이 과거 수많은 다중 실험 관측 데이터로부터 스스로 체득한 도메인 지식이라는 물감으로 채워 넣었다는 점에서 혁신적인 의미를 지닙니다. 무엇보다 산업 현장이나 실험실 환경에서 결코 얻을 수 없는 '3D 정답 데이터'에 의존하던 기존 지도 학습 딥러닝의 한계를 벗어나 비지도 학습 모델의 새로운 지평을 열었다는 점은 실무적 응용 가치를 폭발적으로 높입니다.

 

이 논문이 향후 재료 공학과 산업 이미징 분야에 끼칠 파급력은 거대합니다. 메가헤르츠(MHz) 단위로 일어나는 신소재의 구조적 미세 균열 전파, 차세대 배터리의 충방전 시 발생하는 급격한 체적 변화, 적층 제조(금속 3D 프린팅) 공정 중 결함이 파생되는 과정 등을 스캐닝 장비의 물리적 회전 없이 단 몇 번의 X-선 섬광만으로 즉각 3D화 할 수 있는 운영(Operando) 연구의 시대가 본격적으로 열린 것입니다.

 

그러나 이 혁신적인 기술을 실제 연구 및 산업 현장에 적용하고자 할 때 연구자들이 반드시 주의해야 할 실무적 장벽들도 명확합니다. 첫째, 하드웨어 장비와 시스템 설계의 제약입니다. 복셀 격자에 비해 연속 함수가 메모리를 적게 차지하더라도, 방대한 다중 투영 뷰를 동시에 인코딩하고 고주파 위치 인코딩을 처리하는 과정에는 대용량 RAM을 탑재한 고성능 워크스테이션급 GPU(예: 40GB 이상의 VRAM) 인프라가 필수적으로 수반되어야 합니다. 둘째, 광학계 기하학적 설계의 최적화가 요구됩니다. 제한된 수량의 X-선 검출기를 설치할 때, 편의를 위해 좁은 각도에 밀집 배치하는 것은 인공지능 모델의 성능을 치명적으로 저하시킵니다. 모델이 보이지 않는 사각 공간을 원활하게 입체적으로 추론할 수 있도록, 투영 각도를 최대한 넓고 균등하게 분산 배치하는 셋업이 반드시 선행되어야 합니다. 셋째, 실무 데이터의 확보와 모델 편향성 문제입니다. 이 시스템은 공정 모니터링처럼 유사한 형태의 규격화된 부품을 반복적으로 촬영하는 환경에서는 강력한 일반화 성능을 발휘하지만, 매번 해부학적 뼈와 장기 구조가 변칙적으로 나타나는 의료 환자 대상의 CT 시스템 등에 즉시 도입하기 위해서는, 다양한 밀도를 가진 연부 조직들을 학습시킬 대규모 혼합 도메인 데이터셋 구축이 추가로 필요합니다.

 

결론적으로, ONIX 시스템은 차세대 방사광 가속기나 X-선 자유 전자 레이저(XFEL) 같은 최첨단 광원 설비가 뿜어내는 잠재력을 한계치까지 끌어올릴 수 있는 필수적인 데이터 분석 엔진입니다. 이제 X-선 3D 이미징 기술은 피사체를 물리적으로 정밀하게 회전시키는 기계 공학 중심의 하드웨어 시대에서 벗어나, 극단적으로 부족한 광학 신호를 물리 법칙과 인공지능 알고리즘으로 메워내는 '컴퓨테이셔널 이미징(Computational Imaging)' 시대로 확고하게 진입했음을 이 논문이 강력하게 증명하고 있습니다. 향후 복합 다중 재질 복원 기술과 4D 물리 역학 추론 기술이 고도화됨에 따라, 육안으로 관찰 불가능했던 미시 세계의 동적 구조를 실시간으로 탐색할 수 있는 무한한 발전 방향에 기대를 걸어봅니다.

 

반응형