A Methodology for Advanced Manufacturing Defect Detection through Self-Supervised Learning on X-ray Images - 공장의 X-ray 데이터, 라벨링 없이 스스로 학습하여 불량을 찾다

일러두기 (Disclaimer)

본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.

논문 링크 : https://www.researchgate.net/publication/379325521_A_Methodology_for_Advanced_Manufacturing_Defect_Detection_through_Self-Supervised_Learning_on_X-ray_Images

(PDF) A Methodology for Advanced Manufacturing Defect Detection through Self-Supervised Learning on X-ray Images

PDF | In industrial quality control, especially in the field of manufacturing defect detection, deep learning plays an increasingly critical role.... | Find, read and cite all the research you need on ResearchGate

www.researchgate.net

초록 (Abstract)

산업 품질 관리, 특히 제조 불량 검출 분야에서 딥러닝은 점점 더 중요한 역할을 수행하고 있습니다. 하지만 이러한 첨단 모델의 효용성은 대규모의 주석 처리된(Annotated) 데이터셋이 필요하다는 점 때문에 종종 한계에 부딪힙니다. 더욱이 기존의 데이터셋은 주로 일반적인 컬러(RGB) 이미지 기반으로 구축되어 있어, 산업 현장에서 쓰이는 X-ray 이미지와는 큰 차이가 있습니다.

이러한 한계를 극복하기 위해, 본 연구는 제조 제품의 불량 검출 능력을 향상시키고자 X-ray 이미지를 활용한 도메인 특화 자기 지도 사전 학습(Domain-specific self-supervised pretraining) 기법을 통합하는 방법론을 제안합니다. 연구진은 제조 이미지로부터 특징 추출 능력을 세밀하게 다듬기 위해 SimSiam과 SimMIM이라는 두 가지 사전 학습 접근법을 사용했습니다. 사전 학습 단계는 제조 생산 라인에서 수집된 27,901장의 라벨링 되지 않은 X-ray 이미지로 구성된 산업 데이터셋을 사용하여 진행되었습니다.

이후 Faster R-CNN 모델을 활용한 복잡한 불량 검출 시나리오에서, 제안한 사전 학습 방식과 기존의 전이 학습(Transfer learning) 방식의 성능을 비교 분석했습니다. 평가는 실제 산업용 독자 데이터셋과 공개 벤치마크인 GDXray 데이터셋 양쪽 모두에서 수행되었습니다. 연구 결과, 도메인에 특화된 X-ray 이미지로 사전 학습된 모델들이 ImageNet 가중치로 초기화된 모델들보다 일관되게 높은 성능을 보여주었습니다.

특징적인 점은, 라벨링 된 데이터가 풍부한 환경에서는 Swin Transformer 모델이 우수한 결과를 나타낸 반면, 데이터가 제한적인 환경에서는 CNN(합성곱 신경망) 백본이 더 효과적이었다는 것입니다. 나아가, 본 연구는 X-ray 이미지로 사전 학습된 모델이 산업 현장의 안전 보장에 필수적인 '치명적 불량(Critical defects)'을 검출하는 능력이 향상되었음을 강조합니다. 이 연구는 제조 불량 검출에서 자기 지도 학습이 제공하는 이점에 대한 상당한 실증적 증거를 제공하며, 산업 품질 관리 분야의 실용적 응용과 후속 연구를 위한 탄탄한 기반을 마련합니다.

1. 한줄 요약 & 3줄 핵심 (Executive Summary)

일반적인 사진으로 학습한 인공지능 대신, 공장의 흑백 X-ray 이미지를 정답 없이 스스로 학습(자기 지도 학습)한 인공지능이 실제 제조 불량 검출에서 훨씬 빠르고 정확한 성능을 발휘합니다.

기존의 문제점 (Pain point): 딥러닝 모델은 막대한 양의 정답이 표시된 데이터를 필요로 하며, 기존 모델들은 X-ray와 성격이 다른 일반 컬러(RGB) 사진으로 사전 학습되어 공장 환경에 적용하기 어려웠습니다.
이 논문의 해결책 (Solution): 정답 표시가 없는 대량의 공장 X-ray 이미지를 모아, 모델이 스스로 데이터의 특징을 파악하는 자기 지도 학습(SimSiam, SimMIM)을 통해 X-ray 전용 백본(Backbone) 네트워크를 먼저 구축했습니다.
달성한 성과 (Key Result): 일반 이미지로 학습한 모델보다 불량 검출 성능이 일관되게 향상되었으며, 특히 공장 안전에 직결되는 치명적인 불량을 찾아내는 정확도가 크게 상승했습니다.

2. 들어가며: 왜 이 연구가 필요했나? (The "Why")

제조업에서 생산된 부품의 내부 결함을 확인하기 위해 X-ray 비파괴 검사는 오랫동안 핵심적인 역할을 수행해 왔습니다. 과거에는 숙련된 작업자가 일일이 육안으로 X-ray 사진을 확인하며 품질을 관리했습니다. 하지만 컨베이어 벨트를 타고 수천, 수만 개의 부품이 쏟아지는 환경에서 사람이 직접 모든 이미지를 들여다보는 일은 극도로 피로감을 유발합니다. 시간이 지날수록 작업자의 집중력이 떨어져 치명적인 균열이나 기포를 놓치는 휴먼 에러가 발생할 확률이 높아집니다.

이러한 인간의 한계를 극복하기 위해 컴퓨터 비전(Computer Vision) 기술이 도입되었습니다. 초기에는 이미지의 명암 차이를 비교하거나 푸리에 변환(Fourier Transform), 경계선 추출(Edge Detection) 같은 전통적인 영상 처리 기법을 사용하여 사람이 직접 불량의 특징을 수학적으로 정의했습니다. 하지만 부품의 모양이 조금만 바뀌거나 조명 조건이 달라져도 알고리즘이 정상 작동하지 않아, 새로운 부품마다 처음부터 다시 알고리즘을 설계해야 하는 범용성 부족의 한계가 있었습니다.

이후 스스로 이미지의 특징을 학습하는 딥러닝(Deep Learning), 특히 합성곱 신경망(CNN)이 등장하면서 불량 검출의 정확도와 자동화 수준은 크게 상승했습니다. 딥러닝 기반 모델은 이미지가 입력되면 최종 불량 여부까지 한 번에 도출하는 종단간(End-to-end) 학습이 가능하여, 사람이 수동으로 특징을 추출할 필요가 없어졌습니다.

하지만 여기서 딥러닝 특유의 큰 문제점이 발생합니다. 바로 딥러닝 모델이 극도로 데이터에 굶주려 있다는 점(Data-hungry)입니다. 인공지능이 불량을 정확히 인식하려면 수만 장의 X-ray 이미지에 전문가가 직접 "이 좌표에 3mm 크기의 균열이 있다"라고 네모 박스(Bounding box)를 그리고 정답(Label)을 달아주어야 합니다. 정상적으로 관리되는 공장 라인에서 불량이 발생할 확률 자체도 희박한 데다, 고임금의 도메인 전문가가 수만 장의 사진에 정답을 표시하는 과정은 막대한 시간과 비용의 병목(Bottleneck) 현상을 유발합니다.

이러한 라벨링 데이터 부족 문제를 회피하기 위해 연구자들은 주로 전이 학습(Transfer Learning)이라는 우회로를 사용해 왔습니다. 100만 장 이상의 일반 사진(강아지, 자동차, 비행기 등)에 정답이 달려 있는 'ImageNet' 데이터셋으로 신경망을 먼저 똑똑하게 학습시켜 둔 뒤, 이 가중치(Weight)를 가져와서 공장의 X-ray 데이터에 맞게 조금만 수정해서 쓰는 방식입니다.

그러나 연구진은 이 표준적인 접근법에 근본적인 의문을 제기합니다. 강아지의 털이나 자동차의 외곽선을 구분하도록 훈련된 컬러(RGB) 기반의 인공 신경망이, 명암비가 낮고 내부 구조가 겹쳐 보이는 회색조(Grayscale)의 금속 부품 X-ray 사진을 분석하는 데 적합할까요? 일상적인 사진과 흑백 X-ray 사진 사이에는 데이터가 가진 통계적 특성, 즉 도메인(Domain)의 성격이 너무 달라서 심각한 '도메인 이동(Domain Shift)' 현상이 발생합니다. 기존의 사전 학습 방식으로는 미세한 불량을 잡아내는 데 한계가 명확했습니다.

이에 연구진은 생산 라인에서 매일 생성되지만 정답 라벨이 없다는 이유로 버려지던 수많은 '라벨 없는 X-ray 이미지'에 주목했습니다. 만약 이 버려지는 데이터를 활용해 모델이 스스로 X-ray의 구조적 특징을 공부하게 만든다면, X-ray 도메인의 본질을 이해하는 완벽한 맞춤형 특징 추출기가 탄생할 수 있을 것입니다. 이것이 바로 이 논문이 제안하는 도메인 특화 자기 지도 학습의 탄생 배경입니다.

3. 이 논문의 뿌리 (Key Reference)

본 연구는 단순히 독립적인 모델을 하나 제안하는 것이 아니라, 기존 컴퓨터 비전과 표현 학습(Representation Learning) 분야의 위대한 성과들을 제조업 도메인에 맞게 결합하고 비판적으로 계승했습니다.

ImageNet (2009) & 전이 학습: 컴퓨터 비전 모델을 훈련할 때 가장 널리 사용되는 대규모 컬러 이미지 데이터셋입니다. 본 논문은 ImageNet으로 사전 학습하는 기존의 관행을 비판적으로 바라보고, 도메인 특화 학습이 기존 방식을 어떻게 뛰어넘을 수 있는지 보여주기 위한 척도(Baseline)로 삼았습니다.
Faster R-CNN (2015): Ren 등이 제안한 객체 탐지(Object Detection) 네트워크로, 본 연구에서 최종적인 불량 검출을 수행하는 뼈대(Backbone) 위에 결합되는 프레임워크입니다. 이전 연구들(Ferguson et al.)이 이 모델에 ImageNet 가중치를 얹어 사용했다면, 본 논문은 Faster R-CNN 내부의 특징 추출기(Feature Extractor)를 자기 지도 학습 모델로 교체하여 성능을 개선했습니다.
SimSiam (2021): Chen과 He가 제안한 대조 학습(Contrastive Learning) 기반의 자기 지도 학습 모델입니다. 기존의 대조 학습 모델인 SimCLR나 MoCo가 거대한 배치 사이즈(Batch size)를 요구하거나, 메모리 뱅크, 모멘텀 인코더(Momentum Encoder)와 같은 복잡한 구조를 필요로 했던 것과 달리, SimSiam은 이러한 제약을 없애고 구조를 단순화했습니다. 본 연구는 CNN(ResNet) 구조를 사전 학습시키는 데 이 가볍고 효율적인 아이디어를 적극 차용했습니다.
SimMIM (2022): Xie 등이 제안한 마스크드 이미지 모델링(Masked Image Modeling) 프레임워크입니다. 자연어 처리에서 텍스트의 빈칸을 채우며 학습하는 언어 모델(BERT)의 방식을 이미지에 적용한 것입니다. 이 방법은 복잡한 디코더 없이 단순한 선형 레이어(Linear layer)만으로도 가려진 픽셀을 효과적으로 복원하여, 시각적 트랜스포머(Vision Transformer) 모델이 이미지의 전체적 맥락을 깊이 이해하게 만들었습니다. 본 연구는 이 구조를 베이스로 사용하여 Swin Transformer를 훈련시켰습니다.

4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)

이 논문의 가장 중요한 발상의 전환은 "정답이 없는 데이터를 버리지 않고, 모델이 데이터 스스로 문제와 정답을 만들어서 공부하게 하자"는 것입니다. 이를 자기 지도 학습(Self-Supervised Learning, SSL)이라고 부릅니다.

기존의 전이 학습 방식은 일상생활을 그린 컬러 풍경화를 전문으로 배운 미술학도에게, 갑자기 병원으로 데려가 흑백 X-ray 사진을 던져주며 "여기서 뼈가 부러진 곳을 찾아라"라고 지시하는 것과 같습니다. 이 화가는 선과 색을 구분할 줄은 알지만, 엑스레이 특유의 명암 분포와 구조적 흐름을 이해하지 못해 당황할 수밖에 없습니다.

반면, 이 논문이 제안하는 방식은 의대생의 학습법과 같습니다. 의대에 입학한 학생에게 처음부터 병이 있는 X-ray 사진만 주며 달달 외우게 하지 않습니다. 먼저 정상적인 신체의 X-ray 사진 수만 장을 계속해서 보여줍니다. 학생은 "어느 부분이 정상적인 뼈의 외곽선인지, 조직의 밀도가 높은 곳은 어떻게 회색조로 표현되는지"를 스스로 파악하게 됩니다. 이렇게 X-ray의 '기본 문법'을 통달한 뒤에야, 교수님이 "자, 이제부터 이 100장의 사진 속에서 작게 금이 간 부분을 골절이라고 부른다"라고 알려줍니다. 뼈대의 정상 구조를 깊이 이해하고 있기 때문에, 학생은 훨씬 적은 예시만 보고도 비정상적인 결함을 기가 막히게 찾아냅니다.

연구진은 인공지능에게 X-ray의 기본 문법을 가르치기 위해 두 가지 다른 접근법(SimSiam과 SimMIM)을 도입했습니다.

1) SimSiam을 이용한 "틀린 그림 찾기" (대조 학습)

대조 학습의 기본 개념은 "같은 사진에서 나온 변형본은 서로 가깝게(유사하게) 모으고, 다른 사진에서 나온 변형본은 서로 멀게(다르게) 밀어낸다"는 것입니다. 그러나 SimSiam은 여기서 발상의 전환을 한 번 더 합니다. "다른 사진을 멀게 밀어낼 필요 없이, 그냥 같은 사진의 변형본끼리 비슷해지도록 당기기만 해도 학습이 된다"는 것입니다.

인공지능에게 하나의 정상 X-ray 이미지를 복사하여 줍니다. 한쪽은 이미지를 조금 자르고(Crop), 한쪽은 밝기를 흐리게(Gaussian blur) 만듭니다. 그리고 인공지능에게 "겉모습이 조금 달라 보여도 이 둘은 원래 같은 부품에서 나온 사진이니, 공통된 특징 패턴을 찾아보라"고 훈련시킵니다. 이 과정에서 모델은 부품이 화면에서 약간 회전하거나 밝기가 달라져도 흔들리지 않고 핵심적인 금속의 구조적 특징을 추출하는 불변성(Invariance)을 배웁니다.

2) SimMIM을 이용한 "빈칸 채우기" (마스크드 모델링)

이 방식은 시각적인 직소 퍼즐과 같습니다. X-ray 이미지의 절반 이상(약 60%)을 무작위로 가려버립니다(Masking). 그리고 인공지능에게 "눈에 보이는 나머지 부분을 힌트 삼아, 검게 가려진 부분이 원래 어떤 명암을 가진 픽셀이었을지 복원해 보라"고 지시합니다.

단순히 주변 색을 흉내 내는 것으로는 이 퍼즐을 맞출 수 없습니다. 부품의 기하학적 형태와 내부 재질의 연속성을 완벽하게 이해하지 못하면 가려진 빈칸을 채울 수 없기 때문에, 모델은 스스로 살기 위해 부품의 거시적인 구조와 맥락(Context)을 아주 깊이 있게 분석하게 됩니다.

기존에는 인간 전문가가 만든 '불량'이라는 정답 라벨에 의존했다면, 본 논문에서는 '데이터 그 자체'를 문제이자 정답으로 활용하는 발상의 전환을 이룬 것입니다.

5. 작동 원리: 어떻게 돌아가는가? (The "How")

이 시스템이 데이터를 입력받아 최종적으로 불량을 탐지하기까지의 흐름은 크게 [1단계: 사전 학습(Pretraining)] $\rightarrow$ [2단계: 물체 검출기에 결합] $\rightarrow$ [3단계: 미세 조정(Fine-tuning)]의 3단계로 나뉩니다. 각 단계별로 데이터가 어떻게 처리되는지 살펴보겠습니다.

[1단계] 라벨 없는 데이터로 도메인 특화 사전 학습하기

공장의 엑스레이 설비에서 끝없이 쏟아지는 이미지들이 입력됩니다. 여기에는 불량 위치에 대한 정보가 없습니다. 연구진은 인공 신경망의 뼈대(Backbone) 종류에 따라 두 가지 알고리즘 중 하나를 선택해 훈련시킵니다.

A. CNN 백본(ResNet)을 선택할 경우 $\rightarrow$ SimSiam 네트워크 활용

데이터 증강: 하나의 입력 이미지 $x$를 무작위로 변형하여 두 개의 이미지 $x_1$, $x_2$를 만듭니다.
특징 추출: 이 두 이미지가 동일한 가중치를 공유하는 인코더 신경망($f$)을 통과하여 각각 특징 벡터 $z_1$, $z_2$로 변환됩니다.
예측과 비교: 특징 벡터 $z_1$을 다시 예측 신경망($h$)에 넣어 $z_2$와 최대한 유사해지도록 변환된 벡터 $p_1$을 만듭니다. 이제 $p_1$과 원래의 $z_2$ 사이의 코사인 유사도(Cosine Similarity)를 비교하여 차이를 줄이는 방향으로 학습합니다.
붕괴 방지 (Stop-gradient): 이때 신경망이 생각하기를 포기하고 "모든 이미지의 특징은 그냥 0이다"라고 답을 통일해 버리는 현상(Collapse)이 발생할 수 있습니다. 이를 막기 위해 $z_2$ 쪽으로는 역전파(Backpropagation) 신호가 전달되지 않도록 차단하는 'Stop-gradient' 연산을 수행합니다. 이는 마치 k-평균 군집화(k-means clustering) 알고리즘처럼 중심점을 고정해 두고 데이터를 맞추는 원리와 유사하게 작동하여 신경망을 안정적으로 훈련시킵니다.

B. 트랜스포머 백본(Swin-T)을 선택할 경우 $\rightarrow$ SimMIM 네트워크 활용

패치 분할 및 가리기: 입력된 X-ray 이미지를 체스판처럼 작은 패치(예: 32x32 픽셀) 단위로 잘게 나눕니다. 그리고 전체 패치의 60% 정도를 무작위로 선택하여 검게 마스킹합니다.
인코딩: Swin Transformer 인코더가 마스킹되지 않은 40%의 픽셀 조각들을 입력받아 특징 지도를 만듭니다.
디코딩 및 복원: 아주 단순한 1x1 합성곱 레이어(Linear layer)로 구성된 디코더가 인코더의 정보를 바탕으로 원래 해상도의 이미지로 복원을 시도합니다.
오차 계산: 예측한 픽셀 값과 원래 가려졌던 실제 픽셀 값 사이의 절대 오차($L_1$ Loss)를 계산하고, 이를 줄이는 방향으로 트랜스포머를 업데이트합니다.

[2단계] 특징 추출기를 물체 검출기에 이식하기

수만 장의 이미지로 학습을 마치면, ResNet이나 Swin Transformer는 X-ray 이미지의 흑백 패턴과 부품의 정상적인 기하학적 형태를 완벽히 이해하는 훌륭한 '시각 중추'를 가지게 됩니다.

연구진은 이 시각 중추(Backbone)만 똑 떼어내어, 딥러닝 기반 객체 탐지 분야의 대표적인 모델인 Faster R-CNN의 앞단에 부착합니다. 이제 이 모델은 일반적인 사진이 아니라 엑스레이 도메인에 특화된 시야를 바탕으로 이미지를 스캔할 준비가 되었습니다.

[3단계] 정답 데이터를 이용한 미세 조정 (Fine-tuning)

이제 드디어 소량의 '라벨이 있는 데이터(전문가가 불량 위치에 네모 박스를 친 데이터)'를 시스템에 입력합니다.

특징 맵 생성: 도메인 특화 학습이 완료된 백본 신경망이 이미지를 훑어 핵심 특징 지도(Feature Map)를 생성합니다.
후보 영역 제안 (RPN): 특징 지도를 바탕으로 Faster R-CNN 내부의 후보 영역 제안 네트워크(Region Proposal Network)가 "이 좌표 근처에 불량 패턴이 있을 것 같다"며 수천 개의 후보 박스들을 던집니다.
분류 및 위치 보정: 후보 박스들 안의 특징을 관심 영역 풀링(RoI Pooling)을 통해 잘라낸 뒤, 최종 분류기가 이것이 '치명적인 불량'인지 '사소한 불량'인지 분류합니다. 동시에 회귀(Regression) 연산을 통해 박스의 좌표와 크기를 실제 불량의 윤곽에 딱 맞게 정밀하게 다듬습니다.

이 과정에서 백본 신경망의 가중치도 실제 불량 데이터에 맞게 미세하게 업데이트(Fine-tuning)되며, 최종적인 실전용 제조 불량 검출 시스템이 완성됩니다.

6. 작동 원리: 어떻게 학습하는가? (The "How")

이러한 고도화된 시스템을 훈련하고 평가하기 위해, 연구진은 데이터를 철저하게 분리하여 활용했습니다. 딥러닝 모델의 성능은 데이터의 질과 포맷에 직접적인 영향을 받으므로, 어떤 데이터가 어떻게 투입되었는지 이해하는 것이 매우 중요합니다.

사전 학습용 데이터 (Unlabeled)
- 27,901장의 라벨 없는 X-ray 이미지 (해상도 1024x1024 픽셀, Grayscale)
- 실제 협력 제조사의 생산 라인에서 수집된 부품 사진. 부품의 다양한 각도와 모양을 담고 있으나, 어디가 불량인지 알려주는 정답(Label)은 일절 포함되지 않음.
- [입력] 원본 X-ray 이미지
- [출력] 이미지의 핵심 특징 벡터 (SimSiam) 또는 원래 픽셀의 명암값 (SimMIM)
평가용 데이터 1: 산업 독자 데이터셋 (Labeled)
- 5,786장의 바운딩 박스가 포함된 X-ray 이미지
- X-ray 전문가가 직접 불량 위치에 박스(Bounding box) 좌표를 기록한 데이터.
- 19가지의 불량 유형을 심각도에 따라 '치명적(Critical, 1,784개 샘플)'과 '사소한(Minor, 4,002개 샘플)' 두 그룹으로 분류함. 클래스 간 불균형이 존재함.
- [입력] X-ray 이미지
- [출력] 불량의 심각도 클래스(Critical/Minor) 예측 결과 및 박스 위치 좌표(X, Y, Width, Height)
평가용 데이터 2: GDXray 벤치마크 (Labeled)
- 2,727장의 박스가 포함된 공개 X-ray 이미지
- 주로 알루미늄 휠, 너클 등 자동차 부품을 촬영한 공용 벤치마크 데이터.
- 불량의 구체적인 '종류'는 분류하지 않고 오직 불량의 '존재 위치'만 박스로 표시됨.
- [입력] 자동차 부품 X-ray 이미지
- [출력] 결함 의심 영역의 박스 위치 좌표(X, Y, Width, Height)

위의 표에서 알 수 있듯, 사전 학습 단계에서는 전문가의 인건비가 전혀 들지 않는 2만 7천여 장의 데이터를 있는 그대로 활용하여 비용 효율성을 극대화했습니다.

이후 미세 조정 및 평가 단계에서는 '산업 독자 데이터셋'을 Train 세트(학습용, 4,624장)와 Test 세트(평가용, 1,162장)로 철저히 나누어 모델의 실전 분류 성능을 정밀하게 검증했습니다. 특히 이 데이터셋은 '치명적 불량' 데이터가 '사소한 불량'보다 현저히 적은 불균형 데이터(Imbalanced data) 상태였기 때문에, 인공지능이 소수의 치명적 결함을 얼마나 잘 찾아내는지 확인하는 가혹한 테스트 환경을 제공했습니다.

7. 결과: 얼마나 좋아졌나? (Results)

현장의 데이터를 스스로 학습한 모델은 기존 방식과 비교해 실전에서 얼마나 똑똑해졌을까요? 논문의 실험 결과는 세 가지 측면에서 산업계에 중요한 시사점을 던집니다.

1. 도메인 특화 사전 학습의 압승

기존의 표준 방식(ImageNet으로 사전 학습된 가중치 사용)과 본 논문이 제안한 방식(X-ray로 사전 학습한 SimSiam/SimMIM 가중치 사용)을 Faster R-CNN 검출기에 적용하여 비교했습니다. 그 결과, X-ray 이미지로 스스로 공부한 모델이 모든 지표에서 일관되게 높은 성능을 달성했습니다.

백본 모델 아키텍처 (Backbone)	사전 학습에 사용한 가중치 종류	mAP (전체 평균 정밀도)	AP-Critical (치명적 불량 정밀도)
ResNet (CNN)	ImageNet (기존 방식)	88.6	94.4
ResNet (CNN)	X-ray SimSiam (제안 방식)	89.6	94.8
Swin-T (Transformer)	ImageNet (기존 방식)	91.3	94.5
Swin-T (Transformer)	X-ray SimMIM (제안 방식)	91.3	95.5

가장 주목할 지표는 'AP-Critical(치명적 불량 정밀도)'입니다. 공장의 품질 관리 시스템에서 스크래치 같은 사소한 불량은 때로 허용될 수 있지만, 부품의 내구성을 파괴하는 치명적인 결함(예: 내부 기포, 크랙)은 단 한 건이라도 놓치면 대형 사고로 이어집니다. 표에서 볼 수 있듯, 도메인 특화 데이터를 사용한 모델들은 공통적으로 이 '치명적 불량'을 찾아내는 능력이 한층 더 향상되어 산업 현장의 안전성을 크게 끌어올렸습니다.

2. 데이터 규모에 따른 CNN과 트랜스포머의 명암

딥러닝 분야의 최신 유행인 트랜스포머(Transformer) 구조가 언제나 CNN 구조를 이기는 것은 아니었습니다. 실험 결과는 데이터의 보유량에 따라 최적의 모델이 달라진다는 점을 명확히 보여줍니다.

정답 데이터가 풍부할 때 (산업 독자 데이터셋): 5,786장이라는 비교적 많은 정답 라벨이 존재하는 환경에서는 Swin Transformer 기반 모델이 91.3 mAP를 기록하며 CNN(89.6 mAP)을 앞섰습니다. 트랜스포머는 이미지 전체의 복잡한 상관관계를 파악하는 데 능하여 데이터가 충분히 제공될 때 잠재력을 만개합니다.
정답 데이터가 부족할 때 (GDXray 벤치마크): 정답 라벨이 2,727장으로 비교적 적은 GDXray 데이터셋에서는 양상이 완전히 뒤집혔습니다. 여기서는 오히려 전통적인 CNN 기반의 ResNet + SimSiam 모델이 96.0 AP를 기록하며, 트랜스포머(94.6 AP)를 제치고 최고의 성능을 냈습니다. CNN은 픽셀들을 국소적으로 훑어보는 성질(Inductive bias)이 있어, 데이터가 적은 환경에서도 기본적인 시각적 특징을 잃지 않고 더 견고하게 작동함을 입증한 것입니다.

3. 실시간 공정 적용이 가능한 빠른 속도

분석 성능이 아무리 완벽해도 속도가 느리면 1분 1초가 돈인 실제 컨베이어 벨트 공정에서 사용할 수 없습니다. 이 시스템은 Faster R-CNN을 통해 X-ray 이미지 한 장에 존재하는 불량을 분석하고 위치를 특정하는 데 약 0.126초가 소요되었습니다. 제조업 표준 규격에서 통상 1초 이내의 분석 완료를 요구한다는 점을 고려하면, 이는 실제 생산 라인의 검사 워크플로우에 무리 없이 즉각 도입할 수 있는 매우 실용적인 속도입니다.

실패 케이스 및 방법론의 한계점

연구진은 학술적 객관성을 유지하기 위해 방법론의 한계 또한 솔직하게 언급합니다. SimMIM을 통해 트랜스포머 백본을 사전 학습시킨 후, 딥러닝 망을 미세 조정(Fine-tuning)하지 않고 단순히 마지막 분류기만 얹어서 평가하는 방식(Linear Classification)을 적용했을 때 성능이 기대 이하로 매우 낮게 나왔습니다.

왜 이런 현상이 발생했을까요? SimMIM은 이미지의 가려진 부분을 복원하면서 전체적인 제품의 뼈대와 거시적인 구조(Global features)를 파악하는 데는 탁월합니다. 하지만 X-ray 속의 불량은 전체 1024x1024 픽셀 중 불과 몇 십 픽셀에 불과할 정도로 극히 미세합니다. 모델이 전체 숲을 보느라 나무의 상처(미세 결함)를 무시해 버리는 경향이 생긴 것입니다. 이 실패 케이스는 중요한 사실을 시사합니다. 자기 지도 학습은 훌륭한 뼈대를 만들어주지만, 그것만으로는 완성되지 않습니다. 모델이 아주 작은 결함에 집중할 수 있도록, 반드시 정답 라벨이 포함된 소량의 데이터를 이용해 전체 신경망을 세밀하게 업데이트하는 미세 조정(Fine-tuning) 단계를 거쳐야만 현장에 투입할 수 있는 완성도를 갖출 수 있습니다.

8. 마무리

이 논문의 인상 깊었던 점은, 연구진이 '단순히 최신 유행하는 딥러닝 알고리즘을 가져다 쓰는 데 그치지 않고, 도메인(제조업 비파괴 검사)이 가진 데이터의 본질적 특성과 한계를 철학적으로 고찰했다'는 것입니다. 많은 AI 엔지니어들이 단 1%의 정확도를 올리기 위해 그저 더 크고 무거운 모델 파라미터를 사용하거나 수많은 외주 인력을 고용해 무작정 데이터에 박스를 치는 라벨링 작업에 예산을 쏟아붓습니다.

하지만 본 연구진은 흑백의 X-ray 데이터가 일상적인 컬러 사진과 본질적으로 정보의 성격이 다르다는 점을 꿰뚫어 보았고, 공장 서버에 쌓인 채 방치되던 수만 장의 '라벨 없는 정상 데이터'를 재활용하여 이 간극을 메웠습니다. 모델 스스로 X-ray 이미지의 연속성과 구조를 깨우치게 한 이 접근법은 데이터 효율성의 극치를 보여줍니다.

현업에서 스마트 팩토리 시스템을 구축하거나 비전 검사 AI를 실무에 적용하려는 엔지니어와 의사결정자가 반드시 챙겨야 할 주의점과 인사이트는 다음과 같습니다.

라벨 없는 정상 데이터의 가치 재발견: 공장에 쌓여 있는 '불량 없는 정상 부품'의 이미지 데이터를 단지 서버 용량이 부족하다는 이유로 폐기해서는 안 됩니다. 본 연구가 실증했듯, 정답이 없는 평범한 데이터라도 수만 장 단위로 확보되면 딥러닝 모델이 산업 도메인의 특성을 이해하는 훌륭한 밑거름(사전 학습 재료)으로 환골탈태합니다. 쓸모없어 보이던 다수의 정상 데이터가 소수의 치명적 불량을 찾아내는 핵심 열쇠가 됩니다.
현장 데이터의 규모에 따른 냉정한 아키텍처 선택: "언제나 최신 트랜스포머(Transformer) 모델을 쓰는 것이 최고다"라는 맹신은 매우 위험합니다. 트랜스포머 계열 모델은 학습할 라벨링 데이터가 풍부할 때는 압도적인 성능을 보이지만, GDXray 벤치마크처럼 데이터가 적을 때는 오히려 전통적인 CNN 기반의 ResNet 모델이 훨씬 견고하고 정확하게 동작했습니다. 현장에 쌓여 있는 라벨링 데이터가 수천 장 단위인지, 아니면 수백 장 단위인지 냉정하게 파악하여 적합한 뼈대(Backbone)를 유연하게 선택해야 합니다.
작은 결함을 찾기 위한 미세 조정(Fine-tuning)의 필수성: 자기 지도 학습은 모든 것을 해결해 주는 만병통치약이 아닙니다. 모델이 이미지의 전체적인 구조와 흐름을 파악하는 데는 탁월한 성능을 발휘하지만, 머리카락 두께보다 얇은 미세 균열이나 작은 기포를 곧바로 찾아내지는 못합니다. 따라서 전체 공정 파이프라인을 설계할 때, 사전 학습에만 의존해서는 안 되며 반드시 실제 불량 데이터가 포함된 소량의 정답 세트를 이용해 모델을 꼼꼼하게 다시 훈련하는 미세 조정 단계를 깊이 있게 설계해야 공장 현장에서 요구하는 정밀도를 맞출 수 있습니다.

결론적으로, 이 논문은 막대한 데이터 라벨링 비용과 시간의 늪에 빠져 있던 제조업 인공지능 연구자들에게 "알려주지 말고, 데이터 스스로 탐구하게 만들라"는 확실한 이정표를 제시했습니다. 자기 지도 학습을 활용한 맞춤형 특징 추출 기법은 향후 고도화된 스마트 팩토리의 자동화된 품질 관리 시스템을 한 단계 높은 차원으로 이끄는 중요한 전환점이 될 것입니다.

저작자표시 비영리 변경금지 (새창열림)

'딥러닝' 카테고리의 다른 글

J-RAS: Enhancing Medical Image Segmentation via Retrieval-Augmented Joint Training - 의료 인공지능은 어떻게 과거의 유사 환자 데이터를 검색하여 분할 성능을 극대화했는가? (0)	2026.03.23
CAN (Contrastive Masked Autoencoder) - 구글은 어떻게 대조 학습과 마스크 오토인코더를 결합하여 시각 지능의 효율성을 극대화했나? (0)	2026.03.22
mHC-lite: You Don't Need 20 Sinkhorn-Knopp Iterations - 복잡한 반복 연산을 버리고, 수학적 원리로 딥러닝 안정성과 속도를 동시에 잡은 방법 (0)	2026.03.22
CD-MAE: Contrastive Dual-Masked Autoencoder - 데이터 부족과 방사선 노이즈의 물리적 한계를 극복한 인쇄회로기판 CT 영상 분할의 새로운 패러다임 (0)	2026.03.22
ConvNeXt V2 - 순수 합성곱 신경망은 어떻게 트랜스포머의 전유물인 마스크드 오토인코더를 품고 비전 생태계를 탈환했나? (0)	2026.03.21

힘내! 잘하고 있어!

A Methodology for Advanced Manufacturing Defect Detection through Self-Supervised Learning on X-ray Images - 공장의 X-ray 데이터, 라벨링 없이 스스로 학습하여 불량을 찾다

초록 (Abstract)

1. 한줄 요약 & 3줄 핵심 (Executive Summary)

2. 들어가며: 왜 이 연구가 필요했나? (The "Why")

3. 이 논문의 뿌리 (Key Reference)

4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)

1) SimSiam을 이용한 "틀린 그림 찾기" (대조 학습)

2) SimMIM을 이용한 "빈칸 채우기" (마스크드 모델링)

5. 작동 원리: 어떻게 돌아가는가? (The "How")

[1단계] 라벨 없는 데이터로 도메인 특화 사전 학습하기

[2단계] 특징 추출기를 물체 검출기에 이식하기

[3단계] 정답 데이터를 이용한 미세 조정 (Fine-tuning)

6. 작동 원리: 어떻게 학습하는가? (The "How")

7. 결과: 얼마나 좋아졌나? (Results)

1. 도메인 특화 사전 학습의 압승

2. 데이터 규모에 따른 CNN과 트랜스포머의 명암

3. 실시간 공정 적용이 가능한 빠른 속도

실패 케이스 및 방법론의 한계점

8. 마무리

'딥러닝' 카테고리의 다른 글

티스토리툴바

A Methodology for Advanced Manufacturing Defect Detection through Self-Supervised Learning on X-ray Images - 공장의 X-ray 데이터, 라벨링 없이 스스로 학습하여 불량을 찾다

초록 (Abstract)

1. 한줄 요약 & 3줄 핵심 (Executive Summary)

2. 들어가며: 왜 이 연구가 필요했나? (The "Why")

3. 이 논문의 뿌리 (Key Reference)

4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)

1) SimSiam을 이용한 "틀린 그림 찾기" (대조 학습)

2) SimMIM을 이용한 "빈칸 채우기" (마스크드 모델링)

5. 작동 원리: 어떻게 돌아가는가? (The "How")

[1단계] 라벨 없는 데이터로 도메인 특화 사전 학습하기

[2단계] 특징 추출기를 물체 검출기에 이식하기

[3단계] 정답 데이터를 이용한 미세 조정 (Fine-tuning)

6. 작동 원리: 어떻게 학습하는가? (The "How")

7. 결과: 얼마나 좋아졌나? (Results)

1. 도메인 특화 사전 학습의 압승

2. 데이터 규모에 따른 CNN과 트랜스포머의 명암

3. 실시간 공정 적용이 가능한 빠른 속도

실패 케이스 및 방법론의 한계점

8. 마무리

'딥러닝' 카테고리의 다른 글

'딥러닝' Related Articles

티스토리툴바