본문 바로가기

딥러닝

SAID: Segment All Industrial Defects - 거대 시각 모델 SAM은 어떻게 공장 점검의 수동 개입 한계를 극복했는가?

반응형


일러두기 (Disclaimer)

본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.

 

 

논문 링크 : https://www.mdpi.com/1424-8220/25/16/4929

 

SAID: Segment All Industrial Defects with Scene Prompts

In the field of industrial inspection, image segmentation is a common method for surface inspection, capable of locating and segmenting the appearance defect areas of products. Most existing methods are trained specifically for particular products. The rec

www.mdpi.com

 

 

초록 (Abstract)

산업 검사 분야에서 이미지 분할(Image segmentation)은 제품의 외관 결함 영역을 찾아내고 분할할 수 있는 표면 검사의 일반적인 방법입니다. 기존의 대부분 방법은 특정 제품에 맞춰 훈련됩니다. 최근 등장한 SAM(Segment Anything Model)은 다양한 프롬프트를 통해 제로샷(Zero-shot) 분할을 달성할 수 있는 이미지 분할 파운데이션 모델 역할을 합니다. 그럼에도 불구하고 특정 하위 작업(Downstream tasks)에서 SAM의 성능은 만족스럽지 않습니다. 게다가 SAM은 분할을 완료하고 분할 결과를 후처리하기 위해 사전에 수동 상호작용(Manual interactions)을 필요로 합니다. 본 논문은 이러한 문제들을 해결하기 위해 SAID(Segment All Industrial Defects)를 제안합니다. SAID 모델은 장면 인코더(Scene Encoder)를 통해 단일 주석이 달린 프롬프트-이미지 쌍을 장면 임베딩(Scene embedding)으로 인코딩하여 자동 분할을 달성하고 수동 개입에 대한 의존도를 제거합니다. 한편, SAID의 특징 정렬 및 융합 모듈(Feature Alignment and Fusion Module)은 장면 임베딩과 이미지 임베딩 간의 정렬 문제를 효과적으로 해결합니다. 실험 결과는 SAID가 다양한 산업 장면 전반의 분할 능력에서 SAM을 능가함을 보여줍니다. 원샷(One-shot) 대상 장면 분할 작업에서 SAID는 MSNet 및 SegGPT와 비교하여 mIoU 지표를 각각 5.79 및 0.87 향상시켰습니다.

 

1. 한줄 요약 & 3줄 핵심 (Executive Summary)

범용 분할 모델인 SAM이 요구하던 인간의 수동 지시를 한 장의 정답지(장면 프롬프트)로 대체하여, 다양한 산업 현장의 결함 검사를 자동화하고 높은 정확도를 달성한 인공지능 모델입니다.

  1. 기존의 문제점 (Pain point): 산업 현장에 딥러닝을 적용할 때 결함 데이터가 부족하고, 거대 시각 모델인 SAM을 도입하려 해도 매번 사람이 결함 위치를 클릭해야 하는 수동 상호작용의 한계가 존재했습니다.
  2. 이 논문의 해결책 (Solution): 결함이 표시된 예시 이미지 한 쌍을 통째로 모델의 지시어(Scene Prompt)로 변환하는 장면 인코더와, 이를 검사 대상 이미지와 매끄럽게 섞어주는 경량 융합 모듈을 제안했습니다.
  3. 달성한 성과 (Key Result): 사람의 개입을 완전히 배제한 자동화 상태에서도 교차 장면(Cross-scene) 결함 분할 검사에서 기존의 MSNet, SegGPT 등의 퓨샷(Few-shot) 모델들을 크게 능가하는 분할 정확도를 달성했습니다.

 

2. 들어가며: 왜 이 연구가 필요했나? (The "Why")

제조업과 산업 현장에서 생산된 제품 표면의 흠집, 얼룩, 파손 등 외관 결함을 식별하는 작업은 품질 관리의 핵심이자 제품의 신뢰성을 결정짓는 중요한 단계입니다. 과거 산업 현장에서는 컴퓨터 비전 기술을 활용해 색상이나 질감 같은 시각적 특징을 사람이 직접 수학적으로 정의하여 결함을 찾아내는 방식을 사용했습니다. 하지만 이러한 방식은 공장의 조명이 조금만 바뀌거나, 제품이 놓인 배경이 복잡해지면 성능이 급격히 떨어지는 단점이 있었습니다.

 

이후 딥러닝 기술이 본격적으로 발전하면서 산업계는 합성곱 신경망(CNN)을 기반으로 한 모델들을 도입하기 시작했습니다. 대표적으로 FCN(Fully Convolutional Networks)이나 Mask R-CNN, SegFormer와 같은 모델들이 표면 결함 탐지에 활용되었습니다. 이 모델들은 이미지 속 픽셀 하나하나가 정상인지 결함인지를 분류하는 '의미론적 분할(Semantic Segmentation)' 작업에서 큰 성과를 보였습니다. 지도 학습(Supervised Learning) 기반의 이 방식은 정답이 주어진 데이터를 충분히 학습하기만 하면 매우 높은 정확도를 보여줍니다.

 

하지만 산업 현장의 현실은 실험실의 데이터셋과 달랐습니다. 현장에 지도 학습 모델을 적용하려던 연구자들과 엔지니어들은 크게 세 가지 치명적인 한계에 부딪히게 됩니다.

 

첫째, 결함 샘플의 절대적인 부족입니다. 산업 현장에서 정상 제품의 데이터는 며칠만 공장을 가동해도 수만 장을 얻을 수 있습니다. 그러나 공정의 수율이 높을수록 불량품은 드물게 발생하며, 학습에 필요한 결함 데이터를 모으는 데 막대한 시간과 비용이 소모됩니다. 둘째, 결함 패턴의 다양성과 복잡성입니다. 나사 하나에 발생하는 스크래치, 알약 표면의 갈라짐, 직물의 올 풀림 등 산업 제품의 결함은 그 형태, 색상, 질감이 천차만별입니다. 특정 제품(예: 가죽)의 결함을 찾기 위해 학습된 모델은 다른 제품(예: 금속 타일)에 조금도 활용될 수 없어, 새로운 공정이 추가될 때마다 바닥부터 새로운 모델을 다시 훈련해야만 했습니다. 셋째, 모호한 결함 평가 기준입니다. 산업 제품은 때때로 명확하게 정의되지 않은 형태의 변형을 보이며, 이는 정해진 범주 내에서만 판단을 내리는 전통적인 지도 학습 모델에 큰 혼란을 줍니다.

 

이러한 지도 학습의 한계를 극복하기 위해 오토인코더(Autoencoder)나 생성적 적대 신경망(GAN)을 활용한 비지도 학습(Unsupervised Learning) 방식이 대안으로 떠올랐습니다. 비지도 학습은 쉽게 구할 수 있는 '정상 이미지'만을 대량으로 학습하여 정상적인 상태의 분포를 기억합니다. 이후 새로운 이미지가 입력되었을 때, 모델이 자신이 아는 정상적인 형태로 이미지를 복원해 보고, 원본 이미지와 복원된 이미지 간의 차이(Anomaly score)를 계산하여 결함을 찾아냅니다. 이는 데이터 부족 문제를 해결하는 데 큰 도움을 주었으나, 픽셀 단위로 정교하게 결함의 윤곽을 분할하는 작업에서는 정확도가 떨어지는 한계가 있었습니다.

 

이 무렵, 인공지능 학계에는 새로운 바람이 불기 시작했습니다. 방대한 양의 데이터로 사전 학습을 거친 뒤, 특정 작업에 맞춰 조금만 조정하면 압도적인 성능을 내는 '파운데이션 모델(Foundation Model)'의 등장입니다. 컴퓨터 비전 분야에서는 메타(Meta AI)가 발표한 SAM(Segment Anything Model)이 대표적입니다. SAM은 10억 개 이상의 마스크 데이터셋(SA-1B)으로 학습되어, 이전에 본 적 없는 객체라도 영점 조준(Zero-shot) 방식으로 분할할 수 있는 범용적인 능력을 갖추었습니다.

 

수많은 연구자가 이 강력한 SAM을 산업용 결함 탐지에 도입하려 시도했습니다. 하지만 SAM을 공장 라인에 그대로 적용하기에는 결정적인 장애물이 두 가지 존재했습니다.

  • 도메인 격차(Domain Gap): SAM은 주로 일상적이고 자연스러운 이미지에 최적화되어 있습니다. 따라서 공장의 미세한 표면 질감, 의료용 엑스레이, 위성 이미지 같은 특수한 하위 도메인(Downstream task)에서는 그 성능이 기대에 미치지 못했습니다.
  • 수동 상호작용의 필수성: 이것이 가장 큰 문제입니다. SAM은 본질적으로 대화형(Interactive) 모델입니다. 사용자가 화면에 마우스로 점을 찍거나(Point prompt) 네모 박스를 그려서(Box prompt) 모델에게 분할할 위치를 알려주어야만 올바르게 작동합니다. 1초에 수십 개의 제품이 쏟아져 나오는 자동화된 공정 라인에서, 사람이 화면 앞에 앉아 일일이 결함 위치를 클릭하고 있을 수는 없습니다. 또한 프롬프트 없이 전체 이미지를 분할하라고 명령하면(Everything mode), 수많은 불필요한 배경과 노이즈까지 모두 분할해 버려 후처리 작업이 매우 복잡해집니다.

연구자들은 딜레마에 빠졌습니다. SAM의 분할 능력은 탐나지만, 수동 조작이라는 한계는 산업 자동화의 본질에 위배되기 때문입니다. 따라서 "SAM의 강력한 시각적 이해 능력은 유지하되, 인간의 개입을 배제하고 모델 스스로 산업 환경의 결함을 파악하게 만들 수는 없을까?"라는 질문이 도출되었고, 이것이 바로 본 논문 SAID(Segment All Industrial Defects) 연구가 시작된 배경입니다.

 

3. 이 논문의 뿌리 (Key Reference)

SAID 모델은 무에서 유를 창조한 것이 아닙니다. 이 논문은 기존 딥러닝 비전 분야에서 가장 성공적이었던 모듈들의 아이디어를 영리하게 조립하고, 그 약점을 보완하는 방향으로 설계되었습니다. SAID가 탄생하기 위해 핵심적인 영감을 제공한 논문들은 다음과 같습니다.

  • U-Net (2015): U-Net은 원래 의료용 이미지 분할을 위해 제안된 구조로, 본 논문에서 제안하는 '장면 인코더(Scene Encoder)'의 뼈대가 되었습니다. U-Net은 이미지를 압축하여 전체적인 맥락과 의미를 추출하는 인코더 파트와, 압축된 정보를 다시 확장하며 픽셀 단위의 미세한 위치 정보를 복원하는 디코더 파트가 U자 형태를 이루는 대칭적 구조입니다. 또한 인코더의 특징을 디코더로 직접 넘겨주는 '스킵 커넥션(Skip Connection)' 기능을 통해 위치 정보가 소실되는 것을 막습니다. SAID는 이 U-Net의 구조를 차용하여, 결함이 있는 제품 예시 이미지를 하나의 압축된 맥락 정보(임베딩)로 만들어내는 데 성공했습니다.
  • Segment Anything Model (SAM, 2023): 이 논문의 가장 핵심적인 백본(Backbone)입니다. SAID는 SAM의 강력한 특징 추출기인 '이미지 인코더(Image Encoder)'와 최종적으로 분할 지도를 그리는 '마스크 디코더(Mask Decoder)'를 그대로 가져와 사용합니다. 하지만 SAM이 인간의 클릭 좌표를 입력받아 처리하던 프롬프트 인코더 파트를 과감히 제거하고, 이를 시각적 예시를 이해하는 자체적인 모듈로 대체하여 단점을 보완했습니다.
  • Vision Transformer (ViT, 2020) 및 MAE (2021): SAM의 이미지 인코더는 내부적으로 ViT 구조를 따르며, MAE(Masked Autoencoder) 방식으로 사전 학습되어 있습니다. ViT는 이미지를 여러 개의 작은 패치(Patch)로 쪼갠 뒤, 텍스트의 단어처럼 취급하여 패치들 간의 연관성을 파악합니다. 이 구조적 특성 덕분에 모델은 이미지의 전역적인(Global) 특징을 파악하는 데 탁월하며, SAID가 대상 이미지의 전반적인 형태를 관찰할 때 강력한 성능을 발휘하는 기반이 됩니다.
  • EfficientSAM (2024): 파운데이션 모델은 크기가 방대하여 연산 비용이 큽니다. SAID 연구진은 모델의 실용성을 확보하기 위해, 본래의 무거운 SAM 인코더 외에도 가벼운 파라미터를 가진 EfficientSAM의 구조를 베이스로 차용하여 실험을 진행했습니다. 이를 통해 성능과 연산 속도 사이의 균형을 맞추는 시도를 했습니다.

결론적으로, 이 논문은 SAM의 '범용적 특징 추출 및 분할 능력'과 U-Net의 '정밀한 맥락 압축 및 복원 능력'을 결합하여, 인간을 대신해 인공지능 모듈이 직접 지시를 내리도록 만든 하이브리드 아키텍처라 할 수 있습니다.

 

4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)

SAID와 기존 SAM의 가장 결정적인 차이는 "프롬프트(Prompt)의 형태와 그것을 전달하는 주체"가 바뀌었다는 점입니다. 이를 이해하기 위해 현장 점검의 상황을 비유로 설명해 보겠습니다.

 

거대한 산업 공장에 뛰어난 관찰력을 가진 신입 검사관(SAM 모델)이 배치되었다고 가정해 보겠습니다. 이 검사관은 어떤 물체의 경계선이든 완벽하게 구분해 냅니다. 기존 방식(SAM)에서는 공장 관리자(사람)가 검사관 옆에 서서, 컨베이어 벨트를 지나가는 제품마다 손가락으로 가리키며 "여기 나사에 난 이 긁힌 자국을 분할해", "저기 플라스틱에 난 구멍을 분할해"라고 일일이 지시(Point/Box Prompt)를 내려야 했습니다. 만약 관리자가 손가락으로 가리키지 않으면, 검사관은 화면에 보이는 정상적인 굴곡, 반사된 빛, 배경의 그림자까지 모조리 분리해 버립니다. 이는 자동화 공정에서 불가능한 시나리오입니다.

 

SAID가 제안한 발상의 전환은 검사관에게 손가락질 대신 '가이드북(Scene Prompt)'을 쥐여주는 것입니다.

 

관리자는 검사관에게 해당 공정에서 불량이 발생한 예시 사진 한 장과, 그 불량 부위에 붉은 펜으로 정답이 칠해진 가이드북(단일 주석이 달린 프롬프트-이미지 쌍)을 한 번만 보여줍니다. 검사관 내부의 특별한 사고 기관(장면 인코더)은 이 가이드북을 쓱 훑어보고 "아, 이 공장 라인에서는 이런 텍스처를 가진 표면에서, 이런 모양으로 파인 부분을 찾아야 하는구나"라는 맥락을 스스로 이해합니다. 그 이후부터는 컨베이어 벨트에 새로운 제품이 지나갈 때마다, 사람의 도움이나 클릭 없이도 자신이 이해한 맥락을 바탕으로 스스로 결함을 찾아 분할합니다.

 

즉, 이전 모델에서는 A(인간의 물리적 좌표 개입)가 필수적이었는데, SAID에서는 B(모델이 제품의 예시 데이터를 시각적 지시어로 스스로 변환)라는 발상의 전환을 한 것입니다. 수동 프롬프트를 시각적 예시를 통한 자동 프롬프트로 치환함으로써 자동화의 가장 큰 허들을 넘었습니다.

 

5. 작동 원리: 어떻게 돌아가는가? (The "How")

SAID 모델의 내부는 입력된 이미지가 여러 가공 단계를 거치며 점차 결론(결함 마스크)으로 좁혀지는 공장 라인과 같습니다. 복잡한 수치적 증명은 제외하고, 데이터가 들어와서 나갈 때까지의 데이터 흐름(Flow)을 단계별로 풀어 설명합니다. 전체 구조는 '이미지 인코더', '장면 인코더', '특징 정렬 및 융합 모듈', '마스크 디코더'라는 네 가지 주요 블록으로 구성됩니다.

 

단계 1: 이미지 인코더 (Image Encoder) - 대상 관찰하기

가장 먼저 검사하고자 하는 실제 대상 이미지(예: 현재 생산 라인을 통과하는 알약 사진)가 시스템에 입력됩니다. 이 이미지는 사전에 방대한 데이터로 훈련되어 지식이 고정된(Frozen) 이미지 인코더를 통과합니다. 이 인코더는 Vision Transformer(ViT) 구조를 갖추고 있습니다. ViT는 이미지를 한 번에 보지 않고 일정한 크기의 격자(Patch)로 잘게 쪼갠 뒤, 각 조각들 사이의 관계를 파악합니다. 이 과정을 거치면 원본 이미지는 가로세로 해상도가 줄어들고 정보의 깊이(채널)가 깊어진 형태, 즉 대상의 전체적인 형태와 질감 정보가 농축된 고차원의 수학적 공간인 '이미지 임베딩(Image Embedding)'으로 압축됩니다.

 

단계 2: 장면 인코더 (Scene Encoder) - 가이드북 읽기

SAID를 특별하게 만드는 모듈입니다. 앞선 단계와 별개로, 동일한 공정의 제품 중 정답이 표시된 예시 세트가 장면 인코더에 입력됩니다. 이 세트는 '결함이 있는 예시 이미지'와 '그 결함 위치를 정확히 나타낸 흑백 마스크 이미지' 두 가지로 구성됩니다.

  1. 사전 인코딩(Pre-encoder): 먼저 합성곱 신경망(CNN) 기반의 두 개의 인코더($f_1$, $f_2$)가 각각 예시 이미지와 마스크 이미지를 훑으며 시각적 특징을 추출합니다. 그 후 두 특징을 같은 위치끼리 더하여 하나로 합칩니다.
  2. 융합 및 압축(Fusion Encoder): 합쳐진 데이터는 크기를 절반씩 줄여나가면서 정보의 밀도를 높이는 다운샘플링 과정을 세 번 거칩니다. 이 과정에서 불필요한 배경 정보는 덜어내고 '결함의 본질적인 특징'만 뽑아냅니다.
  3. 복원(Decoder): 압축된 정보는 다시 원래의 임베딩 크기로 늘려주는 업샘플링 과정을 거칩니다. 이때 압축 과정에서 잃어버릴 수 있는 세밀한 위치 정보를 보존하기 위해 스킵 커넥션을 통해 이전 정보를 가져와 이어 붙입니다(Concatenation). 결과적으로 모델은 이 공정 특유의 배경지식을 담은 가이드라인 데이터인 '장면 임베딩(Scene Embedding)'을 만들어냅니다.

 

단계 3: 특징 정렬 및 융합 모듈 (Feature Alignment and Fusion Module) - 정보 섞기

이제 대상 이미지를 관찰한 정보(이미지 임베딩)와 가이드라인 정보(장면 임베딩)가 준비되었습니다. 하지만 두 정보는 출신 성분이 다릅니다. 하나는 ViT라는 트랜스포머 기반 모델에서, 다른 하나는 CNN 기반 모델에서 나왔기 때문에 서로 담고 있는 정보의 주파수(특징 공간)가 미세하게 어긋나 있습니다. 이를 해결하기 위해 연구진은 두 가지 처리 과정을 도입했습니다.

  • 병목 모듈 (Neck Module): 다층 퍼셉트론(MLP)이라는 단순한 형태의 신경망을 각 임베딩의 출구에 배치하여, 두 임베딩이 동일한 언어와 차원을 갖도록 정렬해 줍니다(Feature Alignment).
  • 경량 융합 모듈 (Lightweight Fusion): 정렬된 두 정보를 단순히 겹치는 대신 똑똑하게 섞어야 합니다. 연구진은 픽셀 수준의 3차원 어텐션(3D Attention)이라는 메커니즘을 사용했습니다. 어텐션이란 수많은 픽셀 중에서 결함 탐지에 '정말 중요한 픽셀'에만 높은 가중치를 주는 기술입니다. 대상 이미지의 어떤 부분에 가이드라인 지식을 적용해야 할지 가중치를 계산한 뒤, 두 정보를 융합합니다.

 

단계 4: 마스크 디코더 (Mask Decoder) - 최종 결론 내리기

최종적으로 융합된 특징 데이터는 SAM의 기존 마스크 디코더로 들어갑니다. 디코더는 앞서 섞인 대상의 형태 정보와 결함의 맥락 정보를 바탕으로 최종적인 예측 결과를 도출합니다. 화면에서 결함이 있는 픽셀은 결함으로, 정상인 픽셀은 배경으로 분리된 흑백의 예측 마스크(Predicted Mask)를 출력하며 검사 과정이 완료됩니다. 이 전 과정은 사람의 클릭 한 번 없이 자동으로 진행됩니다.

 

6. 작동 원리: 어떻게 학습하는가? (The "How")

딥러닝 모델의 지능은 어떤 데이터를, 어떤 방식으로 학습했느냐에 따라 결정됩니다. SAID의 학습 구조는 결함 데이터가 부족하고 불균형한 산업 현장의 특성을 반영하여 치밀하게 설계되었습니다.

 

학습을 위한 데이터 구성 (Industrial-5i 데이터셋)

학습에 필요한 데이터의 질과 양을 확보하기 위해, 연구진은 기존에 존재하던 여러 유명한 산업용 결함 데이터셋(MVTec-AD, KolektorSDD, Magnetic Tile 등)을 하나로 통합하여 Industrial-5i라는 거대한 데이터셋을 직접 구축했습니다. 이 데이터셋은 특정 도메인에 편중되지 않도록 목재, 알약, 케이블, 카펫, 칫솔, 금속 나사 등 총 20가지의 완전히 다른 산업 환경(장면) 카테고리로 구성되어 있습니다. 모델의 일반화 능력을 철저히 검증하기 위해 전체 데이터를 4개의 그룹(Fold)으로 나누었습니다.

 

그룹 (Fold) 포함된 카테고리 종류 (예시) 특징
Fold 1 목재(Wood), 알약(Pill), 철도(Railway), 칫솔(Toothbrush) 등 유기물과 무기물 표면의 질감 혼재
Fold 2 가죽(Leather), 병(Bottle), 금속 너트(Metal-Nut) 등 반사광이 있거나 불규칙한 주름 패턴
Fold 3 카펫(Carpet), 헤이즐넛(Hazelnut), 타일(Tile), 폰(Phone) 등 직물의 패턴이나 표면의 미세한 균열
Fold 4 자성 타일(Magnetic Tile), 캡슐(Capsule), 케이블(Cable), 지퍼 등 복잡한 형태의 부품 및 선형 결함

모델을 학습시킬 때는 세 가지의 데이터 포맷이 세트로 입력됩니다.

  1. 입력 데이터 1 (검사 대상 이미지): 가로세로 1024x1024 픽셀의 RGB 컬러 이미지입니다.
  2. 입력 데이터 2 (예시 이미지): 검사 대상과 동일한 카테고리에 속하는 예시용 RGB 컬러 이미지입니다.
  3. 입력 데이터 3 (예시 이미지의 정답 마스크): 예시 이미지에서 결함의 위치가 픽셀 값 '1'로 표시된 1채널 마스크 데이터입니다. 모델이 가혹한 공장 환경의 노이즈에도 잘 견디게 하려고 이미지를 무작위로 수평으로 뒤집거나, 밝기를 조절하거나, 약간 비틀어버리는 데이터 증강(Data augmentation) 기법을 적용해 학습 데이터를 5배로 부풀렸습니다.

 

학습과 오차 교정 (Loss Function)

모델이 세 가지 데이터를 받아 도출하는 출력 데이터는 입력된 이미지와 같은 크기(1024x1024)의 '예측된 흑백 마스크'입니다. 학습 과정은 모델이 예측한 마스크와 사람이 미리 만들어둔 정답 마스크(Ground Truth)를 픽셀 단위로 비교하여 채점하는 과정입니다.

연구진은 채점을 위해 이진 교차 엔트로피 손실 함수(Binary Cross-Entropy Loss)를 사용했습니다.

  • 수식의 의미: 입력값에 따라 정답이 결함일 때 모델의 예측 확률이 낮으면 강한 벌점을 주고, 정답이 정상일 때 결함이라고 예측하면 역시 강한 벌점을 주는 방식입니다.
  • 클래스 불균형 해결: 산업용 이미지의 특징은 전체 이미지 넓이에서 결함이 차지하는 픽셀의 비율이 극도로 작다는 것입니다. 만약 모델이 무조건 "100% 정상이다"라고 예측해버려도 정확도가 99%로 나오는 착시 현상이 발생할 수 있습니다. 손실 함수는 이러한 불균형 속에서도 모델이 미세한 결함 픽셀을 놓치지 않도록 채점 기준을 조정하며 모델 내부의 가중치를 업데이트합니다. 최적화를 위해 Adam 옵티마이저를 사용했으며, 코사인 어닐링(Cosine annealing) 기법을 통해 학습률을 부드럽게 조정하여 모델이 안정적으로 최적의 상태에 도달하도록 유도했습니다.

 

7. 결과: 얼마나 좋아졌나? (Results)

새로운 인공지능 모델을 평가할 때 가장 중요한 기준은 "이 모델이 한 번도 본 적 없는 낯선 상황에 투입되었을 때 얼마나 정확하게 문제를 해결하는가?"입니다. 연구진은 Industrial-5i 데이터셋을 활용해 교차 검증(Cross-validation)을 수행하며 모델의 실질적인 능력을 증명했습니다.

 

제로샷 / 원샷 환경에서의 정확도 도약 (SOTA 달성)

분할 모델의 정확도를 평가하는 대표적인 지표는 mIoU(Mean Intersection over Union)입니다. 이는 모델이 예측한 결함 면적과 실제 정답 면적이 얼마나 잘 겹치는지를 계산한 백분율입니다. 값이 클수록 정밀하게 찾아냈음을 의미합니다.

 

학습에 포함되지 않았던 낯선 환경(원샷 분할)에서 기존의 강력한 모델들과 비교한 결과는 아래 표와 같습니다.

적용된 모델 방법론 Fold 1 Fold 2 Fold 3 Fold 4 평균 mIoU(%)
FSS-1000 10.37 13.23 8.54 7.11 9.81
MMNet 16.59 31.66 22.12 16.55 21.73
MSNet 21.25 31.98 29.24 14.18 24.16
SegGPT 31.16 22.98 28.69 33.47 29.08
SAID (EfficientSAM-T) 24.67 27.69 27.66 20.41 25.61
SAID (SAM-L) 27.49 28.24 29.94 34.17 29.96
 

결과를 분석해 보면 SAID의 가장 무거운 버전인 SAID (SAM-L) 모델이 평균 29.96%의 mIoU를 기록하며 비교군 중 최고 성능(State-of-the-Art)을 달성했습니다. 언어와 이미지를 결합해 뛰어난 성능을 자랑하던 SegGPT 대비 0.87 포인트, MSNet 대비 5.79 포인트라는 유의미한 향상을 이뤄냈습니다. 예시 이미지 한 장만 던져준 상황에서도 복잡한 배경 속 결함을 정교하게 떼어내는 데 성공한 것입니다.

 

사람의 가이드라인을 뛰어넘다 (지도 학습 환경)

더욱 흥미로운 결과는 특정 카테고리를 지정해 훈련과 테스트를 진행한 지도 학습 환경(MVTec-AD 데이터셋 활용)에서 나타났습니다. 기존 SAM 모델에 사람이 직접 마우스를 사용해 결함 위치에 정밀하게 네모 박스를 쳐주는 프롬프트(SAM Box 모드)를 입력했을 때의 mIoU는 0.635였습니다. 반면, 사람의 개입 없이 오직 예시 사진 한 장만 주어지고 자동화된 SAID 모델의 mIoU는 0.725를 기록했습니다. 이는 인공지능이 인간이 지정해 주는 박스 좌표보다, 자신이 시각적 예시를 통해 직접 추출한 '맥락 정보'를 활용할 때 더 섬세하고 정확한 분할을 해낼 수 있음을 입증하는 결과입니다.

 

연산 속도와 실용성

공장 라인에서는 실시간 처리가 생명입니다. 연구진이 RTX 3090 Ti 그래픽 카드에서 추론 속도를 실험한 결과, SAID (SAM-L) 모델이 전체 과정을 수행하는 데는 이미지 한 장당 500~800ms(밀리초)가 소요되었습니다. 이는 파라미터 수가 3억 개가 넘는 거대한 백본 구조상 필연적인 결과입니다. 하지만 묘안이 존재합니다. 만약 공정에 들어오기 전 대상 이미지를 백그라운드에서 미리 임베딩으로 인코딩(Pre-encoded)해둔 상태라면, 실질적인 결함 검출 추론 시간은 단 15~20ms로 극단적으로 단축됩니다. 초당 50프레임 이상의 검사가 가능해지는 것입니다. 또한 SAM을 사용할 때 매번 사람이 클릭을 지정하느라 소모되던 8~12초의 노동 시간이 '0초'로 줄어들었으므로, 실질적인 공정 효율은 비약적으로 상승했습니다.

 

모듈 구조의 중요성 (융합 모듈의 성능 비교)

특징 정렬 및 융합을 위해 도입한 3D 픽셀 단위 어텐션(Lightweight Fusion)이 과연 효과가 있었을까요? 연구진은 융합 방식을 달리하며 성능을 실험했습니다.

  • 단순 이어 붙이기 (Concat Fusion): 평균 mIoU 25.19
  • 교차 어텐션 적용 (Attention Fusion): 평균 mIoU 26.76
  • 3D 경량 융합 (Lightweight Fusion): 평균 mIoU 29.95 결과에서 보듯, 장면 임베딩과 이미지 임베딩의 특징 공간을 일치시키고 픽셀 단위로 정밀하게 섞어주는 3차원 어텐션 설계가 성능 향상의 결정적인 원동력이었음이 확인되었습니다.

 

한계점 (실패 케이스)

연구진은 신뢰도를 높이기 위해 모델의 구조적 한계점도 솔직하게 공개했습니다.

  1. 적절한 예시 데이터 의존성: SAID는 여전히 동일한 환경에서 찍힌 대표적인 '좋은 예시 이미지'에 의존합니다. 만약 공정에 완전히 새로운 불량 유형이 나타나거나 제품 모델이 예고 없이 변경될 경우, 이에 맞는 예시 사진이 준비되어 있지 않으면 성능이 크게 떨어질 수 있습니다.
  2. 연산 자원의 부담: 모델 아키텍처가 크고 무겁기 때문에 저전력 엣지 디바이스(초소형 공장용 카메라 칩 등)에 단독으로 배포하기에는 제약이 따릅니다.
  3. 극단적 환경에서의 민감도: 결함 부위가 주변 사물에 심하게 가려져 있거나(Occlusion), 조명 조건이 극단적이거나, 정상적인 텍스처 자체가 결함과 구분하기 어려울 정도로 복잡한 환경에서는 결함을 잘못 분류하는 오탐지가 증가할 가능성이 있습니다.

 

8. 이 논문의 계보와 발전 (Impact & Follow-ups)

파운데이션 모델을 좁고 특수한 산업 도메인에 이식하고, 수동 프롬프트를 자동화하려 한 이 대담한 시도는 발표 이후 후속 연구에 커다란 파장을 일으켰습니다. SAID 논문이 촉발한 "어떻게 하면 인간의 개입을 줄이고 퀄리티를 높일 것인가?"라는 화두는 2026년 현재 다음과 같은 최신 기술 트렌드로 이어지고 있습니다.

  • CHIPS (2026): 인간-AI 협력 프롬프트의 등장 SAID가 인간의 개입을 100% 배제하고 완전 자동화하려 했다면, 최근 발표된 CHIPS(Human-AI collaborative prompt generation) 프레임워크는 보다 현실적인 타협안을 제시합니다. 이 모델은 SAID와 유사하게 퓨샷(Few-shot) 학습을 기반으로 모델이 스스로 SAM의 프롬프트를 생성합니다. 하지만 인공지능이 스스로 확신하지 못하는 극소수의 모호한 결함에 대해서만 선택적으로 인간 전문가에게 판단을 넘기는 구조(Human-in-the-loop, HITL)를 채택했습니다. 이러한 '선택적 협력'을 통해 자동화의 효율성을 잃지 않으면서도, 공정에서 가장 피해야 할 오탐지(False Positive) 비율을 40%나 감소시키는 실용성을 증명했습니다.
  • AnomalyVFM (2026): 텍스트의 한계를 넘은 시각 전용 모델의 완성 기존의 많은 제로샷 모델들은 이미지를 언어(Text)와 연결하는 CLIP 모델에 의존해 "스크래치가 난 표면", "구멍 뚫린 플라스틱"이라는 텍스트 프롬프트를 사용했습니다. 그러나 복잡한 산업 결함을 언어의 뉘앙스로 담아내는 데는 뚜렷한 한계가 존재했습니다. AnomalyVFM 모델은 언어 모델을 과감히 배제하고, DINOv2나 RADIO와 같이 순수하게 시각적 구조와 패턴만을 분석하는 비전 파운데이션 모델(VFM)에 집중했습니다. 합성 데이터 생성 기법과 경량 어댑터를 결합한 이 방식은 어떤 예시 이미지나 텍스트 입력 없이도 다양한 데이터셋에서 평균 94.1%라는 압도적인 AUROC(이상 탐지 정확도)를 달성하며 기술의 패러다임을 바꾸고 있습니다.
  • DCS 프레임워크 (2026): 여러 거대 모델의 시너지 결합 또 다른 흥미로운 트렌드는 여러 파운데이션 모델의 장점만을 뽑아 융합하는 방식입니다. DCS 모델은 사물의 위치를 잡는 데 탁월한 Grounding DINO, 의미를 파악하는 CLIP, 그리고 분할을 수행하는 SAM을 하나로 엮어냈습니다. 특히 박스 프롬프트와 포인트 프롬프트를 적응적으로 결합해주는 생성 모듈(BPPC)을 통해 SAM이 더 미세하고 완벽한 형태의 분할 마스크를 만들어내도록 유도하며, 제로샷 기반 이상 탐지 분야의 정확도 한계를 돌파하고 있습니다.

 

9. 마무리

SAID 논문은 거대 AI 파운데이션 모델을 좁고 특수한 환경에 이식할 때 마주하게 되는 가장 현실적인 장애물, 즉 '수동 프롬프트 개입 문제'를 매우 영리하게 우회한 연구입니다. 모델의 뇌(이미지 인코더와 디코더)를 뜯어고쳐 새로운 모델을 만드는 무모한 시도 대신, 기존 뇌를 그대로 보존한 채 모델의 눈앞에 '가이드북(장면 인코더)'이라는 새로운 인터페이스를 들이미는 방식의 설계는 구조적 우수함을 보여줍니다.

 

실무 도입 시 주의할 점 (인사이트)

이론적으로 훌륭한 모델이지만, 제조 라인의 실무 엔지니어가 이를 현장에 도입하고자 할 때는 몇 가지 검토가 필요합니다. 첫째, 파운데이션 모델 특성상 막대한 GPU 메모리와 연산 능력을 요구합니다. 사전에 이미지를 인코딩하여 추론 속도를 줄일 수는 있지만, 수십 대의 카메라가 동시에 가동되는 공장 전체에 적용하려면 하드웨어 구축 비용이 편익을 넘어서는지 면밀히 따져보아야 합니다. 둘째, 예시 이미지(가이드북) 품질 관리에 신경 써야 합니다. 공정 라인의 카메라 위치나 조명이 주기적으로 변하는 환경이라면, 모델이 의존하는 예시 이미지의 맥락과 현재 입력되는 검사 이미지의 환경이 틀어지게 됩니다. 이는 곧바로 치명적인 오탐지로 직결될 수 있으므로 환경 변수를 철저히 통제해야 합니다.

 

앞으로의 발전 방향

이러한 한계를 극복하기 위해 향후 컴퓨터 비전 기술은 크게 두 가지 방향으로 진화할 것입니다. 첫째, '동적 프롬프트 선택(Dynamic Prompt Selection) 메커니즘'의 도입입니다. 현재 모델은 사람이 골라준 단 한 장의 예시 사진에 의존하지만, 앞으로는 데이터베이스에 쌓인 수만 장의 과거 불량 이력 중에서, 현재 카메라에 잡힌 불량 형태와 가장 유사한 예시를 모델이 스스로 검색하고 실시간으로 프롬프트로 집어넣는 능동적인 시스템이 결합될 것입니다. 둘째, '지식 증류(Knowledge Distillation)'를 통한 극단적인 경량화입니다. 거대한 SAM의 추론 능력을 파라미터가 적은 아주 작은 신경망에 압축하여, 고가의 서버 그래픽 카드가 아닌 공장 라인에 부착된 초소형 저전력 카메라 칩 위에서도 초당 100프레임씩 부드럽게 결함을 분할하는 방향으로 발전할 것입니다.

 

SAID 논문은 "파운데이션 모델이 제조업의 깐깐한 품질 관리마저 완전히 지배하는 날이 올 것인가?"라는 질문에, "적절한 시각적 가이드만 설계해 준다면 충분히 가능하다"라는 긍정의 증거를 보여주었습니다. 사람이 일일이 마우스를 클릭해야 했던 단순 노동에서 벗어나 스스로 맥락을 파악하고 학습하기 시작한 인공지능이, 머지않은 미래에 우리의 제조 현장과 품질 관리 시스템을 얼마나 유연하고 완벽하게 혁신해 나갈지 무척 기대되는 바입니다.

 

반응형