본문 바로가기

딥러닝

Visual Quality-R1 - 회귀(Regression) 기반의 점수 매기기를 벗어나 상대적 비교(Ranking)로 시각적 추론과 이미지 품질 평가를 혁신하다

반응형


일러두기 (Disclaimer)

본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.

 

 

논문 링크 : https://arxiv.org/abs/2505.14460

 

VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank

DeepSeek-R1 has demonstrated remarkable effectiveness in incentivizing reasoning and generalization capabilities of large language models (LLMs) through reinforcement learning. Nevertheless, the potential of reasoning-induced computation has not been thoro

arxiv.org

 

 

초록 (Abstract)

DeepSeek-R1은 강화학습(Reinforcement Learning)을 통해 대형 언어 모델(Large Language Models, LLMs)의 추론 및 일반화 능력을 촉진하는 데 있어 주목할 만한 효과를 입증했습니다. 그럼에도 불구하고, 시각적 추론에 결정적으로 의존하는 작업인 이미지 품질 평가(Image Quality Assessment, IQA) 맥락에서는 추론 기반 연산의 잠재력이 깊이 있게 탐구되지 않았습니다. 본 논문에서는 추론 기반 무참조 이미지 품질 평가(No-Reference IQA, NR-IQA) 모델인 Visual Quality-R1을 소개하며, 시각적 품질의 본질적인 상대적 특성에 맞춰 설계된 학습 알고리즘인 '순위를 위한 강화학습(Reinforcement Learning to Rank, RL2R)'을 사용하여 이를 학습시킵니다.

구체적으로, 한 쌍의 이미지에 대해 그룹 상대적 정책 최적화(Group Relative Policy Optimization, GRPO)를 적용하여 각 이미지에 대한 다중 품질 점수를 생성합니다. 이러한 추정치는 서스톤 모델(Thurstone model) 하에서 한 이미지가 다른 이미지보다 높은 품질을 가질 비교 확률을 계산하는 데 사용됩니다. 각 품질 추정치에 대한 보상은 이산화된 이진 레이블(discretized binary labels) 대신 연속적인 충실도 측정(continuous fidelity measures)을 사용하여 정의됩니다. 광범위한 실험에 따르면 제안된 Visual Quality-R1은 식별 모델 기반의 딥러닝 NR-IQA 모델과 최근의 추론 기반 품질 회귀(Regression) 방법을 일관되게 능가합니다. 나아가 Visual Quality-R1은 문맥이 풍부하고 인간의 인식과 정렬된 품질 설명을 생성할 수 있으며, 지각적 척도 재조정(perceptual scale realignment) 과정 없이도 다중 데이터셋 학습을 지원합니다. 이러한 특징들로 인해 Visual Quality-R1은 초해상도(super-resolution) 및 이미지 생성과 같은 광범위한 이미지 처리 작업의 발전을 신뢰성 있게 측정하는 데 특히 적합한 모델로 평가받습니다.

 

1. 한줄 요약 & 3줄 핵심 (Executive Summary)

이미지가 얼마나 좋은지 절대적인 점수로 맞추려던 기존의 관행을 버리고, 두 이미지를 비교하는 '상대적 순위 매기기(Ranking)'와 대형 시각-언어 모델(VLM)의 '시각적 추론'을 결합하여 인간의 평가 방식과 가장 유사하게 이미지 품질을 평가하는 방법론입니다.

  1. 기존의 문제점 (Pain point): 기존 이미지 품질 평가 모델들은 품질을 절대적인 수치로 예측하려 했기에 다양한 점수 체계를 가진 데이터셋을 통합하기 어려웠으며, 인간의 고비용 라벨링 텍스트에 의존하는 지도 미세 조정(SFT)은 모델의 유연성을 떨어뜨리고 환각(Hallucination)을 유발했습니다.
  2. 이 논문의 해결책 (Solution): 대형 언어 모델의 강화학습 기법인 GRPO를 시각 평가에 도입하되, 단순한 점수 맞추기(회귀)가 아닌 두 이미지 간의 승률을 계산하는 서스톤 모델 기반의 '순위 학습(RL2R)'으로 문제를 재정의하고, 연속적인 충실도 보상(Continuous Fidelity Reward)을 적용했습니다.
  3. 달성한 성과 (Key Result): KADID, KonIQ, SPAQ 등 주요 벤치마크에서 기존 최고 수준(SOTA)을 경신했으며, 복잡한 점수 변환 작업 없이 여러 데이터셋을 동시에 학습하여 일반화 성능을 높였습니다. 또한 품질 저하의 원인을 논리적이고 상세하게 설명하는 추론 텍스트 생성 능력을 확보했습니다.

 

2. 들어가며: 왜 이 연구가 필요했나? (The "Why")

디지털 카메라, 스마트폰 촬영, 그리고 최근 급격히 발전한 인공지능 이미지 생성 기술에 이르기까지 우리는 매일 수많은 이미지를 소비합니다. 이때 인간은 "이 사진은 초점이 맞지 않아 흐릿하다", "이 생성 이미지는 텍스처가 부자연스럽다"라고 직관적으로 판단합니다. 이러한 인간의 주관적 평가를 컴퓨터 알고리즘이 대신 수행하게 만드는 기술을 이미지 품질 평가(Image Quality Assessment, IQA)라고 합니다.

 

IQA 기술은 기준이 되는 원본 이미지의 존재 여부에 따라 두 가지로 나뉩니다. 원본(완벽한 품질의 이미지)과 손상된 이미지를 픽셀 단위로 비교하는 참조 평가(Full-Reference, FR)와, 원본 없이 주어진 이미지 하나만 보고 품질을 유추해야 하는 무참조 평가(No-Reference, NR)입니다. 현실 세계에서는 완벽한 원본 이미지가 존재하지 않는 경우가 대부분이므로, 무참조 평가(NR-IQA) 기술이 산업적으로 더 높은 가치를 가집니다.

 

과거의 NR-IQA 모델들(NIQE, BRISQUE 등)은 이미지의 밝기, 대비, 공간적 주파수 통계값 같은 수작업 특징(Handcrafted features)을 수학적으로 추출하여 평가를 수행했습니다. 이후 딥러닝 시대가 열리며 합성곱 신경망(CNN)이나 비전 트랜스포머(Vision Transformer)에 이미지를 입력하면 품질 점수라는 하나의 숫자가 출력되는 회귀(Regression) 기반의 모델들이 주류를 이루었습니다. 그러나 최근 시각-언어 모델(VLM)이 등장하기까지 기존의 회귀 기반 방식들에는 치명적인 단점들이 존재했습니다.

 

첫째, 상대적 인지의 무시(Absolute vs Relative)입니다. 인간은 이미지를 평가할 때 머릿속에 '절대적인 100점 만점 기준표'를 두고 채점하지 않습니다. 인간의 지각은 본질적으로 상대적이며, "A 사진이 B 사진보다 노이즈가 적어서 더 낫다"는 식의 비교를 통해 품질을 인지합니다. 그러나 기존 모델들은 무조건 특정 이미지와 절대적인 점수를 일대일로 매칭하려다 보니, 학습 데이터에서 본 적 없는 새로운 유형의 왜곡(예: AI 생성 이미지의 기하학적 붕괴)이 발생하면 성능이 크게 저하되었습니다.

 

둘째, 다중 데이터셋 통합의 어려움(Scale Realignment Issue)입니다. 품질 평가 데이터셋은 연구 기관마다 기준이 다릅니다. KADID-10K 데이터셋은 1점부터 5점까지의 척도를 사용하고, SPAQ 데이터셋은 0점부터 100점까지의 척도를 사용합니다. 회귀 기반 모델을 이 두 데이터셋으로 동시에 학습시키려면 점수의 척도를 선형적 혹은 비선형적으로 맞추는 복잡한 스케일 재조정(Realignment) 작업이 필요합니다. 이 과정에서 원본 데이터가 가진 미세한 품질 차이 정보가 소실되는 문제가 발생합니다.

 

셋째, 지도 미세 조정(SFT)의 한계와 설명력 부족입니다. 최근 시각-언어 모델(VLM)을 활용하여 이미지 품질을 점수뿐만 아니라 글로 설명하려는 시도(Q-Align, DeQA-Score 등)가 등장했습니다. 그러나 이들은 연구자가 일일이 "이 이미지는 흐릿하고 노이즈가 많아서 2점이다"라고 작성한 텍스트 정답을 모델이 모방하게 하는 지도 학습(SFT) 방식을 사용했습니다. 이는 막대한 데이터 구축 비용을 요구할 뿐만 아니라, 모델이 템플릿화된 정답의 형태만을 외우게 되는 과적합(Overfitting) 현상을 유발합니다. 그 결과 모델은 진정한 의미의 시각적 추론을 하지 못하고 앵무새처럼 정해진 문장만 반복하게 됩니다.

 

연구자들은 다음과 같은 고민에 직면했습니다. "대형 언어 모델(LLM) 분야에서는 인간이 정답을 주지 않아도, 강화학습을 통해 모델 스스로 논리적 단계를 밟아가며 생각하는 법을 깨우치게 만들었다. 그렇다면 이미지 품질 평가에서도 점수를 강제로 외우게 하지 말고, 두 이미지를 비교하며 스스로 순위를 매기는 훈련을 통해 시각적 품질의 본질을 추론하게 만들 수 있지 않을까?" 이러한 배경에서 Visual Quality-R1 모델의 핵심 방법론이 탄생하게 되었습니다.

 

3. 이 논문의 뿌리 (Key Reference)

이 연구는 과거의 심리학적 통계 모델부터 최신 대형 언어 모델의 강화학습 기법까지, 다양한 분야의 핵심 논문들을 비판적으로 계승하여 융합했습니다. 이 모델이 탄생하기 위해 가장 큰 영감을 제공한 핵심 연구들과 그 관계성은 다음과 같습니다.

  • Thurstone Model (1927) 및 RankNet (2005): 본 논문의 철학적, 수학적 기반을 구성하는 뿌리입니다. 서스톤 모델(Thurstone Model)은 심리학에서 출발한 이론으로, 인간이 대상을 평가할 때 절대적인 수치가 아니라 쌍따윈 비교(Pairwise comparison)를 통해 대상의 가치를 정규 분포 확률로 추정한다는 개념을 제시했습니다. 2005년에 발표된 RankNet 알고리즘은 이 개념을 차용하여 검색 엔진의 문서 순위를 매기는 데 성공했습니다. 본 논문은 이 고전적인 아이디어를 계승하여, 이미지 품질 역시 회귀가 아닌 '비교 확률'로 계산해야 한다는 점을 입명하기 위해 서스톤 모델을 기본 프레임워크로 채택했습니다.
  • DeepSeek-R1 (2025): 이 논문의 방법론적 백본(Backbone)입니다. DeepSeek-R1은 인간의 고비용 라벨링 데이터 없이 강화학습만을 사용하여 언어 모델의 논리적 추론 능력을 극대화한 연구입니다. 이 논문은 DeepSeek-R1에서 사용된 핵심 강화학습 알고리즘인 GRPO(Group Relative Policy Optimization)를 시각적 추론 영역으로 가져왔습니다. 수학 문제나 코딩의 정답 여부를 확인하는 기존 GRPO의 목적 함수를 수정하여, 시각적 품질을 평가하도록 보완했습니다.
  • Q-Insight (2025): 이 논문이 탄생하는 데 있어 가장 비판적으로 극복하고자 했던 직접적인 라이벌 연구입니다. Q-Insight 역시 시각-언어 모델(VLM)에 강화학습(GRPO)을 적용하여 이미지 품질을 이해하려 한 선구적인 모델입니다. 그러나 Q-Insight는 강화학습을 도입했음에도 불구하고 여전히 이미지 품질을 '회귀(Regression)' 문제로 취급하여 모델에게 특정 점수를 맞추도록 강제했습니다. 그 결과, 데이터셋마다 다른 점수 체계에 대응하기 위한 별도의 보상 보정(Reward calibration)이 필요했고, 미지의 왜곡에 대한 일반화 성능에 뚜렷한 한계를 보였습니다. 본 논문은 Q-Insight의 이러한 구조적 한계를 거울삼아, '회귀'에서 '순위(Ranking)'로 발상을 전환하여 문제를 해결했습니다.

 

4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)

이 논문이 제시한 해결책의 가장 큰 도약은 "이미지 품질 평가는 점수 맞추기(Regression)가 아니라 승률 계산(Ranking)이다"라는 발상의 전환에 있습니다.

 

이해를 돕기 위해 와인 테이스팅에 비유해 보겠습니다. 소믈리에 지망생에게 수백 가지의 와인을 주고 "이 와인은 100점 만점에 몇 점인지 정확히 맞혀보라"고 훈련시키는 것(회귀 방식)은 매우 어렵고 주관적인 기준에 휘둘리기 쉽습니다. 반면 "이 와인과 저 와인 중 어느 것이 더 숙성이 잘 되었는가?"를 비교하게 하고, 그 이유를 설명하게 하는 훈련 방식(순위 기반 학습)은 훨씬 직관적이며 본질적인 미각을 기르는 데 도움이 됩니다. Visual Quality-R1은 인공지능에게 정확히 이 두 번째 방식을 적용한 것입니다.

 

이 논문을 특별하게 만드는 또 다른 핵심 아이디어는 연속적인 충실도 보상(Continuous Fidelity Reward)입니다.

 

기존 대형 언어 모델의 강화학습(예: 코딩, 수학 문제 풀이)은 "정답을 맞혔다(1점)" 혹은 "틀렸다(0점)"라는 이진수 보상(Binary Reward)을 부여합니다. 하지만 시각적 품질은 흑백 논리로 명확하게 나뉘지 않습니다. "A 이미지가 B 이미지보다 확연하게 뛰어나다"와 "A 이미지가 B 이미지보다 아주 미세하게 낫다"는 승패의 결과로는 같지만, 실제 품질 차이의 정도는 다릅니다.

 

따라서 본 논문은 단순한 승패가 아닌 승률 간의 차이를 실수(Continuous values) 형태로 계산하는 보상 함수를 설계했습니다. 모델이 인간의 선호도와 동일한 방향으로 순위를 매기되, 그 격차까지 얼마나 섬세하게 맞추었는지에 비례하여 보상을 제공합니다. 이 연속적인 보상 신호 덕분에 모델은 극미한 노이즈의 증가나 텍스처의 미세한 손상까지도 예민하게 감지하는 방향으로 진화하게 됩니다.

 

5. 작동 원리: 어떻게 돌아가는가? (The "How")

이제 시각 데이터가 모델에 들어가서 최종 결과가 나올 때까지의 전체적인 흐름(Flow)을 단계별로 살펴보겠습니다.

  • 1단계: 모델 초기화 및 프롬프트 입력 기본 백본(Backbone)으로 시각-언어 모델인 Qwen2.5-VL-7B를 사용합니다. 훈련 배치 내에 있는 두 장의 이미지(이미지 $i$, 이미지 $j$)와 텍스트 프롬프트를 모델에 입력합니다. 이때 입력되는 프롬프트의 지시사항은 다음과 같습니다. "이 사진의 전반적인 품질을 평가하십시오. 1점(매우 나쁨)에서 5점(매우 우수) 사이의 실수 값을 소수점 둘째 자리까지 출력하십시오. 먼저 <think> 태그 안에 추론 과정을 작성하고, 마지막에 <answer> 태그 안에 단 하나의 점수만 출력하십시오.".
  • 2단계: GRPO를 통한 다중 응답 생성 (Exploration) 모델은 단 하나의 정답만 내놓는 것이 아니라, 동일한 이미지에 대해 여러 번(예: $K=6$번)의 독립적인 추론 궤적과 점수 예측을 수행합니다. 이 과정은 GRPO(Group Relative Policy Optimization)라는 최적화 알고리즘을 통해 이루어집니다. 쉽게 비유하자면, 모델 내부에서 6명의 독립적인 심사위원을 생성하여 하나의 이미지에 대해 각자의 논리와 점수를 내놓도록 토론의 장을 여는 것입니다. 이렇게 생성된 다수의 응답은 예측의 평균을 구하고, 예측의 '불확실성(분산)'을 계산하는 핵심 재료가 됩니다.
  • 3단계: 서스톤 모델을 이용한 확률 계산 (Comparison) 이제 두 이미지의 임시 점수들을 비교할 차례입니다. 모델은 수학적 함수를 사용해 **"이미지 $i$의 특정 예측 점수가 이미지 $j$의 평균 예측 점수보다 클 확률"**을 계산합니다. 이때 단순히 점수의 크기만 비교하는 것이 아니라, 앞서 2단계에서 구한 '불확실성(분산)'을 활용합니다.
    • 원리 풀이: 입력값(이미지 $i$의 점수에서 이미지 $j$의 평균 점수를 뺀 값)을 두 이미지 예측 점수들이 가진 불확실성(분산의 합)으로 나눕니다. 이 결과값을 정규 분포 곡선에 넣어 최종적인 비교 확률을 구합니다. 즉, 심사위원들(추론 결과들)의 의견이 엇갈려 분산이 크면 품질의 우위를 확신하지 못하므로 확률 차이를 보수적으로 잡고, 의견이 일치하여 불확실성이 적으면 확률 차이를 크게 인정하는 매우 논리적인 비교 방식입니다.
  • 4단계: 인간의 선호도 대조 및 정책 업데이트 (Reward & Update) 모델이 계산한 비교 확률을, 실제 인간이 매긴 두 이미지의 평균 의견 점수(MOS)를 바탕으로 한 진짜 승률 데이터와 대조합니다. 이때 앞서 언급한 '연속적인 충실도 보상' 공식을 사용하여 모델이 인간의 판단과 얼마나 유사하게 품질의 격차와 순위를 매겼는지 평가하여 보상 점수를 산출합니다. 모델은 이 보상 점수를 가장 극대화할 수 있는 방향으로 내부 신경망의 가중치를 미세하게 업데이트(Policy Update)합니다. 동시에 모델이 너무 엉뚱한 방향으로 학습되지 않도록, 학습 전 원본 모델의 상태와 너무 멀어지지 않게 통제하는 안전장치(KL Divergence 페널티)를 함께 적용합니다.

이 과정을 수만 번 반복하면서, 모델은 점차 "어떤 특징(블러, 노이즈, 구도 등)을 시각적으로 탐지하여 텍스트로 언급하고, 그에 따라 점수를 얼마나 깎아야 인간의 평가 방식과 일치하는지"를 스스로 깨우치게 됩니다.

 

6. 작동 원리: 어떻게 학습하는가? (The "How")

시각적 추론 기반의 강화학습을 진행하기 위해 사용되는 실제 데이터의 구조와 형태는 모델이 범용성을 갖추는 데 핵심적인 역할을 합니다. 본 연구에서는 복잡한 점수 스케일 변환을 생략하고 여러 데이터셋을 날것(Raw) 그대로 통합하여 학습 효율을 높였습니다.

 

입력 데이터 (Input Data)

  • 데이터의 포맷 및 종류: 디지털 2D 이미지 원본 데이터와 해당 이미지를 본 인간 평가자들이 매긴 주관적 평균 점수(MOS) 파일이 짝지어진 쌍따윈(Pairwise) 데이터 포맷입니다. 정답이 적힌 텍스트 라벨 대신, 이미지 두 장의 픽셀 데이터와 이 두 이미지 간의 인간 선호도(어느 이미지가 더 MOS가 높은지)가 환경 정보로 입력됩니다.
  • 수량 및 구성:
    • 인위적인 왜곡(압축 아티팩트, 가우시안 블러, 노이즈 등)이 단계별로 포함된 실험실 환경의 데이터셋인 KADID-10K (약 1만 장)이 사용되었습니다.
    • 실제 스마트폰이나 카메라로 촬영된 자연스러운 왜곡과 복잡한 환경 노이즈가 있는 야생(In-the-wild) 데이터셋인 KonIQ-10k (약 1만 장), SPAQ (약 1만 1천 장), LIVEC 데이터셋 등을 혼합하여 사용했습니다.
    • 강건한 학습을 위해 이 이미지들은 6:2:2 (학습:검증:테스트) 비율로 시맨틱 내용이 겹치지 않게 철저히 분할되었습니다.

출력 데이터 (Output Data):

  • 출력 데이터의 종류/포맷: 모델이 시각 정보를 처리한 후 뱉어내는 출력물은 두 파트로 구성됩니다. 첫 번째는 시각적 판단의 이유를 설명하는 텍스트 블록(추론 궤적)이고, 두 번째는 소수점 두 자리로 표현된 최종 수치 점수입니다.
  • 구체적 예시 1 - 고품질 이미지에 대한 출력 데이터
    • 입력 데이터: 잔잔한 물가에 서 있는 새의 선명하고 색채가 뚜렷한 2D 이미지.
    • 추론 텍스트 (<think>): "이 이미지는 물에 서 있는 새와 그 아래 비친 반사 이미지를 명확하고 선명하게 묘사하여 고품질을 보여줍니다. 새의 깃털, 부리, 다리의 디테일이 잘 정의되어 있어 초점과 조명이 훌륭함을 나타냅니다. 물 표면은 매끄럽고 전체 구도를 강화하는 깨끗하고 대칭적인 반사를 만듭니다. 배경은 늪지대로 보이며 주제를 방해하지 않고 상황적 맥락을 더해줍니다. 색상이 생생하며, 새의 갈색 및 흰색 깃털과 물의 푸른색이 좋은 대비를 이룹니다.".
    • 출력 점수 (<answer>): 4.80
  • (구체적 예시 2 - 저품질 이미지에 대한 출력 데이터):
    • 입력 데이터: 실내에서 마이크를 들고 있는 남자의 초점이 맞지 않고 노이즈가 낀 2D 이미지.
    • 추론 텍스트 (<think>): "이 이미지는 다음과 같은 명백한 문제점들을 가지며 낮은 품질로 보입니다: 1. 흐릿함: 피사체와 배경의 초점이 선명하지 않아 세밀한 디테일을 식별하기 어렵습니다. 2. 조명: 피사체의 얼굴과 마이크 주변 등 일부 영역은 과다 노출되고 다른 영역은 노출이 부족하여 조명이 고르지 않습니다. 3. 색상 균형: 조명 조건이나 카메라 설정의 문제로 색상이 다소 탁하거나 왜곡되어 있습니다. 4. 노이즈: 특히 어두운 영역에서 작은 점이나 얼룩으로 보이는 노이즈가 눈에 띕니다. 전반적으로 선명도와 디테일이 부족합니다.".
    • 출력 점수 (<answer>): 1.80

기존의 지도 학습 방식(Q-Instruct 등)이 "색감이 풍부하다. 질감이 불명확하다. 중앙 구도다. 그러므로 품질이 나쁘다." 수준의 짧고 단편적인 문장만을 강제로 출력했던 것에 비해, 순위 기반 강화학습을 거친 본 모델은 인간 전문가의 사고방식과 흡사하게 논리적이고 문맥이 풍부한 구조화된 문단을 작성해 냅니다.

 

7. 결과: 얼마나 좋아졌나? (Results)

Visual Quality-R1은 실험에 사용된 다양한 왜곡 시나리오에서 기존 평가 지표를 모두 갱신하며 인상적인 성과를 입증했습니다.

  • SOTA(State-of-the-art) 달성 및 정량적 성과: 모델의 성능은 예측한 점수와 인간이 매긴 점수 간의 순위 일치도를 보는 SRCC(스피어만 순위 상관계수)와 선형적 일치도를 보는 PLCC(피어슨 선형 상관계수)로 평가됩니다 (1에 가까울수록 인간의 판단과 완벽히 일치함). 이 모델은 총 8개의 개별 데이터셋에서 기존 모델들을 압도하며 SOTA를 달성했습니다.
모델 및 방법론 SPAQ 데이터셋 (SRCC) BID 데이터셋 (SRCC) 특징
식별 기반 딥러닝 (MANIQA) 0.745 0.420 회귀 기반, 다중 데이터셋 학습 난해
VLM 지도학습 (DeQA-Score) 0.852 0.743 템플릿화된 짧은 설명만 생성
추론 회귀 (Q-Insight) 0.872 0.784 단일 데이터셋에서는 우수하나 확장성 부족
Visual Quality-R1 (본 논문) 0.875 (다중: 0.913) 0.790 (다중: 0.811) 순위 기반 강화학습, 맥락적 추론 생성
  • 일반화 및 다중 데이터셋 극복의 이점: 강화학습에서 절대 점수 대신 '상대적 순위'를 채택한 설계 덕분에, 점수 체계가 1~5점인 KADID 데이터와 0~100점인 SPAQ 데이터를 혼합하여 학습시켜도 모델이 스케일의 차이로 인해 혼동하지 않았습니다. 경쟁 모델인 Q-Insight는 다중 데이터셋을 강제로 1~5점으로 변환하여 학습시켰을 때 오히려 성능이 하락하는 부작용을 겪었으나, Visual Quality-R1은 더 많은 종류의 데이터셋을 추가할수록 전반적인 평가 성능(평균 SRCC 0.777 $\rightarrow$ 0.791)이 일관되게 상승했습니다.
  • 시각적 추론의 진화 (실험 관찰 결과): 논문은 모델이 학습 스텝(Iterative steps)을 거칠수록 시각적 판단 기준이 어떻게 고도화되는지를 추적했습니다. SwinIR 알고리즘으로 초해상도(Super-resolution) 처리를 거쳐 미세한 인공적 아티팩트가 남은 이미지를 평가할 때 그 차이가 극명하게 드러났습니다. 초기(0번째 스텝)에는 모델이 피상적인 선명도만 보고 "디테일이 좋고 색상이 생생하여 품질이 높다"고 착각했습니다 (점수 4.80). 그러나 학습이 진행되면서 50번째 스텝에서는 "이 이미지는 약간 추상적이거나 필터가 적용된 것 같다"고 인공적인 흔적을 의심하기 시작했습니다. 최종 스텝에 도달하자 "색상은 생생하지만 초현실적인(Surreal) 필터가 적용되어 부자연스럽고 가장자리가 뭉개져 있다"고 정확한 원인을 진단하며 점수를 3.00으로 깎아내는 훌륭한 인간 정렬(Human-aligned) 능력을 보여주었습니다.
  • 실패 케이스 및 솔직한 한계점 (Limitations): 논문에서 명시한 구조적인 첫 번째 한계는 추론 속도와 막대한 컴퓨팅 비용입니다. 평가 시점(Test-time)에 하나의 정답을 바로 내는 것이 아니라 여러 개의 긴 텍스트 응답 궤적을 생성하여 분산을 계산해야 하므로, 단일 통과(Single-pass) CNN 모델보다 속도가 느리고 더 큰 GPU 메모리(A100 등)를 요구합니다. 두 번째는 대형 언어 모델 특유의 할루시네이션(환각) 및 토큰 제어 문제입니다. 가끔 모델이 지정된 프롬프트 범위(1~5점)를 벗어난 점수(예: 0.2점)를 돌발적으로 출력하거나, 극도로 열화되어 형체를 알아볼 수 없는 이미지에서는 시맨틱(의미론적 대상)을 찾지 못해 완전히 엉뚱한 배경 설명을 창작해 내는 경우가 발견되었습니다. 세 번째는 프롬프트의 경직성입니다. 현재는 모든 이미지와 왜곡 유형에 대해 단일한 고정 텍스트 프롬프트를 사용하고 있어, 어플리케이션 맥락에 따른 유연한 평가 기준 적용이 어렵습니다.

 

8. 이 논문의 계보와 발전 (Impact & Follow-ups)

2025년 중순에 발표된 Visual Quality-R1은 "대형 시각-언어 모델(VLM)과 강화학습(RL)을 시각적 품질 평가에 제대로 정착시키는 방법론"을 증명하면서, 이후 2026년에 등장한 수많은 파생 연구와 컴퓨터 비전 트렌드의 기폭제가 되었습니다. 기존에는 그저 손실 함수를 줄이며 절대 점수를 맞추는 '회귀' 연구에 몰두하던 학계가, '시각적 추론'의 구조와 '보상 설계'로 연구 방향을 크게 틀기 시작했습니다.

 

이 논문 이후 이어진 최신 트렌드와 이를 기반으로 발전한 핵심 후속 연구들은 다음과 같습니다. 독자에게 시각적 추론 평가 모델의 진화 과정을 엿볼 수 있는 좋은 읽을거리입니다.

  • Q-Hawkeye (2026): Visual Quality-R1이 입증한 순위 기반 강화학습에서 더 나아가, 이미지 품질 평가를 아예 마르코프 결정 과정(Markov Decision Process, MDP)으로 고도화한 프레임워크입니다. Visual Quality-R1이 다중 응답의 분산을 구하여 비교 확률을 계산하는 데 그쳤다면, Q-Hawkeye는 이 분산을 예측의 '불확실성'으로 취급합니다. 그래서 불확실성이 높은 데이터는 정책 업데이트 폭을 줄여버리는 동적 최적화(UADO) 기술을 도입했습니다. 이를 통해 학습 데이터 분포 밖에 있는(OOD) 새로운 왜곡 이미지에 대한 일반화 성능을 Visual Quality-R1보다 한 단계 더 끌어올렸습니다.
  • Visionary-R1 (2026): 본 논문과 비슷한 강화학습 철학을 공유하며, 시각-언어 모델의 추론 과정에서 발생하는 '지름길(Shortcut) 학습' 문제를 지적하고 해결한 연구입니다. 모델이 이미지를 제대로 픽셀 단위로 보지도 않고 질문의 패턴이나 언어적 편향만으로 점수를 부여하는 현상을 막기 위해, 평가 궤적을 시작하기 전에 반드시 해당 이미지의 상황을 객관적으로 묘사(Captioning)하도록 강제하는 추가 보상 구조를 설계하여 시각적 추론의 신뢰성을 극대화했습니다.
  • Q-Tacit (2026): Visual Quality-R1이 평가를 위해 장문의 자연어(영어)를 생성하며 막대한 연산 토큰을 소비하는 한계를 비판하며 등장한 혁신적인 모델입니다. 미세한 픽셀의 노이즈나 압축 아티팩트 같은 저수준(Low-level) 시각 정보는 텍스트로 치환하여 표현하기에 근본적인 한계가 있다는 점에 착안했습니다. 따라서 텍스트가 아닌 모델 내부의 '잠재 공간(Latent space)'에서 곧바로 시각적 추론 연산을 수행하게 하여, Visual Quality-R1 대비 효율성과 정밀도를 동시에 취했습니다.
  • Zoom-IQA (2026): Visual Quality-R1이 이미지 전체를 보고 거시적(Global)인 평가는 잘 수행하지만, 작고 지엽적인 영역의 노이즈나 특정 피사체의 국소적인 아티팩트를 종종 놓치는 문제를 해결하기 위해 등장했습니다. 이 모델은 관심 영역(Region-Aware)에 초점을 맞추어 국소적인 픽셀 품질까지 줌인(Zoom-in)하여 추론하도록 발전했습니다.

이처럼 Visual Quality-R1은 단순히 IQA 성능을 몇 퍼센트 높인 논문으로 끝나지 않았습니다. 이미지 복원 피드백, 텍스트-이미지 생성 AI의 품질 필터링(Reward Model), 더 나아가 고도화된 디지털 편집 도구(Edit-R1 등 )에 이르기까지 '시각적 품질을 스스로 생각하고 엄격하게 평가하는 에이전트'로 나아가는 기념비적인 이정표가 되었습니다.

 

9. 마무리

지금까지 살펴본 Visual Quality-R1은 그동안 IQA(이미지 품질 평가) 분야가 가지고 있던 고질적인 딜레마를 완전히 새로운 시각으로 풀어낸 의미 있는 연구입니다. 각기 다른 데이터셋의 절대 점수를 맞추려 억지로 스케일을 변환하던 관행을 과감히 버리고, "대상을 비교하고 상대적인 순위를 매기는 것이 인간의 인지 구조와 가장 가깝다"는 사실을 대형 언어 모델의 강화학습(RL2R, GRPO)을 통해 완벽하게 구현해 냈습니다.

 

이 논문이 딥러닝과 컴퓨터 비전 분야에 던지는 통찰과 실제 현업 실무자들이 적용할 때 유의해야 할 점은 다음과 같습니다.

  • 지도 학습(SFT)에서 강화학습(RL)으로의 패러다임 전환 가속화: 최근 대형 언어 모델에서 일어난 추론 열풍(OpenAI o1, DeepSeek-R1 등)이 단순히 텍스트 논리 풀이를 넘어 시각(Vision) 인지 분야로 본격 전이되고 있음을 보여주는 가장 강력한 증거입니다. 막대한 비용이 드는 인간의 텍스트 라벨링 없이도, 평가 환경(이미지 쌍)과 보상 체계(충실도 측정)만 정교하게 설계해주면 모델이 스스로 시각적 결함을 탐지하고 이를 논리적인 자연어로 설명하는 수준까지 진화할 수 있음을 멋지게 증명했습니다. 이는 향후 자율주행, 의료 영상 판독 등 다른 시각 기반 평가 영역에도 동일하게 적용될 수 있는 방법론입니다.
  • 실무 적용 시 주의점 1 - 연산 자원과 속도의 트레이드오프: 모델 아키텍처 자체가 7B(70억 개 파라미터) 규모의 묵직한 대형 시각-언어 모델을 기반으로 하며, 추론 궤적(Thinking)을 장문으로 생성해야 하므로 연산량이 매우 방대합니다. 논문 저자들의 공식 코드 저장소에서도 훈련과 원활한 추론을 위해 A100 또는 A800 수준의 고성능 GPU를 권장하고 있습니다. 따라서 실시간으로 초당 수십 프레임의 비디오를 평가하거나 엣지 디바이스(스마트폰 등)에서 가볍게 동작해야 하는 환경에는 당장 적용하기 어렵습니다.
  • 실무 적용 시 주의점 2 - 두 가지 모드의 전략적 이원화: 만약 실무 파이프라인에서 이 모델을 강화학습의 보상 모델(Reward Model)이나 대규모 데이터셋의 배치 평가용으로 사용해야 한다면, 전략적인 선택이 필요합니다. 시간을 많이 소비하는 추론 텍스트(think 태그) 생성을 건너뛰고, 오직 평가 지시 프롬프트에 맞춰 1~5점 사이의 점수 토큰 하나만 출력하도록 제한하는 "비사고 모드(Non-Thinking Mode)"로 구동하는 것이 유리합니다. 이를 vLLM과 같은 고속 추론 엔진과 결합하면 처리량을 비약적으로 높일 수 있습니다. 반면, 특정 이미지가 왜 불량 처리되었는지에 대한 정밀한 원인 분석 리포트가 필요한 경우에만 "사고 모드(Thinking Mode)"를 활성화하는 이원화 전략이 요구됩니다.
  • 아쉬운 점과 향후 발전 방향: 모델이 고정된 단일 프롬프트에만 의존한다는 점은 아쉬움으로 남습니다. 실무에서는 "이 이미지를 자율주행 데이터셋으로 쓰려고 하는데 품질이 어때?" 혹은 "스마트폰 야간 모드용으로 소셜 미디어에 업로드하기엔 어때?"와 같이 목적이 다릅니다. 향후에는 어플리케이션 맥락에 따라 프롬프트를 동적으로 튜닝(Application-aware prompt adaptation)하여 평가 기준을 유연하게 조절하는 기능이 추가되어야 할 것입니다. 또한, 무참조(NR)를 넘어 참조 이미지를 활용하는 FR-IQA 환경으로 확장된다면 산업적 활용도는 더욱 넓어질 것입니다.

요약하자면, Visual Quality-R1은 기존 회귀 모델의 딱딱한 한계를 '상대적 순위 매기기'와 '스스로 추론하기'라는 유연한 지혜로 돌파한 연구입니다. 인공지능이 마치 훈련받은 인간 전문가처럼 시각적 결함을 분석하고 논리적으로 설득하게 만든 이 접근법은, 향후 폭발적으로 증가할 인공지능 생성 콘텐츠의 품질을 검증하고 통제하는 핵심 문지기(Gatekeeper) 역할을 수행하게 될 것입니다.

 

반응형