일러두기 (Disclaimer)
본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다.
논문 링크 : https://arxiv.org/abs/2601.05732
mHC-lite: You Don't Need 20 Sinkhorn-Knopp Iterations
Hyper-Connections (HC) generalizes residual connections by introducing dynamic residual matrices that mix information across multiple residual streams, accelerating convergence in deep neural networks. However, unconstrained residual matrices can compromis
arxiv.org
초록 (Abstract)
Hyper-Connections (HC)는 다중 잔차 스트림(residual streams) 간에 정보를 혼합하는 동적 잔차 행렬(dynamic residual matrices)을 도입하여 잔차 연결(residual connections)을 일반화하고, 이를 통해 심층 신경망(deep neural networks)의 수렴 속도를 가속합니다. 하지만 제약이 없는 잔차 행렬은 학습 안정성을 훼손할 수 있습니다. 이 문제를 해결하기 위해 DeepSeek의 Manifold-Constrained Hyper-Connections (mHC)는 반복적인 Sinkhorn-Knopp (SK) 정규화를 통해 이러한 행렬들을 버코프 폴리토프(Birkhoff polytope) 상에 근사적으로 투영합니다.
본 연구는 이 접근법의 두 가지 한계를 식별합니다. 첫째, 유한한 횟수의 SK 반복은 완전한 이중 확률성(exact doubly stochasticity)을 보장하지 못하며, 이로 인해 발생하는 근사 오차가 네트워크의 깊이에 따라 누적되어 안정성을 저해할 수 있습니다. 둘째, 효율적인 SK 구현을 위해서는 고도로 특화된 CUDA 커널이 필요하므로, 엔지니어링 장벽이 높아지고 이식성이 감소합니다.
본 연구는 버코프-폰 노이만 정리(Birkhoff-von Neumann theorem)에서 영감을 받아, 치환 행렬(permutation matrices)의 볼록 조합(convex combinations)을 통해 이중 확률 행렬을 명시적으로 구성하는 단순한 재매개변수화(reparameterization) 방법인 mHC-lite를 제안합니다. 이 접근법은 구조적으로 완전한 이중 확률성을 보장하며, 기본적인 행렬 연산만을 사용하여 구현할 수 있습니다. 광범위한 실험 결과, mHC-lite는 단순한 구현만으로도 더 높은 학습 처리량(throughput)을 달성하면서 mHC와 동등하거나 그 이상의 성능을 보였으며, HC와 mHC 모두에서 관찰되었던 잔차 불안정성을 제거함을 입증했습니다.
1. 한줄 요약 & 3줄 핵심 (Executive Summary)
복잡한 반복 연산(Sinkhorn-Knopp)으로 행렬을 근사하는 대신, 수학적 정리(Birkhoff-von Neumann)를 활용해 처음부터 완벽한 이중 확률 행렬을 조립하여 대형 언어 모델의 안정성과 학습 속도를 모두 확보한 연구입니다.
- 기존의 문제점 (Pain point): 최신 언어 모델에서 정보를 효율적으로 섞기 위해 도입된 다중 잔차 연결(Hyper-Connections)은 성능을 높이지만 학습을 불안정하게 만들며, 이를 해결하기 위한 기존의 접근법(mHC)은 계산이 복잡하고 미세한 오차가 누적되어 여전히 모델 붕괴 위험을 안고 있습니다.
- 이 논문의 해결책 (Solution): 행렬을 억지로 깎아서 맞추는 반복 연산을 폐기하고, 버코프-폰 노이만 정리를 기반으로 '치환 행렬'이라는 기본 블록들을 정해진 비율로 더하는 방식을 사용하여 완벽하게 안전한 혼합 행렬을 단번에 생성합니다.
- 달성한 성과 (Key Result): 기존 방법과 동등하거나 이를 뛰어넘는 예측 성능을 유지하면서도, 특수한 하드웨어 최적화 코드 없이 PyTorch 기본 연산만으로 더 높은 처리량을 달성했으며, 깊은 네트워크에서 발생하던 기울기 폭발(Gradient explosion) 문제를 완전히 해결했습니다.
2. 들어가며: 왜 이 연구가 필요했나? (The "Why")
현대의 대형 언어 모델(LLM)이 수천억 개의 매개변수와 수백 개의 층(layer)을 가지면서도 원활하게 학습될 수 있는 배경에는 아키텍처의 지속적인 발전이 자리 잡고 있습니다. mHC-lite가 왜 등장해야만 했는지 이해하기 위해서는, 심층 신경망이 정보를 전달하는 방식이 어떻게 진화해 왔으며, 그 과정에서 연구자들이 어떤 한계에 부딪혔는지 맥락을 짚어보아야 합니다.
가장 먼저 이해해야 할 개념은 초기 딥러닝 모델들이 겪었던 '기울기 소실(Vanishing Gradient)' 현상입니다. 데이터가 여러 층의 신경망을 통과하면서 정보를 처리할 때, 층이 깊어질수록 입력 데이터의 원본 정보가 희미해지고, 학습 시 역전파(Backpropagation)되는 오차 신호가 0에 가깝게 사라지는 문제가 있었습니다. 이 문제를 해결하기 위해 2015년에 등장한 ResNet 모델은 '잔차 연결(Residual Connection)'이라는 혁신적인 구조를 제안했습니다. 잔차 연결은 데이터를 복잡한 연산 함수에 통과시키는 동시에, 원본 데이터를 변형 없이 그대로 다음 층으로 전달하는 일종의 지름길을 만들어줍니다. 수식으로 표현하면, 입력값 $x$를 함수에 넣어 결과 $F(x)$를 얻을 때 최종 출력을 $x + F(x)$로 만드는 구조입니다. 이 지름길(항등 사상, Identity Mapping) 덕분에 데이터와 오차 신호는 손실 없이 모델의 깊은 곳까지 안전하게 도달할 수 있었고, 이는 트랜스포머(Transformer)를 포함한 현대 딥러닝 아키텍처의 흔들리지 않는 표준이 되었습니다.
하지만 시대가 흐르고 모델이 거대해지면서, 연구자들은 단순히 1차선 지름길로 원본 데이터를 전달하는 것만으로는 모델의 표현력을 극대화하기 어렵다는 사실을 깨닫게 됩니다. 각 층에서 생성된 다양한 특징(Feature)들이 더 활발하게 교류해야 성능이 높아질 수 있다는 가설이 제기된 것입니다. 이에 따라 2024년 ByteDance 연구진은 Hyper-Connections (HC)라는 확장된 개념을 발표합니다. HC는 단일 잔차 스트림을 여러 개(일반적으로 4개)의 병렬 스트림으로 확장하고, 각 층을 통과할 때마다 이 스트림들을 동적으로 섞어주는 방식입니다. 이를 도로망에 비유하자면, 1차선 직진 도로(일반 잔차 연결)를 4차선 도로로 넓히고, 각 차선 사이에 자유롭게 차선을 변경할 수 있는 교차로를 만든 것과 같습니다. 이 구조는 데이터의 흐름을 풍부하게 만들어 언어 모델링에서 획기적인 수렴 속도 향상과 성능 개선을 가져왔습니다.
그러나 이 4차선 교차로는 치명적인 부작용을 안고 있었습니다. 바로 딥러닝에서 가장 두려워하는 안정성(Stability) 붕괴 문제입니다. 기존의 단순한 잔차 연결은 원본 데이터 $x$를 그대로 보존하는 항등 사상 특성이 있어 수천 층을 통과해도 안전했습니다. 하지만 HC는 학습을 통해 값이 변하는 '동적 잔차 행렬(Dynamic Residual Matrix)'을 사용하여 차선을 섞기 때문에, 이 항등 사상 특성이 산산조각 납니다. 즉, 교차로를 지날 때마다 신호가 의도치 않게 증폭되거나 축소될 수 있는 위험이 생겼습니다. 네트워크의 층이 깊어지면 이러한 미세한 증폭은 기하급수적으로 커져, 결국 신호가 예상치보다 3,000배 이상 폭발해버리는 '기울기 폭발(Gradient Explosion)' 현상을 유발하며 학습 과정을 완전히 붕괴시킵니다.
이러한 HC의 불안정성을 통제하기 위해, 2025년 말 DeepSeek 연구진은 Manifold-Constrained Hyper-Connections (mHC)라는 구조를 제안합니다. 이들은 차선 간에 데이터를 섞을 때, 각 차선에서 빠져나가는 정보의 총합과 들어오는 정보의 총합이 항상 100%(수치로는 1)가 되도록 강제하는 규칙을 부여했습니다. 수학에서는 이를 '이중 확률 행렬(Doubly Stochastic Matrix)'이라고 부르며, 이 행렬들의 집합을 버코프 폴리토프(Birkhoff polytope)라고 합니다. 이 제약을 걸면 행렬을 아무리 많이 곱해도 신호가 과도하게 증폭되는 것을 수학적으로 막을 수 있습니다. mHC는 이를 구현하기 위해 모델이 임의로 생성한 행렬에 Sinkhorn-Knopp (SK) 알고리즘이라는 수학적 기법을 20번 반복 적용하여, 행렬의 가로합과 세로합이 1이 되도록 강제로 다듬어냈습니다. 이 방법을 통해 DeepSeek은 27B(270억) 매개변수 규모의 대형 모델에서도 안정적인 학습을 이뤄내는 데 성공했습니다.
하지만 오늘 리뷰할 mHC-lite 연구진은 이 mHC 방식에도 현업에서 적용하기 어려운 근본적인 제약들이 여전히 남아있음을 지적합니다.
첫째, 유한한 반복으로 인한 근사 오차(Approximation Gap)의 누적입니다. SK 알고리즘을 20번 반복한다고 해서 행렬이 완벽한 이중 확률 행렬로 변하는 것은 아닙니다. 논문은 수학적 분석을 통해, 극단적인 값들이 포함된 '조건이 나쁜(ill-conditioned)' 행렬이 입력될 경우 SK 알고리즘의 수렴 속도가 기하급수적으로 느려진다는 것을 증명했습니다. 실제로 학습 중 약 27.9%의 입력이 이러한 악조건에 해당했으며, 이 경우 20번의 반복 후에도 행렬의 열 합이 1.0이 아닌 1.92나 0.59 같이 크게 엇나간 상태로 남게 됩니다. 단일 층에서는 이 오차가 작아 보일 수 있지만, 수십에서 수백 층에 걸쳐 이러한 행렬들이 연속해서 곱해지면 오차가 눈덩이처럼 불어나 다시 기울기 폭발을 유발할 수 있는 잠재적 뇌관이 됩니다.
둘째, 높은 엔지니어링 장벽과 이식성(Portability)의 한계입니다. 행렬 연산을 20번이나 반복하는 과정은 GPU 입장에서 막대한 계산 비용을 발생시킵니다. DeepSeek은 이 병목 현상을 해결하기 위해 엔비디아(NVIDIA) 하드웨어에 고도로 맞춤화된 특수 코드(CUDA 커널)를 직접 작성하고, 메모리 사용량을 줄이기 위해 역전파 시 중간값을 다시 계산하는 복잡한 시스템 최적화를 수행해야 했습니다. 이는 대규모 인프라를 갖춘 연구소에서는 가능할지 모르나, 일반적인 연구자들이나 다양한 하드웨어 환경(예: AMD GPU, NPU 등)을 사용하는 개발자들에게는 이 구조를 쉽게 가져다 쓸 수 없게 만드는 거대한 진입 장벽이 됩니다.
연구자들은 여기서 근본적인 질문을 던졌습니다. "왜 굳이 삐뚤어진 찰흙을 만들고 20번이나 두드려서 완벽한 정육면체로 깎아내려 하는가? 수학적으로 처음부터 완벽한 정육면체 블록들만 모아서 조립한다면, 오차도 생기지 않고 복잡한 반복 연산도 필요 없지 않을까?" 이러한 공감대와 수학적 통찰이 모여, 근사 오차와 연산 장벽을 완전히 제거한 mHC-lite 아키텍처가 탄생하게 된 것입니다.
3. 이 논문의 뿌리 (Key Reference)
mHC-lite가 제시하는 아이디어는 딥러닝 아키텍처 발전의 거대한 흐름을 비판적으로 계승하고 있습니다. 이 논문이 탄생하기까지 가장 결정적인 영감을 제공하고, 때로는 극복의 대상이 된 세 가지 핵심 논문을 살펴봄으로써 그 계보와 관계를 이해할 수 있습니다.
- Deep Residual Learning for Image Recognition (ResNet, He et al., 2016) 이 논문은 현재 모든 대형 AI 모델(CNN, 트랜스포머 등)의 근간이 되는 '잔차 연결(Residual Connection)' 개념을 처음 세상에 내놓았습니다. 입력값을 복잡하게 변형하지 않고 원본 그대로 더해주는 '항등 사상(Identity Mapping)' 구조를 통해, 100층이 넘는 깊은 네트워크도 기울기 소실 없이 학습할 수 있음을 증명했습니다. mHC-lite는 다양한 스트림을 혼합하는 복잡한 구조 속에서도, ResNet이 증명한 이 '항등 사상 기반의 안정성'만큼은 반드시 수학적으로 보장되어야 한다는 철학을 최우선 베이스로 삼고 있습니다.
- Hyper-Connections (HC, Zhu et al., 2024) ByteDance 연구진이 발표한 이 논문은 ResNet이 가진 '단일 경로'의 한계를 깨고, 여러 개의 병렬 스트림으로 네트워크를 확장하여 정보 교환을 극대화한 연구입니다. mHC-lite는 이 논문에서 제안한 '여러 개의 스트림(일반적으로 4개)을 운영하고, 층마다 이를 교차 혼합한다'는 골격(아키텍처 구조)을 그대로 차용했습니다. 하지만 HC가 가진 치명적인 단점인 '학습 중 기울기 폭발 현상'을 보완하고 극복하기 위해 본 연구가 시작되었습니다.
- mHC: Manifold-Constrained Hyper-Connections (Xie et al., 2025) DeepSeek이 발표한 이 논문은 HC의 불안정성을 해결하기 위해, 혼합 행렬을 '이중 확률 행렬(Doubly Stochastic Matrix)'이라는 수학적 공간(매니폴드)으로 제한해야 한다는 획기적인 해법을 처음으로 제시했습니다. mHC-lite는 이 논문이 찾아낸 '이중 확률 행렬의 필요성'이라는 방향성에는 전적으로 동의하며 이를 계승했습니다. 그러나 이중 확률 행렬을 만들기 위해 Sinkhorn-Knopp 알고리즘을 20번 반복하는 비효율적인 절차를 과감히 비판하고 폐기했습니다. 대신, 오래된 수학 정리를 도입하여 반복 연산 없이 행렬을 단번에 구성하는 완전히 새로운 접근법을 제안했다는 점에서, mHC-lite는 mHC의 비판적 발전형이자 완성형이라고 볼 수 있습니다.
4. 핵심 아이디어: 무엇이 다른가? (The "Aha!" Moment)
mHC-lite 논문의 가장 훌륭한 통찰은 '수학적 정리(Theorem)를 프로그래밍 아키텍처 설계로 치환한 발상의 전환'에 있습니다. 이 전환이 얼마나 혁신적인지 이해하기 위해 복잡한 수식 대신 직관적인 비유를 사용해 보겠습니다.
우리의 목표는 네트워크 내부에서 여러 갈래의 데이터를 섞어주는 교차로(잔차 혼합 행렬)를 만드는 것입니다. 단, 안전을 위해 이 교차로는 각 차선에서 들어오는 정보의 비율 합과 나가는 정보의 비율 합이 정확히 1(100%)이 되어야 합니다. 이를 '이중 확률 행렬'이라고 부릅니다. 이것은 마치 '스도쿠(Sudoku)' 퍼즐과 비슷합니다. 스도쿠에서 가로줄의 합과 세로줄의 합이 특정 규칙을 만족해야 하듯, 이 행렬도 가로와 세로의 합이 모두 1이 되어야 하는 깐깐한 규칙을 지녀야 합니다.
- 이전의 방식 (mHC의 접근법): "조각가 모델" mHC는 일단 인공지능이 무작위로 교차로의 신호등 체계(행렬)를 만들게 내버려 둡니다. 당연히 가로와 세로의 합이 100%가 맞지 않습니다. 그래서 'Sinkhorn-Knopp'이라는 알고리즘 조각칼을 사용해 가로 방향의 합을 100%로 깎아 맞추고, 그다음 세로 방향을 100%로 깎아 맞춥니다. 하지만 세로를 맞추다 보면 앞서 맞춘 가로가 다시 틀어집니다. 결국 이 과정을 20번이나 반복(Iteration)하면서 서서히 완벽한 스도쿠 모양에 가깝게 깎아 나가는 수고를 감수합니다. 앞서 언급했듯, 20번을 반복해도 모양이 미세하게 틀어져 있는 경우가 많습니다.
- 이 논문의 발상의 전환 (mHC-lite의 접근법): "레고 조립 모델" mHC-lite 연구진은 여기서 1946년에 증명된 고전 수학인 '버코프-폰 노이만 정리(Birkhoff-von Neumann theorem)'를 딥러닝에 소환합니다. "어떤 복잡한 이중 확률 행렬이든, 결국 가장 단순하고 완벽한 기본 행렬(치환 행렬, Permutation Matrix)들을 일정한 비율로 섞은 것에 불과하다." 여기서 치환 행렬이란 각 행과 열에 정확히 '1'이 하나씩만 있고 나머지는 모두 '0'인, 태생적으로 완벽한 형태의 레고 블록입니다. 연구진은 불완전한 점토를 깎아내는 헛수고를 멈추고, 대신 이 완벽한 레고 블록들을 미리 시스템에 준비해 두었습니다. 이제 인공지능 모델은 복잡한 행렬을 직접 만들 필요가 없습니다. 단지 "1번 블록은 30%, 2번 블록은 50%, 3번 블록은 20%의 비율로 섞어라"라는 혼합 비율(가중치)만 결정하면 됩니다. 완벽한 블록들을 비율에 맞춰 더하기만 하므로, 그 결과물은 태생적으로 오차가 존재할 수 없는 완벽한 이중 확률 교차로가 됩니다.
5. 작동 원리: 어떻게 돌아가는가? (The "How")
그렇다면 mHC-lite 아키텍처는 모델 내부에서 실제 데이터가 들어왔을 때 어떤 순서와 흐름(Flow)을 거쳐 처리될까요? 이 과정은 특수한 하드웨어 연산 없이, PyTorch 같은 기본 프레임워크에서 지원하는 친숙한 연산만으로 매끄럽게 작동합니다. 복잡한 하이퍼파라미터나 수식 증명은 과감히 덜어내고, 데이터의 시점으로 여정을 따라가 보겠습니다.
전체적인 모델의 층(Layer)은 다음과 같은 Step-by-step 과정을 통해 데이터를 처리합니다.
Step 1: 데이터의 진입 및 정규화 (Input Processing) 네트워크의 $l$번째 층에 데이터 $x_l$이 도착합니다. 앞서 설명했듯 이 데이터는 이미 단일 경로가 아닌 $n=4$개(4개의 차선)의 병렬 스트림으로 나뉘어 있는 상태입니다. 모델은 데이터의 안정적인 처리를 위해 가장 먼저 RMSNorm이라는 정규화 기법을 적용하여 데이터의 크기를 가지런하게 맞춥니다.
Step 2: 교차로 혼합 비율 결정 (Weight Generation) 정규화된 데이터는 선형 신경망(Linear layer)에 통과됩니다. 이 신경망의 역할은 현재 데이터의 패턴과 맥락을 파악하여, 미리 준비된 레고 블록(치환 행렬)들을 각각 어느 정도의 비율로 섞을지 결정하는 것입니다. 신경망이 뱉어낸 무작위의 숫자들은 Softmax 함수를 통과합니다. Softmax 함수는 입력된 값들을 모두 0보다 크면서 전체의 합이 정확히 1(100%)이 되도록 변환해 주는 역할을 합니다. 예를 들어, 24개의 블록이 있다면 각 블록이 차지할 비율 $\alpha = [0.1, 0.05, 0.2,...]$ 형태의 가중치가 한 번의 연산으로 생성됩니다. 이것으로 불안정했던 Sinkhorn-Knopp 반복 연산을 완전히 대체합니다.
Step 3: 고정된 레고 블록들의 호출 (Permutation Matrix Lookup) 스트림의 개수가 4개($n=4$)일 때, 차선을 완벽하게 섞을 수 있는 모든 경우의 수는 수학의 팩토리얼 연산에 따라 4! = 24가지가 됩니다. 이 24개의 완벽한 치환 행렬들은 학습을 통해 변하는 값이 아니라, 모델 내부에 상수로 굳건히 고정되어 준비되어 있습니다. 모델은 메모리에서 이 24개의 행렬을 그대로 꺼내옵니다.
Step 4: 조합 및 혼합 (Convex Combination) 이제 2단계에서 구한 혼합 비율 $\alpha$를 3단계에서 꺼내온 24개의 행렬에 각각 곱해서 모두 더해줍니다. (예: 0.1 * 1번 행렬 + 0.05 * 2번 행렬 +... = 최종 혼합 행렬 $H_{l}^{res}$) 이 단순한 곱셈과 덧셈 연산(행렬 곱셈) 한 번으로, 각 층에 필요한 완벽한 이중 확률 데이터 혼합 행렬이 완성됩니다.
Step 5: 정보의 재구성 및 다음 층으로의 전달 (Output Mixing) 완성된 혼합 행렬을 원래 들어왔던 4가닥의 데이터 스트림에 곱해줍니다. 1번 차선의 데이터 일부가 3번 차선으로 부드럽게 넘어가고, 2번 차선이 4번으로 넘어가는 등 비율에 맞춰 안전하게 데이터가 섞입니다. 이렇게 풍부하게 섞인 데이터는 다음 연산 블록(예: Attention 층이나 FFN 층)으로 부작용 없이 전달됩니다.
개발자가 이해하기 어려운 특수 최적화 코드(CUDA Kernel)를 작성할 필요 없이, 선형 변환(Linear), 비율 맞추기(Softmax), 덧셈과 곱셈이라는 딥러닝의 가장 기초적인 연산만으로 거대하고 복잡한 트래픽 제어를 완벽하게 달성한 것입니다.
6. 작동 원리: 어떻게 학습하는가? (The "How")
이러한 아키텍처가 실제로 의미 있는 지식을 담아내기 위해서는 엄청난 양의 데이터를 통한 학습이 필요합니다. 본 연구는 대형 언어 모델(LLM)의 사전 학습(Pre-training)에 초점을 맞추고 있으며, mHC-lite의 효용을 검증하기 위해 두 가지 핵심적인 대규모 텍스트 데이터셋을 사용했습니다.
학습의 목표는 '자기회귀적 언어 모델링(Autoregressive Language Modeling)'입니다. 이는 모델이 이전에 등장한 단어들의 맥락을 읽고, 바로 다음에 등장할 단어가 무엇인지 확률적으로 예측하는 방식입니다.
입력 데이터 (Input Data)
학습을 위해 컴퓨터가 이해할 수 있는 정수 숫자로 변환(Tokenization)된 긴 텍스트 문서들이 사용됩니다.
- 포맷: 인간의 언어로 된 문자열 텍스트가 GPT-2 토크나이저(Tokenizer)를 거쳐 일련의 정수 ID 배열로 변환된 형태입니다. 파일은 빠른 읽기를 위해 Parquet나 Lance 같은 효율적인 빅데이터 포맷으로 저장됩니다.
- 데이터 종류 1 - OpenWebText : 이 데이터는 OpenAI가 GPT-2를 학습시킬 때 사용한 비공개 데이터셋을 학계에서 오픈소스로 재현한 것입니다. 모델이 인터넷의 다양한 지식을 골고루 흡수할 수 있도록, 해외 대형 커뮤니티인 Reddit에서 추천(Karma)을 3번 이상 받은 신뢰도 높은 외부 링크의 웹페이지들만 긁어모았습니다. 수량: 약 800만 개의 문서, 토큰 수로는 약 90억(9B) 개에 달하며, 텍스트 용량으로는 약 38GB 수준입니다. 구체적인 예시: 뉴스 기사, 정보성 블로그, 논평 등이 포함됩니다. 실제 데이터 예시를 보면 "베를린에 아돌프 히틀러의 이미지가 담긴 잡지 부록이 등장했다. 법적으로 이를 금지하는 조항은..."과 같은 전형적인 인터넷 뉴스 텍스트 형태를 띱니다.
- 데이터 종류 2 - FineWeb-Edu : 이 데이터는 Hugging Face에서 공개한 초대형 고품질 교육용 웹 데이터셋입니다. 방대한 인터넷 아카이브(CommonCrawl)에서 무작위 데이터를 수집한 뒤, Llama 3 (70B) 같은 강력한 최신 AI를 '심판'으로 활용하여 문서 내용에 '교육적 가치 점수(0~5점)'를 매겼습니다. 이 중 3점 이상을 받은 정보성 텍스트만 엄선하여 데이터의 밀도를 높였습니다. 수량: 연구에 활용된 샘플은 목적에 따라 100억(10B)에서 최대 1.3조(1.3T) 토큰 단위의 방대한 규모를 자랑합니다. 구체적인 예시: 초중고 및 대학 수준의 지식, 요리 레시피, 과학적 사실 등을 논리적으로 설명하는 텍스트입니다. 실제 예시를 보면 "이것은 달걀노른자로 걸쭉하게 만든 땅콩 맛 크림을 잼 위에 얹은 요리입니다. 요리사인 토니는 마지막에 식감을 살리기 위해 구운 땅콩을 부숴 올릴 것을 제안했는데..."와 같이 문장 구조가 명확하고 정보를 구체적으로 전달하는 텍스트로 구성됩니다.
출력 데이터 (Output Data)
- 포맷: 모델이 예측해야 할 정답 단어(토큰)를 나타내는 정수 ID 하나와, 그 단어가 등장할 확률을 담은 거대한 배열(각 단어 사전 크기에 해당하는 확률 분포)입니다.
- 구체적인 예시: 모델에 입력으로 ["이것은", "달걀노른자로", "걸쭉하게", "만든", "땅콩", "맛"] 이 들어갔다면, 출력(정답 라벨)은 ["크림을"] 이라는 토큰을 가리켜야 합니다. 모델은 자신이 계산한 수많은 단어들의 확률 분포 중에서 "크림을"이라는 단어의 확률이 가장 높게 나오도록 내부 가중치와 잔차 행렬의 조합 비율을 지속적으로 수정하며 학습을 진행합니다.
이러한 방대한 데이터를 바탕으로, 연구진은 최대 3억 6천만 개(360M)의 매개변수를 가진 24층짜리 모델을 약 13억 토큰(10,000 steps) 동안 학습시키며 mHC-lite가 실제로 얼마나 효율적이고 정확하게 작동하는지 검증했습니다.
7. 결과: 얼마나 좋아졌나? (Results)
혁신적인 아이디어의 가치는 결국 "실제 환경에서 얼마나 우수한 결과를 내는가?"로 증명됩니다. 본 연구는 단순히 예측 정확도의 소폭 상승만을 보여주지 않고, 딥러닝 시스템 엔지니어들이 모델을 서비스할 때 가장 중요하게 생각하는 안정성(Stability)과 효율성(Efficiency) 지표에서 놀라운 성과를 입증했습니다. 다음 표는 각 모델의 특성을 비교 요약한 것입니다.
| 평가 항목 | ResNet | HC | mHC | mHC-lite (본 연구) |
| 정보 혼합 스트림 수 | 1개 | 다중 (예: 4개) | 다중 (예: 4개) | 다중 (예: 4개) |
| 학습 안정성 보장 | 완전함 (항등 사상) | 매우 취약함 (기울기 폭발) | 불완전함 (근사 오차 누적) | 완전함 (구조적 보장) |
| 행렬 연산 방식 | 연산 없음 | 단순 학습 행렬 | Sinkhorn-Knopp 20회 반복 | 소프트맥스 + 볼록 조합 |
| 특수 커널 필요 여부 | 불필요 (기본 연산) | 불필요 (기본 연산) | 필수 (CUDA 최적화) | 불필요 (기본 연산) |
- SOTA(State-of-the-art)를 달성했는가? (언어 모델링 성능): mHC-lite는 기존의 복잡한 반복 연산 모델(mHC)과 비교하여 최종 손실(Loss) 지표에서 동등하거나 오히려 약간 더 우수한 예측 성능을 달성했습니다. SK 알고리즘의 반복 횟수 제한으로 인해 발생하던 미세한 '근사 오차'가 완전히 사라지면서 최적화의 정확도가 개선된 것입니다. 이는 복잡하게 꼬인 계산 루프보다, 수학적 원리로 직진하는 정석적인 계산이 딥러닝 최적화에 훨씬 유리함을 증명합니다.
- 얼마나 안정적이게 되었는가? (안정성 평가): 연구진은 학습 과정 중 기울기의 크기(Gradient Norm) 변화를 그래프(논문 Figure 2)로 시각화하여 분석했습니다. 기존의 HC 모델은 학습 도중 기울기가 통제 불능으로 널뛰기를 하며 폭발할 위험을 여실히 보여주었습니다. 이를 억제한 mHC 모델은 폭발은 막았으나 여전히 미세한 요동(Fluctuations)이 남아 있었습니다. 반면 mHC-lite는 요동조차 없이 기준선에 매끄럽게 안착하는 가장 안정적인 하향 곡선을 그렸습니다. 이는 모델이 방대한 데이터의 복잡한 맥락 속에서도 헤매지 않고, 정해진 목표를 향해 매우 매끄럽게 학습되고 있음을 뜻합니다.
- 속도가 얼마나 빨라졌는가? (처리량 / Throughput): 가장 극적이고 임팩트 있는 결과는 시스템 속도입니다. 기존 mHC는 20번의 행렬 연산 반복으로 인한 병목을 막기 위해 엔비디아 GPU에 찰떡같이 맞춰진 고도의 커널 퓨전(Kernel Fusion) 기법 등 시스템 최적화를 극한으로 쥐어짜야만 했습니다. 하지만 mHC-lite는 어떠한 하드웨어적인 특수 튜닝이나 C++ 레벨의 개입 없이, 가장 순진하고 기본적인(Naive) PyTorch 기본 코드만으로도 mHC는 물론이고 가장 단순한 구조인 기본 HC보다도 오히려 더 높은 초당 토큰 처리량(Tokens per Second)을 달성했습니다. 무거운 반복문(For loop)이 제거되어 메모리 접근 비용이 획기적으로 줄어들었기 때문입니다.
- 솔직한 한계점과 실패 케이스 (Limitations): 논문은 훌륭한 성과에도 불구하고, 이 방식이 가진 수학적인 한계점을 분명히 언급합니다. 바로 수학적 조합의 복잡성인 팩토리얼(Factorial) 팽창 문제입니다. mHC-lite가 사용하는 치환 행렬의 개수는 다중 스트림의 개수 $n$에 대해 $n!$(팩토리얼)로 가파르게 증가합니다. 본 연구의 세팅처럼 차선이 4개($n=4$)일 때는 24개의 행렬만 메모리에 올리면 되므로 계산이 매우 가볍고 효율적입니다. 하지만 만약 표현력을 더 높이기 위해 스트림 개수를 10개($n=10$)로 늘리고 싶다면, 필요한 레고 블록의 수는 362만 8,800개(10!)로 폭발하게 됩니다. 이 경우 현재의 하드웨어 메모리와 계산량으로는 도저히 감당할 수 없는 실패 케이스에 직면하게 됩니다. 연구진은 이에 대한 해결책으로, $n$이 클 경우 모든 행렬을 다 쓰지 않고 모델이 일부 행렬만 확률적으로 뽑아서(Sampling) 섞는 방법을 미래의 대안으로 제시하며 한계를 보완했습니다.
8. 마무리
이 논문은 최근 쏟아지는 무거운 엔지니어링 중심의 시스템 최적화 논문들 사이에서, 수학적 통찰 하나가 거대한 시스템 효율성 문제를 단숨에, 그리고 완벽하게 해결할 수 있음을 보여준 매우 탁월한 연구입니다.
실무 적용 시 유의할 점 (Practical Insights): 이 논문의 결과를 실제 기업의 서비스 모델이나 프레임워크에 적용하여 학습을 시도하려는 실무 엔지니어라면, 다음의 몇 가지 사항을 각별히 주의해야 합니다.
- 차원 팽창에 따른 메모리 폭발 주의 (Hyperparameter ): 논문의 한계점에서도 언급했듯, 스트림의 수 을 4에서 5나 6으로 올리는 순간 팩토리얼 연산의 증가로 인해 치명적인 메모리 병목과 GPU OOM(Out of Memory)을 유발할 수 있습니다. 실험 단계에서는 반드시 본 논문이 제안한 (24개 행렬) 수준의 보수적인 설정에서 시작하여 시스템 모니터링과 함께 효과를 검증해야 합니다.
- 이식성(Portability)을 활용한 다기종 하드웨어 적용: 이 모델의 가장 큰 실무적 장점 중 하나는 특수 하드웨어에 종속되지 않는 범용성입니다. 기존 mHC처럼 엔비디아(NVIDIA)의 특수 CUDA 환경이나 극한의 커널 퓨전(Kernel Fusion)에 얽매이지 않습니다. 따라서 클라우드 비용 절감을 위해 AMD GPU를 사용하거나, 로컬 환경에서 애플 실리콘(MPS), 혹은 기업용 NPU 등 다양한 하드웨어 백엔드를 사용하는 환경에서 대형 언어 모델을 학습하거나 미세 조정(Fine-tuning)할 때 훌륭하고 유연한 대안이 될 수 있습니다.
- 학습 초기화의 민감성 (Initialization): 학습 초기에는 모델의 네트워크가 전통적이고 안정한 ResNet처럼 행동하도록 편향(Bias) 초기값을 세심하게 조절하는 것이 여전히 중요합니다. 논문의 연구진도 Softmax 통과 이전의 편향값을 -8이라는 극단적인 값으로 의도적으로 설정하여, 학습 초반에는 하나의 치환 행렬(항등 행렬)에 가중치가 거의 100% 집중되도록 안전장치를 마련했습니다. 실무에서 코드를 구현할 때 이 초기화 세팅을 놓치거나 무작위로 설정하면 초반 기울기 흐름이 막혀 수렴이 매우 느려지거나 실패할 수 있습니다.
요약하자면, 이 논문은 단순히 남들보다 "몇 퍼센트 더 빠른 딥러닝 모델"을 하나 더 만든 것이 아니라, "문제를 해결하는 더 우아하고 확실한 설계 철학"을 소프트웨어로 구현해 냈습니다. 딥러닝 모델의 성능을 한 줌이라도 더 높이기 위해 끝없이 계산량을 늘리고 복잡한 엔지니어링 트릭을 덧붙이는 대신, 때로는 본질적인 수학적 원리로 돌아가 문제의 싹을 원천 차단하는 것이 구조적으로나 경제적으로나 가장 효율적인 해답일 수 있음을 우리에게 일깨워 줍니다. 향후 수조 개의 매개변수를 넘나들며 병렬 컴퓨팅 구조의 극한을 달릴 차세대 파운데이션 모델(Foundation Models)들의 뼈대 속에서, 이 작지만 수학적으로 완벽한 'mHC-lite' 레고 블록들이 어떻게 안정적인 정보의 혈관 역할을 해낼지 향후 귀추가 주목됩니다.