실험실에서 서비스로, 딥러닝이 내려오다
1부의 마지막에서 우리는 이런 질문으로 끝을 맺었습니다.
“어떻게 더 적은 자원으로 더 똑똑해질 것인가?”
2부는 바로 이 질문에 정면으로 답하려 했던 시기입니다.
딥러닝이 더 이상 학회 논문 속 ‘실험용 모델’이 아니라,
- 스마트폰 카메라의 얼굴 인식,
- 클라우드 API로 제공되는 비전 서비스,
- 임베디드 디바이스 위에 올라가는 작은 모델
같은 “현실 세계의 컴포넌트”가 되어 가던 때였죠.
연구자들의 고민도 자연스럽게 바뀌었습니다.
“정확도 0.5%를 더 올리는 것보다,
속도를 2배, 메모리를 절반으로 줄이는 게 더 중요할지도 모른다.”
이제 딥러닝은 “될 수 있는가”의 문제가 아니라,
“어디까지 실용적으로 쓸 수 있는가”의 문제로 넘어왔습니다.
2부는 그 전환기의 기록입니다.
작지만 강한 CNN을 향한 경쟁
이 시대의 모델들을 한 줄로 요약하면 이렇습니다.
“ResNet급 시력을, 휴대폰 배터리 안에 우겨 넣어라.”
MobileNet과 ShuffleNet은
무거운 합성곱을 잘게 쪼개고(Depthwise Separable Conv),
채널을 섞어 쓰며(Channel Shuffle),
“연산량은 급감하지만 정확도는 최대한 지키는” 회로를 짰습니다.
CondenseNet, GhostNet, MixNet은 한발 더 나아가,
- 자주 쓰이는 채널만 남기고 나머지를 정리하고,
- 비슷한 특징은 ‘유령(Ghost)’처럼 싸게 만들어 쓰고,
- 서로 다른 커널 크기를 섞어 하나의 블록 안에서 다중 스케일을 챙기며,
“굳이 비싼 연산을 중복해서 할 필요가 있을까?”라는 질문을 던졌습니다.
그 결과, 2부의 여러 모델들은
- 파라미터 수와 FLOPs를 줄이면서도,
- ImageNet 기준으로는 이전 세대의 대형 CNN과 비슷한 수준의 정확도를 내는,
말 그대로 “작지만 강한 CNN”의 프로토타입을 보여주게 됩니다.
채널, 구조, 스케일 — 효율을 다시 정의하다
효율화는 단순히 “연산량을 줄이는 기술”로 끝나지 않았습니다.
2부의 논문들을 관통하는 핵심 키워드는 세 가지입니다.
- 채널에 대한 이해 — SENet
SENet은 “모든 채널이 똑같이 중요할 필요는 없다”는 통찰로,
채널마다 가중치를 다시 매기는 Channel Attention을 도입했습니다.
이는 이후 Transformer 계열에서 Attention이 비전으로 확장되는 흐름의 씨앗이 됩니다. - 구조를 보는 관점 — ResNeXt, RegNet
ResNeXt는 깊이·너비만 보던 시대에
Cardinality(집단성) 라는 세 번째 축을 도입해,
“같은 연산량 안에서도 구조적 다양성을 늘릴 수 있다”는 사실을 보여줬습니다.
이후 RegNet은 이런 구조들을 더 체계적으로 정리해,
“좋은 모델이 많이 나오는 디자인 공간은 어떤 모양인가?”를 탐구합니다. - 스케일링의 공식화 — EfficientNet
마지막을 장식한 EfficientNet은
깊이·너비·해상도를 한 번에 키우는 Compound Scaling을 제안합니다.
“모델을 키울 때도 비율이 필요하다”는 이 아이디어는,
“감으로 레이어를 늘리던 시대”에서
“규칙과 공식으로 스케일을 조절하는 시대”로의 전환을 의미했죠.
효율은 더 이상 “적은 연산량”이 아니라,
“같은 자원으로 얼마나 똑똑하게 쓸 수 있는가”
라는, 훨씬 넓은 개념으로 확장되었습니다.
사람이 짜던 구조를, 알고리즘이 대신 짜기 시작하다
2부의 또 하나의 축은 자동화(AutoML) 입니다.
NASNet을 시작으로,
우리는 처음으로 이런 장면을 마주했습니다.
“사람이 아니라, 또 다른 신경망이
신경망의 구조를 설계한다.”
강화학습·진화알고리즘·검색(search)을 활용해
수천 개의 후보 구조를 탐색하고,
그중 가장 성능과 효율이 좋은 블록을 골라내는 방식은
- MobileNet 스타일의 경량 블록,
- ResNeXt식의 집단 구조,
이런 사람 손으로 다듬어 온 아이디어들을
검색과 최적화의 언어로 다시 쓰는 작업이었습니다.
이후 EfficientNet이 보여준 것처럼,
AutoML은 “완전 자동 설계”라는 색채에서 벗어나,
“사람이 정의한 좋은 디자인 공간 안에서,
하이퍼파라미터와 스케일링 규칙을 자동으로 다듬는 도구”
로 자리잡아 갑니다.
2부는 그렇게,
“사람이 손으로 짜던 네트워크 구조”를
점점 “탐색과 설계의 문제”로 바꾸어 놓은 시기였습니다.
효율화의 시대가 남긴 유산
2017-2019년의 모델들은,
지금 시점에서 보면 CNN의 마지막 전성기처럼 보이기도 합니다.
하지만 이 시대가 남긴 유산은,
단순히 “좋은 경량 모델 몇 개”가 아닙니다.
- 스마트폰과 엣지 디바이스 위에서
딥러닝이 돌아갈 수 있다는 확신, - 연산량·메모리·지연(latency)까지 포함해
모델을 입체적으로 바라보는 습관, - 효율적인 블록(Depthwise Conv, SE, MBConv 등)과
스케일링 법칙에 대한 직관,
이 모든 것들이 이후 Transformer와 대규모 모델의 시대에도
그대로 이어집니다.
오늘날 Vision Transformer, 거대 Multimodal 모델을 설계할 때도,
- “이 구조는 모바일에도 내려갈 수 있을까?”,
- “파라미터/플롭스 대비 성능은 어떤가?”,
- “스케일을 키웠을 때 선형적으로 좋아지는가?”
같은 질문을 던지는 이유는,
이미 2부의 시대에 효율을 고민하는 언어를 충분히 배웠기 때문입니다.
다음 이야기 — ‘분류기’를 넘어, 세상을 이해하는 모델로
1부가 “기계가 어떻게 이미지를 보게 되었는가”에 대한 이야기였다면,
2부는 “그 시각을 어떻게 현실 세계에 가져왔는가”에 대한 이야기였습니다.
- ResNeXt에서 시작된 구조적 다양성과 효율의 조화,
- SENet과 MobileNet, ShuffleNet이 열어 준 채널·연산의 경량화,
- NASNet, RegNet, EfficientNet이 보여준 탐색과 스케일링의 공식화까지.
이 10편의 논문은
딥러닝 비전이 “깊이의 한계를 넘은 뒤, 산업 속으로 들어온 두 번째 전성기”를 기록하고 있습니다.
이제 시계는 2020년 이후로 넘어갑니다.
이미지는 더 이상
“고정된 클래스 중 하나를 맞히는 문제”에 머무르지 않습니다.
- 문장과 이미지를 함께 이해하고(CLIP),
- 라벨 없이 스스로 표현을 익히고(DINO, MAE),
- 어떤 물체든 한 번에 분할해내고(SAM),
하나의 모델이 세상 전체를 이해하려는 시대,
바로 Transformer와 대규모 학습의 시대가 펼쳐집니다.
3부에서는
ViT에서 SAM까지,
CNN을 넘어선 새로운 시각 지능의 패러다임을 따라가 보겠습니다.
이전 글: EfficientNet, 2019 — 균형 잡힌 확장의 완성 (딥러닝 이미지 분류 시리즈 2부 ⑩)
EfficientNet, 2019 — 균형 잡힌 확장의 완성 (딥러닝 이미지 분류 시리즈 2부 ⑩)
“모델을 키울 때도, ‘비율’이 필요하다” 딥러닝 모델을 키우는 방법은 의외로 단순했습니다.더 깊게(Depth) 쌓거나,더 넓게(Width) 키우거나,더 큰 이미지 해상도(Resolution) 를 쓰거나.ResNet은 깊
bitwizx.tistory.com
다음 글: Transformer와 대규모 학습의 시대 (2020–2023): 세상을 이해하는 범용 시각지능 — 딥러닝 이미지 분류 시리즈 3부
Transformer와 대규모 학습의 시대 (2020–2023): 세상을 이해하는 범용 시각지능 — 딥러닝 이미지 분
“Convolution 이후, 시각의 언어가 바뀌다” 2010년대 후반까지,이미지 분류의 거의 모든 흐름은 CNN을 중심으로 돌아갔습니다. 하지만 2020년 이후,비전 모델의 핵심 구조는 완전히 다른 패러다임으
bitwizx.tistory.com
'딥러닝 > 딥러닝 역사 시리즈 - 이미지 분류' 카테고리의 다른 글
| ViT (Vision Transformer), 2021 — Transformer, 이미지를 읽다 (딥러닝 이미지 분류 시리즈 3부 ①) (0) | 2025.11.19 |
|---|---|
| Transformer와 대규모 학습의 시대 (2020–2023): 세상을 이해하는 범용 시각지능 — 딥러닝 이미지 분류 시리즈 3부 (0) | 2025.11.17 |
| EfficientNet, 2019 — 균형 잡힌 확장의 완성 (딥러닝 이미지 분류 시리즈 2부 ⑩) (0) | 2025.11.14 |
| RegNet, 2019 — 구조적 일관성을 찾아서 (딥러닝 이미지 분류 시리즈 2부 ⑨) (0) | 2025.11.14 |
| GhostNet, 2019 — 가짜 특징으로 진짜 효율을 (딥러닝 이미지 분류 시리즈 2부 ⑧) (0) | 2025.11.13 |