본문 바로가기

반응형

CNN

(12)
Segmenting Medical Images: From UNet to Res-UNet and nnUNet - 인공지능은 어떻게 의사의 눈을 대신하여 진단의 정확도를 높였나 일러두기 (Disclaimer)본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다. 논문 링크 : https://arxiv.org/abs/2407.04353 Segmenting Medical Images: From UNet to Res-UNet and nnUNetThis study provides a comparative analysis of deep learning models including UNet, Res-UNet, Attention Res-UNet, and nnUNet, an..
ConvNeXt V2 - 순수 합성곱 신경망은 어떻게 트랜스포머의 전유물인 마스크드 오토인코더를 품고 비전 생태계를 탈환했나? 일러두기 (Disclaimer)본 글은 AI의 도움을 받아 작성되었습니다. 최대한 정확한 정보를 전달하기 위해 검수를 거쳤으나, AI 모델의 특성상 내용에 일부 오류나 부정확한 정보가 포함될 수 있습니다. 따라서 실제 논문의 상세한 수식이나 실험 세부 조건 등은 반드시 원문을 직접 확인하시기 바랍니다. 논문 링크 : https://arxiv.org/abs/2301.00808 ConvNeXt V2: Co-designing and Scaling ConvNets with Masked AutoencodersDriven by improved architectures and better representation learning frameworks, the field of visual recognition has..
CNN의 시대를 돌아보며 (딥러닝 이미지 분류 시리즈 1부 — 에필로그) 기계가 ‘본다’는 생각의 시작 1998년, Yann LeCun이 처음으로 손글씨 숫자를 인식시키던 그 순간인공지능은 처음으로 “세상을 본다”는 감각을 얻었습니다. 그전까지 컴퓨터는 숫자를 계산하고, 문자를 저장했지만이미지라는 ‘시각적 세계’를 이해하지는 못했죠. LeNet-5는 그 한계를 깨뜨렸습니다.기계가 시각 정보를 받아들이고,패턴을 학습하며,‘의미 있는 형상’을 구분하기 시작한 첫 사건. 그때부터 CNN의 역사는 “시각의 언어를 배우는 여정”이 되었습니다. GPU의 불빛 아래서 부활한 딥러닝14년 동안 이 언어는 잊혀져 있었습니다.하지만 2012년, AlexNet이 다시 불을 켰죠.GPU라는 새로운 계산 도구가,멈춰 있던 신경망의 심장을 다시 뛰게 만들었습니다. 딥러닝은 부활했고,세상은 처음으로 “..
Wide ResNet, 2016 — 너비로 확장된 Residual Network (딥러닝 이미지 분류 시리즈 1부 ⑩) 깊이의 끝에서 마주한 질문2016년, 딥러닝은 깊이의 끝을 향해 달리고 있었습니다.ResNet은 152층을 넘어 1,000층까지 도달하며,“깊으면 깊을수록 좋다”는 믿음이 거의 종교처럼 굳어졌습니다. 하지만 연구자들은 곧 깨닫게 됩니다.“이제는 너무 깊어서, 이득보다 비용이 크다.” 학습은 느려지고,메모리는 부족하고,무엇보다 네트워크가 불필요하게 복잡해졌습니다. 그때 새로운 발상이 등장합니다.“깊이 대신, 너비를 늘려보자.” 이 단순한 생각이Wide ResNet의 탄생을 이끌었습니다.깊이와 너비, 균형의 시대를 열다. Wide ResNet은 이름 그대로,무작정 깊이를 파고들던 흐름을 멈추고ResNet의 깊이를 줄이는 대신각 층의 채널 수(너비)를 늘린 모델입니다. 기존 ResNet은 100층이 넘는 깊이..
SqueezeNet, 2016 — 작지만 강한 CNN (딥러닝 이미지 분류 시리즈 1부 ⑨) 거대한 모델의 그늘2016년 무렵, 딥러닝은 승승장구하고 있었습니다.ResNet, Inception, DenseNet모두 ImageNet에서 인간을 능가하는 정확도를 보여줬습니다. 하지만 문제는 너무 컸다는 것이었습니다.하나의 모델을 학습시키려면 수일이 걸리고,모바일 환경이나 임베디드 디바이스에서는 돌릴 수도 없었습니다.“성능은 좋지만, 현실에서 쓸 수 없다.” 그때 등장한 것이 바로 SqueezeNet.그 이름 그대로,“압축하고 줄이되, 성능은 그대로 유지하라.”작아도 강한 이유 — Fire Module의 비밀 SqueezeNet의 핵심은 단 하나의 설계 철학입니다."파라미터를 줄이면서도 정보의 표현력을 잃지 말자."이를 위해 고안된 것이 바로 Fire Module입니다. Fire Module은 두..
DenseNet, 2016 — 모든 층을 연결하다 (딥러닝 이미지 분류 시리즈 1부 ⑧) 깊이가 깊어질수록, 정보는 사라진다ResNet이 잔차 연결로 “학습 가능한 깊이”를 열었을 때,많은 연구자들은 이렇게 생각했습니다.“이제 더 깊은 네트워크를 만들어도 되겠구나.” 하지만 곧 또 다른 문제가 드러났습니다. 층이 많아질수록,초기 입력의 정보가 중간에서 희미해지는 현상이 나타났습니다.잔차 연결은 ‘길’을 만들어줬지만,모든 정보가 끝까지 온전히 도달하지는 못했습니다. 그래서 또 한 팀의 연구자들이 새로운 질문을 던집니다.“왜 일부 층만 연결할까?모든 층을 연결하면 안 될까?”Dense Connectivity — 모든 층의 대화2016년,Cornell과 Tsinghua 출신의 연구자들이 제안한 모델,DenseNet (Densely Connected Convolutional Networks) 은이 ..
GoogLeNet, 2014 (Inception v1) — 병렬 CNN의 혁신 (딥러닝 이미지 분류 시리즈 1부 ④) 깊이의 한계를 넘어서, 효율을 고민하다2014년, 딥러닝은 폭발적으로 성장하고 있었습니다.AlexNet이 문을 열고, VGGNet이 깊이를 확장하면서CNN은 더 강력해졌지만, 동시에 더 무거워졌습니다. VGGNet 하나를 학습시키는 데 수 주일이 걸리고,GPU 메모리는 금세 바닥났습니다.“더 깊이 쌓을 순 있지만, 효율이 너무 떨어진다.” 그때, Google의 한 연구팀이 새로운 아이디어를 제안합니다.“CNN의 각 층이 같은 크기의 시야로만 본다는 게 과연 최선일까?” 그들이 제시한 답이 바로 Inception 구조,그리고 그 구조를 품은 모델이 GoogLeNet이었습니다.Inception — 하나의 층, 여러 개의 시야GoogLeNet의 핵심은 놀랍도록 간단한 발상에서 출발했습니다. 이미지의 한 부분을..
VGGNet, 2014 — 단순함의 미학 (딥러닝 이미지 분류 시리즈 1부 ③) 복잡성이 지배하던 시대, 단순함으로 승부하다 2014년, AlexNet이 딥러닝 시대의 문을 열자,수많은 연구팀들이 경쟁적으로 더 깊은 네트워크를 설계하려 달려들었습니다. 당시 연구 경향은 화려함과 복잡성이었습니다.다층 구조, 병렬 연결, 다양한 커널 크기의 조합 등,모두 "성능을 높이려면 구조가 복잡해야 한다"는 믿음에서 출발했죠. 그런데, 영국 옥스퍼드의 한 연구팀은 정반대의 길을 택했습니다.그들의 철학은 명확했습니다.“복잡함이 아니라, 단순함 속에서 깊이를 만든다.” 그 팀의 이름은 Visual Geometry Group (VGG),그리고 그들의 모델이 바로 VGGNet이었습니다.3×3, 단 하나의 규칙VGGNet의 구조를 요약하면 놀라울 만큼 간단합니다.“모든 Convolution은 3×3, 모든..

반응형