Talk Lowy(kr)

AWS RNG와 NVIDIA CPO 비교 분석: AI 데이터센터 네트워크의 미래

AWS RNG와 NVIDIA CPO 비교 분석 – AI 데이터센터 네트워크의 미래는 어디로 가고 있는가? 최근 AWS가 발표한 RNG(Resilient Network Graphs) 와 NVIDIA가 발표한 CPO(Co-Packaged Optics) 는 모두 AI 시대의 초대형 데이터센터를 위한 핵심 기술로 주목받고 있습니다. 흥미로운 점은 두 기술이 모두 "AI 클러스터의 네트워크 문제"를 해결하려고 하지만, 실제로는 서로 다른 계층의 문제를 해결하고 있다는 것입니다. 많은 기사에서는 RNG와 CPO를 경쟁 기술처럼 소개하지만, 실제 엔지니어 관점에서 보면 둘은 경쟁 관계가 아니라 상호 보완 관계에 가깝습니다. 이번 글에서는 네트워크 아키텍트, DBRE, SRE, 인프라 엔지니어의 시각에서 두 기술을 비교해 보겠습니다. AI 시대에 네트워크가 중요해진 이유 전통적인 서비스 환경에서는 CPU나 스토리지가 병목이 되는 경우가 많았습니다. 하지만 LLM(대형 언어 모델) 학습 환경에서는 상황이 완전히 달라집니다. 예를 들어 GPT, Gemini, Claude와 같은 모델을 학습할 때는 수천~수십만 개의 GPU가 동시에 동작합니다. 실제 학습 과정은 다음과 같이 반복됩니다: GPU 계산 ➔ GPU 간 데이터 교환 ➔ GPU 계산 ➔ GPU 간 데이터 교환 모델 규모가 커질수록 GPU의 계산 능력보다 GPU 간 통신 능력이 전체 성능을 결정하게 됩니다. 이를 흔히 East-West Traffic 문제라고 부릅니다. AI 데이터센터의 핵심 과제는 다음과 같습니다: 더 많은 GPU 연결 (확장성) 더 낮은 네트워크 지연 (Latency) 더 높은 네트워크 처리량 (Throughput) 더 낮은 전력 소비 (Power Efficiency) AWS와 NVIDIA는 각각 다른 레이어에서 이 문제를 해결하려고 하고 있습니다. AWS RNG (Resilient Network Graphs) AWS가 접근한 방법은 토폴로지(T...

자세한 내용 보기