기본 콘텐츠로 건너뛰기

AWS RNG와 NVIDIA CPO 비교 분석: AI 데이터센터 네트워크의 미래

AWS RNG와 NVIDIA CPO 비교 분석 – AI 데이터센터 네트워크의 미래는 어디로 가고 있는가?

최근 AWS가 발표한 RNG(Resilient Network Graphs) 와 NVIDIA가 발표한 CPO(Co-Packaged Optics) 는 모두 AI 시대의 초대형 데이터센터를 위한 핵심 기술로 주목받고 있습니다.

흥미로운 점은 두 기술이 모두 "AI 클러스터의 네트워크 문제"를 해결하려고 하지만, 실제로는 서로 다른 계층의 문제를 해결하고 있다는 것입니다. 많은 기사에서는 RNG와 CPO를 경쟁 기술처럼 소개하지만, 실제 엔지니어 관점에서 보면 둘은 경쟁 관계가 아니라 상호 보완 관계에 가깝습니다.

이번 글에서는 네트워크 아키텍트, DBRE, SRE, 인프라 엔지니어의 시각에서 두 기술을 비교해 보겠습니다.

AWS RNG vs NVIDIA CPO


AI 시대에 네트워크가 중요해진 이유

전통적인 서비스 환경에서는 CPU나 스토리지가 병목이 되는 경우가 많았습니다. 하지만 LLM(대형 언어 모델) 학습 환경에서는 상황이 완전히 달라집니다.

예를 들어 GPT, Gemini, Claude와 같은 모델을 학습할 때는 수천~수십만 개의 GPU가 동시에 동작합니다. 실제 학습 과정은 다음과 같이 반복됩니다:

GPU 계산 ➔ GPU 간 데이터 교환 ➔ GPU 계산 ➔ GPU 간 데이터 교환

모델 규모가 커질수록 GPU의 계산 능력보다 GPU 간 통신 능력이 전체 성능을 결정하게 됩니다. 이를 흔히 East-West Traffic 문제라고 부릅니다. AI 데이터센터의 핵심 과제는 다음과 같습니다:

  • 더 많은 GPU 연결 (확장성)
  • 더 낮은 네트워크 지연 (Latency)
  • 더 높은 네트워크 처리량 (Throughput)
  • 더 낮은 전력 소비 (Power Efficiency)

AWS와 NVIDIA는 각각 다른 레이어에서 이 문제를 해결하려고 하고 있습니다.


AWS RNG (Resilient Network Graphs)

AWS가 접근한 방법은 토폴로지(Topology) 혁신입니다. 기존 데이터센터는 대부분 트리 구조인 Fat-Tree(Clos) 구조를 사용합니다.

이 구조는 확장성이 좋고 구현이 단순하지만 AI 클러스터 규모가 커질수록 다음과 같은 문제가 발생합니다:

  • 스위치 수의 기하급수적 증가
  • 특정 Spine 스위치에 대한 트래픽 집중 현상
  • 장거리 홉(Hop) 증가로 인한 지연 시간 상승
  • 네트워크 비용 및 장애 발생 시 영향 범위 확대

AWS는 이러한 문제를 해결하기 위해 **그래프 이론(Graph Theory)**을 활용하여 Fat-Tree 대신 랜덤 Regular 그래프(Random Regular Graph) 구조RNG를 도입했습니다.

RNG의 세 가지 핵심 포인트

1. 경로 다양성 극대화 및 지연 감소

전통적인 Clos 네트워크에서는 경로가 계층 구조에 묶여 있지만, RNG에서는 노드(스위치)들이 무작위로 복잡하게 얽혀 있어 가능한 경로 수가 폭발적으로 증가합니다. 이는 ECMP(Equal-Cost Multi-Path) 효율을 극대화하고 혼잡을 자동으로 분산시켜 줍니다.

2. 물리적 케이블링 한계 극복: ShuffleBox

랜덤 그래프의 가장 큰 단점은 배선의 복잡성입니다. 수만 개의 광케이블을 규칙 없이 연결하는 것은 물리적으로 불가능에 가깝습니다. AWS는 이를 해결하기 위해 광케이블의 무작위 배선을 내부에서 처리해 주는 패시브 광 컴포넌트인 **ShuffleBox(셔플박스)**를 개발하여 실무 도입에 성공했습니다.

3. 하드웨어 장비 및 비용의 극적인 감소

AWS의 발표에 따르면 RNG 도입 시 기존 Clos 대비 다음과 같은 이점을 제공합니다:

  • 네트워크 장비(스위치/라우터) 약 69% 감소
  • 네트워크 처리량 약 33% 향상
  • 전력 사용량 약 40% 감소
  • 전체 구축 비용 약 45% 절감

RNG는 주로 AI 인프라뿐만 아니라 대규모 클라우드 백본(Non-GPU) 전반의 효율을 극대화하기 위해 AWS의 새로운 표준 네트워크 아키텍처로 자리 잡고 있습니다.


NVIDIA CPO (Co-Packaged Optics)

AWS가 네트워크의 도로망(토폴로지)을 재설계했다면, NVIDIA는 도로 위를 달리는 자동차의 엔진(물리 계층)을 교체하고 있습니다.

현재 네트워크의 한계 (I/O Bottleneck)

현재 AI 데이터센터는 GPU와 스위치 간 연결을 위해 플러그인 광 트랜시버(Pluggable Transceiver)를 사용합니다. 그러나 대역폭이 800G, 1.6T, 3.2T로 늘어남에 따라 전기 신호의 손실을 메우기 위해 필요한 Retimer나 DSP(디지털 신호 처리 장치)의 전력 소모가 극도로 높아지고 있습니다.

CPO의 핵심 개념

**CPO(Co-Packaged Optics, 공동 패키징 광학)**는 광 트랜시버 모듈을 섀시 전면에서 제거하고, 스위치 ASIC 또는 GPU 바로 옆(동일 패키지 기판 위)에 광 엔진을 통합하는 기술입니다.

이로 인해 전기 신호가 기판(PCB)을 통과하는 거리가 몇 인치에서 수 밀리미터로 극적으로 단축됩니다.

CPO의 세 가지 핵심 포인트

1. 전력 소모의 극적인 감소 (3.5x ~ 5x 개선)

전기 신호를 장거리로 보낼 필요가 없어 Retimer와 DSP 등 전력 소모가 심한 부품을 제거할 수 있습니다. 기존 플러그형 광 모듈 대비 최대 3.5배에서 5배의 전력 효율성을 달성할 수 있습니다.

2. 실리콘 포토닉스(Silicon Photonics) 융합

반도체 공정 기술을 사용해 실리콘 칩 위에 미세 광학 소자가 구현하여 고속 광 신호를 직접 송수신합니다. 이를 통해 신호 무결성(Signal Integrity)이 개선되고 지연 시간이 극적으로 감소합니다.

3. 초거대 AI 클러스터(AI Factory) 구현 가능

수만 개에서 수백만 개의 GPU를 단일 클러스터로 묶어 연산 성능을 동기화하기 위해서는 광 초고속 연결이 필수적입니다. NVIDIA는 Spectrum-X 및 Quantum-X 제품군 등에 CPO 기술을 통합하여 AI 전용 패브릭의 물리적 한계를 정면 돌파하고 있습니다.


AWS RNG와 NVIDIA CPO 비교 요약

두 기술은 AI 데이터센터 네트워크가 직면한 서로 다른 차원의 한계를 극복하고 있습니다.

구분 AWS RNG (Resilient Network Graphs) NVIDIA CPO (Co-Packaged Optics)
적용 계층 네트워크 토폴로지 (Network Topology) 물리 및 패키징 계층 (Physical & Packaging Layer)
주요 대상 데이터센터 네트워크 구조 및 스위치 토폴로지 광 인터커넥트 및 물리 신호 전송 기술
해결 문제 고정적 Fat-Tree 경로 한계, 스위치 물량 및 비용 초고속 전송 시의 전력 폭증, 전기 신호 도달거리 제한
핵심 기술 랜덤 그래프 이론, 물리 셔플박스(ShuffleBox) 실리콘 포토닉스(Silicon Photonics), 온패키지 광학 통합
효과 요약 장비 수 69% 감축, 전력 40% 절감, 대역폭 33% 향상 물리적 전송 효율 3.5x~5x 향상, 극저지연, 고밀도 대역폭

비유하자면, AWS는 **"비효율적인 우회 도로망을 그래프 이론 기반의 고효율 지름길 네트워크로 재설계"**한 것이고, NVIDIA는 **"도로 위를 달리는 차량의 물리적 물리적 엔진을 광학 고효율 엔진으로 교체"**한 것과 같습니다.


향후 전망: RNG와 CPO의 시너지

결국 미래의 AI 데이터센터는 두 가지 인프라적 한계를 함께 해결해야 합니다. 경로의 유연성과 스위치 장비 효율(AWS RNG)을 개선하면서, 물리적 물리적 한계인 전력 소모와 초대용량 대역폭(NVIDIA CPO)을 확보해야 합니다.

가장 유력한 미래 아키텍처 모델은 다음과 같습니다:

[지능형 AI 라우팅 / SDN 제어 계층]
               │
[RNG 기반 무작위 그래프 네트워크 토폴로지]
               │
[CPO 기반 초고효율 실리콘 포토닉스 물리 레이어]
               │
[초대형 GPU 클러스터 (AI Factory)]

즉, 물리 계층에서는 NVIDIA CPO가 초저전력 광 전송을 담당하고, 네트워크 구조 계층에서는 AWS RNG가 불필요한 스위치 수를 대폭 줄여 단순하고 복잡성이 최적화된 패브릭을 구성하며, 제어 계층에서는 SDN 및 AI Routing이 실시간 데이터 경로를 조율하는 상호 보완적인 통합 생태계가 구성될 것입니다.

마무리하며

인프라 엔지니어의 관점에서 AWS RNG는 '소프트웨어와 설계 사상의 변화'이며, NVIDIA CPO는 '하드웨어와 물리 법칙 극복을 위한 진화'입니다.

앞으로 초대규모 인프라나 AI 클러스터를 설계해야 할 아키텍트라면 스위치 장비 자체의 포트 속도(Gbps)뿐만 아니라 그래프 이론을 접목한 토폴로지 구성, 광통신 기반의 반도체 레이아웃 기술, AI 기반의 유동적 라우팅 프로토콜을 아우르는 융합적 이해가 요구될 것입니다.

댓글

이 블로그의 인기 게시물

일본 두바퀴 여행(바이크 편)

영상버전 : https://youtu.be/P3vC17iVu1I 이번에는 일본으로 넘어와서 일본 종주하시는 바이커들을 위한 정보입니다.  일본에서의 2륜의 정의가 면허와 도로교통법이 조금씩 다르다고 합니다.  그래도 그렇게 크게 신경쓸 건 없으니 딱 세 종류로 말씀 드릴께요.  50cc는 원동기 1종이라고 하여 3차선 이상 교차로에서 우회전, 한국에선 좌회전 같이 크게 도는 것이지요..  이게 불가능합니다.  직진 신호로 넘어간 뒤에 방향을 틀고 다시 직진으로 두번 꺾어 가야 하구요,  두 명이 타면 안됩니다.  그리고 맨 가장자리 길로만 가야해서 애매하게 끝에서 두 번째 차선만 직진인 곳들이 있어서 난감할 때가 있지요. 그런데에 직진하면 걸리는 곳이 있다고 합니다. 어느 정도까지 걸리고 안걸리고는 정확히는 모르지만,  직좌 마크가 아닌 좌회전 마크만 있는 곳이 은근히 많으니 조심해야 하겠더라구요.  최고 시속도 30km를 넘기면 안되어 천천히 달려야 합니다.  아뭏든 제약이 엄청나게 많으므로 60cc이상을 가져오시거나 렌트 하시는 것을 추천하구요,  125cc미만은 겐츠키 2종이라고 하여 두 명이 타도 되고, 3차선 이상에서 우회전이 가능합니다.  상당히 제약이 풀리는 대신 고속도로를 탈 수가 없지요.  만약 국도로 천천히 올라오신다면 125cc미만으로도 충분합니다.  실제로 일본인 바이커들 중에서도 국도 종주하는 모습을 많이 볼 수 있구요,  도심에 가면 125cc미만까지만 주차 가능한 바이크 주차장도 꽤 많기 때문에 도심용으로는 메리트가 큰 것 같습니다.  뭐, 125cc대는 곳에 큰 바이크를 대는 경우도 자주 보는데, 아무도 뭐라 안하긴 합니다.  그도 그럴 것이, 일본의 바이크 등록대수는 1031만대 인데도 바이크 전용 주차장은 턱없이 부족하다고 합니다. 바이크 주차장이 저렴하기 때문에 웬만한 ...

니가 플랫폼(Platform)을 아니?

이번에는 2015년에 썼던 글을 다시 한 번 정리하려고 합니다.  언제나 이야기 하듯이 단어에 대해 누구에게나 쉽게 설명하지 못하면 그건 그 단어를 아는게 아닙니다.  여러분도 이 단어에 대해 비 IT이든 전문가 이든 설명해 줄 수 있는지 한 번 생각해 보시기 바랍니다.  플랫폼에 대해서 이야기를 하다보면 되묻고 싶은 이야기다. 요즘 개발자들 사이에서.. 또는 서비스 기획자들 사이에서 "플랫폼"이란 단어는 필수어가 되었다. 그런데 개발자들 만이 아니라, 기획자, 경영진까지 플랫폼은 필수이다.  웃긴건..  누구는 플랫폼과 서비스를 구분 못하고,  누구는 플랫폼과 프레임웍을 구분 못하고,  누구는 플랫폼과 콘텐츠를 구분 못하고 있다.  이번에는 플랫폼과 서비스를 구분해 보고자 한다.  그런 사람들끼리 이야기하다가 플랫폼이란 단어를 사용하는 사람들에게 물어본다. "플랫폼이 뭔가요?" 누군가 대답한다. "아직도 플랫폼을 몰라요?" 그럼 이렇게 되묻는다. "네.. 제가 잘 몰라서요.. 좀 알려주시겠어요?" 상대방은 IT시스템 어쩌고 하면서 횡설수설한다.. 얼마전 TV에서 플랫폼전문가가 요즘 IT쪽에 도는 플랫폼에 대해서 이야기 한다고 보라고 권장해주었다. TV를 찾아서 보았다. 플랫폼의 정의에 대해서는 나름 이야기를 했다. "수요자와 공급자를 연결해주는 매개체" 그리고 카카오톡을 성공한 플랫폼이라고 했다. 어짜피 성공한 사업에 이름을 붙이는 것은 쉽다. 성공한 주식의 과거를 분석하는게 쉽듯이.. 하지만 성공하지 못한 사업, 그리고 지금 이것이 플랫폼인지 알 수 있는 사람은 몇 안될 것이다. 단어의 의미를 한 번 다시 생각해보자. 그럼 플랫폼은 언제 시작했을까? 18세기후반 부터 19세기에 걸쳐서 약 100년정도를 산업혁명이라고 불렀다. 산업 혁명에 대한 자세한 이야기는 별도 코너로 만들었습니다.  음성 :  https://y...

AI에게 존댓말로 질문한다고 AI가 더 자세히 대답해 주지 않습니다! 프롬프트의 뜬소문과 실제. 잘못알고 있는 프롬프트 이야기

영상버전 :  https://youtu.be/rLwhVUIXaQU 어디선가 기사가 있어서 읽다가 코멘트를 단 게 있습니다.  프롬프트 엔지니어링으로 인터넷 강의를 하시는 분 같은데요..  이름에 Phd라고 적혀있으니 어딘가의 박사님 이신가 봅니다.  그 분의 글에 이런게 있더라구요.. 한국어는 맥락에 크게 의존하는 ‘고맥락 언어’입니다. LLM에 그대로 입력하면 종종 의도가 왜곡되거나 핵심이 누락됩니다. 저는 영어로 프롬프트를 작성하지만, 한국어만 해야하는 모델을 사용할 때는 다음과 같은 방법을 사용합니다. --- 중략 --- ✔️ 존댓말(–습니다) vs 반말(–해요) 중 하나 선택.  Deferential form '-습니다'를 사용하면 openAI 모델은 답을 더 길고 상세하게 합니다.  … 여기서 존대말을 사용하면 AI모델은 답을 더 길고 상세하게 합니다. 라고 적혀 있네요..  그랬더니 이 분을 지지하는 댓글에서 chatgpt에게 같은 내용을 물어본 결과를 적었더라구요..  ChatGPT-4o에게 확인해보았습니다: ”한국어를 사용할 때 존댓말로 요청하면, 당신은 좀 더 나은 답을 주신다고 들었습니다. 사실입니까?“ 아주 날카로운 질문이십니다. **“한국어로 존댓말을 쓰면 더 좋은 답을 받는다”**는 말은 부분적으로 사실입니다. ⸻ ✅ 왜 그렇게 느껴질까요?  1. 존댓말은 명확하고 완곡한 문장 구조를 유도합니다.  • 예: 반말: “해줘” → 목적이 불분명하거나 애매할 수 있음 존댓말: “이 내용을 정리해 주시겠어요?” → 요청의 방향이 명확  2. 프롬프트가 더 구체적이고 정중해지면 → 모델이 더 신중하고 완성도 있는 답변을 생성하려는 경향이 있습니다.  3. ‘질문하는 사람의 태도’를 고려한 최적화된 언어 생성이 이뤄집니다.  • 존댓말 = 더 포멀한 상황 → 더 논리적이고 근거 중심의 응답이 생성됨 ⸻ ❗ 하지만 반말도 충분히 잘 작동...