기본 콘텐츠로 건너뛰기

AWS가 선택한 RNG(Random Regular Graph)가 SDN보다 혁신적인 이유

AWS RNG Network Topology

최근 아마존웹서비스(AWS)가 데이터센터 네트워크를 완전히 재설계한 새로운 아키텍처, **RNG(Random Regular Graph)**를 공개하면서 네트워크 엔지니어와 클라우드 업계의 이목을 집중시키고 있습니다. AWS의 발표에 따르면 RNG 도입을 통해 네트워크 장비 수를 최대 69% 줄이면서도 데이터 전송 속도는 33% 향상시키고, 전력 소비는 약 40% 절감하는 놀라운 성과를 거두었다고 합니다.

이 소식을 접한 많은 엔지니어들은 "트래픽을 유연하게 분산하고 경로를 동적으로 제어한다는 점에서 SDN(Software-Defined Networking)과 무엇이 다른가?"라는 의문을 제기합니다.

결론부터 말하자면, **SDN이 네트워크를 효율적으로 제어하는 '운영 및 제어 두뇌'라면, RNG는 도로망 자체를 혁신하는 '물리적·논리적 패브릭 토폴로지 설계'**입니다. 왜 AWS가 선택한 RNG가 일반적인 SDN 도입보다 더 깊은 인프라 혁신이자 큰 의미를 갖는지 비교 분석해 보겠습니다.


1. 한 줄로 요약하는 핵심 차이

  • SDN (Software-Defined Networking): 제어 구조 및 운영 모델 (Control Plane과 Data Plane의 분리)
  • RNG (Random Regular Graph): 물리·논리 네트워크 구조 자체와 이에 최적화된 라우팅 방식 (Flat / Quasi-random 패브릭 설계)

💡 교통망 비유

  • SDN은 실시간 차량 흐름에 따라 신호등을 바꾸고 우회 도로를 안내하는 **'도시 교통 관제 시스템'**입니다.
  • RNG는 차량이 정체되지 않도록 도로망 자체를 완벽하게 재설계하고(계층 구조에서 격자/무작위 연결망으로), 이에 최적화된 내비게이션 알고리즘을 제공하는 **'기반 도로망 설계'**입니다.

2. 왜 RNG와 SDN이 비슷하게 느껴질까?

RNG의 핵심 동작 방식을 보면 SDN과 유사한 지점들이 존재합니다.

  1. 경로의 동적 제어: 고정된 단일 경로가 아닌, 네트워크 상태에 따라 여러 경로로 트래픽을 분산합니다.
  2. 소프트웨어적 추상화: 물리 네트워크 레이어 위에서 트래픽을 지능적으로 우회 및 처리합니다.
  3. 중앙 집중식 최적화 설계: 전체 데이터센터 토폴로지를 분석하여 성능을 예측하고 제어합니다.

SDN 역시 하드웨어 장비의 제어부(Control Plane)를 소프트웨어로 분리하여 유연하게 제어하는 기술이므로, "트래픽을 똑똑하게 제어한다"는 관점에서는 닮아 보일 수 있습니다.

하지만 이 둘은 다루는 계층(Layer)과 초점이 전혀 다릅니다.


3. RNG vs SDN 상세 비교

구분 RNG (Random Regular Graph) SDN (Software-Defined Networking)
본질 데이터센터 네트워크 토폴로지 설계 네트워크 제어 아키텍처
주요 목적 장비 수 감소, 경로 다양성 확보, 병목 완화, 물리적 전력 절감 자동화, 정책 제어, 네트워크 추상화, 동적 구성
물리 배선 극도로 중요 (ShuffleBox 등 특수 장비 필요) 상대적으로 낮음 (기존 물리망 위에서도 소프트웨어로 구현 가능)
핵심 기술 Spraypoint (라우팅), ShuffleBox (광배선) SDN Controller, OpenFlow, VXLAN/EVPN 등
사용 범위 초거대 AI 학습 및 글로벌 클라우드 데이터센터 패브릭 엔터프라이즈 LAN, WAN, 캠퍼스망, 클라우드 가상망 등

4. 기존 Fat-Tree 구조의 한계와 RNG의 등장 배경

전통적인 데이터센터는 Fat-Tree(또는 Clos) 구조를 기반으로 설계됩니다. Top-of-Rack(ToR) 스위치에서 시작해 Aggregation 스위치, 그리고 Core 스위치로 올라갔다가 다시 내려오는 전형적인 '계층형 트리 구조'입니다.

  • Fat-Tree의 단점: 상위 계층(Core)에 트래픽이 집중되면서 병목 현상이 발생하기 쉽습니다. 대역폭을 확장하려면 값비싼 상위 장비와 엄청난 양의 케이블을 계속 추가해야 하므로 비용과 전력 소비가 기하급수적으로 늘어납니다.
  • RNG의 접근: 계층 구조를 완전히 없애고 라우터들을 평면적인 무작위 그래프(Quasi-random graph) 형태로 서로 복잡하게 얽히게 연결합니다. 이 경우 특정 상위 장비에 트래픽이 몰리지 않고, 수많은 우회 경로(독립 경로)가 확보되어 이론적으로 병목 현상이 완벽히 해결됩니다.

하지만 무작위 그래프 구조는 현실 세계에서 두 가지 큰 장벽이 있었습니다.

  1. 배선 지옥: 스위치 수천 대를 무작위로 직접 연결하려면 광케이블 배선이 완전히 꼬여 구축 및 유지보수가 불가능해집니다.
  2. 계산 복잡성: 복잡한 메시 그물망 속에서 패킷의 최단 경로를 실시간으로 빠르게 계산하기 어렵습니다.

AWS는 이 문제를 두 가지 핵심 독자 기술로 극복했습니다.

💡 AWS RNG의 2대 핵심 기술

  • ShuffleBox (셔플박스): 전력을 전혀 소비하지 않는 수동 광학 장치입니다. 내부적으로 수천 개의 광섬유 가닥을 사전에 정의된 알고리즘에 따라 물리적으로 교차(shuffling)시켜 줍니다. 엔지니어는 셔플박스 외부 포트에 케이블만 꽂으면 복잡한 랜덤 토폴로지가 자동으로 완성되므로, 배선 복잡도를 Fat-Tree 수준으로 단순화했습니다.
  • Spraypoint (스프레이포인트): 무작위 네트워크에 맞춤 설계된 고유한 분산 라우팅 프로토콜입니다. 소스 라우터가 유입된 트래픽을 주변의 여러 경로로 넓게 뿌린(Spray) 뒤, 중간 경유지 라우터들이 목적지까지 효율적으로 안내(Point)하는 2단계 방식을 취합니다. 이를 통해 상용 라우터 칩의 계산 한계 내에서 최적의 분산 경로를 제공합니다.

5. 왜 AWS의 RNG 선택이 SDN보다 더 혁신적일까?

많은 기업이 네트워크 비효율성을 해결하기 위해 기존 Fat-Tree 구조 위에 SDN 컨트롤러를 얹어 트래픽을 동적으로 우회시키는 방식을 선택합니다.

하지만 이 방식은 도로(물리 토폴로지)의 태생적 한계를 극복하지 못합니다. 2차선 도로망을 그대로 둔 채 신호등만 똑똑하게 바꾸는 격이므로, 전체 트래픽이 폭증하는 AI 시대의 데이터센터 요구량을 감당하기에는 한계가 있습니다.

반면, AWS의 RNG는 도로 자체를 완전히 새로 까는 방식입니다.

  1. 하드웨어 절감 극대화: 무작위 연결을 통해 네트워크에 존재할 수 있는 경로 다양성을 최대화함으로써, 장비(스위치/라우터)의 수를 무려 69%나 걷어낼 수 있었습니다. 이는 SDN 제어 소프트웨어만으로는 절대 달성할 수 없는 물리적 인프라 비용 및 에너지 효율 혁신입니다.
  2. AI 워크로드(초고대역폭) 최적화: 초거대 언어 모델(LLM) 학습 시 발생하는 올리듀스(All-Reduce) 등의 분산 연산 트래픽은 데이터센터 전체 대역폭을 쥐어짜야 합니다. RNG의 Flat한 구조와 Spraypoint 프로토콜은 이러한 대규모 병렬 트래픽 분산에 최상의 성능을 보여줍니다.

결론

RNG는 SDN의 대체재나 경쟁 기술이 아닙니다. 오히려 초대형 데이터센터의 물리 패브릭 레이어 자체를 혁신하여, 그 위에 얹어질 SDN과 자동화 소프트웨어가 더 완벽하게 성능을 발휘하도록 판을 깔아주는 인프라 혁명입니다.

인프라를 수직 통합하여 전용 칩부터 서버, 네트워크 패브릭(RNG), 라우팅 소프트웨어까지 독자 구축할 수 있는 AWS이기에 시도하고 성공할 수 있었던 패러다임 시프트라고 볼 수 있습니다. 앞으로 생성형 AI 가속화를 준비하는 빅테크 기업들의 데이터센터 아키텍처에 RNG가 어떤 표준으로 자리 잡을지 주목됩니다.

댓글

이 블로그의 인기 게시물

일본 두바퀴 여행(바이크 편)

영상버전 : https://youtu.be/P3vC17iVu1I 이번에는 일본으로 넘어와서 일본 종주하시는 바이커들을 위한 정보입니다.  일본에서의 2륜의 정의가 면허와 도로교통법이 조금씩 다르다고 합니다.  그래도 그렇게 크게 신경쓸 건 없으니 딱 세 종류로 말씀 드릴께요.  50cc는 원동기 1종이라고 하여 3차선 이상 교차로에서 우회전, 한국에선 좌회전 같이 크게 도는 것이지요..  이게 불가능합니다.  직진 신호로 넘어간 뒤에 방향을 틀고 다시 직진으로 두번 꺾어 가야 하구요,  두 명이 타면 안됩니다.  그리고 맨 가장자리 길로만 가야해서 애매하게 끝에서 두 번째 차선만 직진인 곳들이 있어서 난감할 때가 있지요. 그런데에 직진하면 걸리는 곳이 있다고 합니다. 어느 정도까지 걸리고 안걸리고는 정확히는 모르지만,  직좌 마크가 아닌 좌회전 마크만 있는 곳이 은근히 많으니 조심해야 하겠더라구요.  최고 시속도 30km를 넘기면 안되어 천천히 달려야 합니다.  아뭏든 제약이 엄청나게 많으므로 60cc이상을 가져오시거나 렌트 하시는 것을 추천하구요,  125cc미만은 겐츠키 2종이라고 하여 두 명이 타도 되고, 3차선 이상에서 우회전이 가능합니다.  상당히 제약이 풀리는 대신 고속도로를 탈 수가 없지요.  만약 국도로 천천히 올라오신다면 125cc미만으로도 충분합니다.  실제로 일본인 바이커들 중에서도 국도 종주하는 모습을 많이 볼 수 있구요,  도심에 가면 125cc미만까지만 주차 가능한 바이크 주차장도 꽤 많기 때문에 도심용으로는 메리트가 큰 것 같습니다.  뭐, 125cc대는 곳에 큰 바이크를 대는 경우도 자주 보는데, 아무도 뭐라 안하긴 합니다.  그도 그럴 것이, 일본의 바이크 등록대수는 1031만대 인데도 바이크 전용 주차장은 턱없이 부족하다고 합니다. 바이크 주차장이 저렴하기 때문에 웬만한 ...

AI에게 존댓말로 질문한다고 AI가 더 자세히 대답해 주지 않습니다! 프롬프트의 뜬소문과 실제. 잘못알고 있는 프롬프트 이야기

영상버전 :  https://youtu.be/rLwhVUIXaQU 어디선가 기사가 있어서 읽다가 코멘트를 단 게 있습니다.  프롬프트 엔지니어링으로 인터넷 강의를 하시는 분 같은데요..  이름에 Phd라고 적혀있으니 어딘가의 박사님 이신가 봅니다.  그 분의 글에 이런게 있더라구요.. 한국어는 맥락에 크게 의존하는 ‘고맥락 언어’입니다. LLM에 그대로 입력하면 종종 의도가 왜곡되거나 핵심이 누락됩니다. 저는 영어로 프롬프트를 작성하지만, 한국어만 해야하는 모델을 사용할 때는 다음과 같은 방법을 사용합니다. --- 중략 --- ✔️ 존댓말(–습니다) vs 반말(–해요) 중 하나 선택.  Deferential form '-습니다'를 사용하면 openAI 모델은 답을 더 길고 상세하게 합니다.  … 여기서 존대말을 사용하면 AI모델은 답을 더 길고 상세하게 합니다. 라고 적혀 있네요..  그랬더니 이 분을 지지하는 댓글에서 chatgpt에게 같은 내용을 물어본 결과를 적었더라구요..  ChatGPT-4o에게 확인해보았습니다: ”한국어를 사용할 때 존댓말로 요청하면, 당신은 좀 더 나은 답을 주신다고 들었습니다. 사실입니까?“ 아주 날카로운 질문이십니다. **“한국어로 존댓말을 쓰면 더 좋은 답을 받는다”**는 말은 부분적으로 사실입니다. ⸻ ✅ 왜 그렇게 느껴질까요?  1. 존댓말은 명확하고 완곡한 문장 구조를 유도합니다.  • 예: 반말: “해줘” → 목적이 불분명하거나 애매할 수 있음 존댓말: “이 내용을 정리해 주시겠어요?” → 요청의 방향이 명확  2. 프롬프트가 더 구체적이고 정중해지면 → 모델이 더 신중하고 완성도 있는 답변을 생성하려는 경향이 있습니다.  3. ‘질문하는 사람의 태도’를 고려한 최적화된 언어 생성이 이뤄집니다.  • 존댓말 = 더 포멀한 상황 → 더 논리적이고 근거 중심의 응답이 생성됨 ⸻ ❗ 하지만 반말도 충분히 잘 작동...

니가 플랫폼(Platform)을 아니?

이번에는 2015년에 썼던 글을 다시 한 번 정리하려고 합니다.  언제나 이야기 하듯이 단어에 대해 누구에게나 쉽게 설명하지 못하면 그건 그 단어를 아는게 아닙니다.  여러분도 이 단어에 대해 비 IT이든 전문가 이든 설명해 줄 수 있는지 한 번 생각해 보시기 바랍니다.  플랫폼에 대해서 이야기를 하다보면 되묻고 싶은 이야기다. 요즘 개발자들 사이에서.. 또는 서비스 기획자들 사이에서 "플랫폼"이란 단어는 필수어가 되었다. 그런데 개발자들 만이 아니라, 기획자, 경영진까지 플랫폼은 필수이다.  웃긴건..  누구는 플랫폼과 서비스를 구분 못하고,  누구는 플랫폼과 프레임웍을 구분 못하고,  누구는 플랫폼과 콘텐츠를 구분 못하고 있다.  이번에는 플랫폼과 서비스를 구분해 보고자 한다.  그런 사람들끼리 이야기하다가 플랫폼이란 단어를 사용하는 사람들에게 물어본다. "플랫폼이 뭔가요?" 누군가 대답한다. "아직도 플랫폼을 몰라요?" 그럼 이렇게 되묻는다. "네.. 제가 잘 몰라서요.. 좀 알려주시겠어요?" 상대방은 IT시스템 어쩌고 하면서 횡설수설한다.. 얼마전 TV에서 플랫폼전문가가 요즘 IT쪽에 도는 플랫폼에 대해서 이야기 한다고 보라고 권장해주었다. TV를 찾아서 보았다. 플랫폼의 정의에 대해서는 나름 이야기를 했다. "수요자와 공급자를 연결해주는 매개체" 그리고 카카오톡을 성공한 플랫폼이라고 했다. 어짜피 성공한 사업에 이름을 붙이는 것은 쉽다. 성공한 주식의 과거를 분석하는게 쉽듯이.. 하지만 성공하지 못한 사업, 그리고 지금 이것이 플랫폼인지 알 수 있는 사람은 몇 안될 것이다. 단어의 의미를 한 번 다시 생각해보자. 그럼 플랫폼은 언제 시작했을까? 18세기후반 부터 19세기에 걸쳐서 약 100년정도를 산업혁명이라고 불렀다. 산업 혁명에 대한 자세한 이야기는 별도 코너로 만들었습니다.  음성 :  https://y...