Talk Lowy(kr)

글

AI 시대의 진짜 병목은 GPU가 아니라 전력망이다: 한·일 인프라 경쟁의 이면

AI 시대의 병목은 GPU가 아니라 전력망이 될 수 있다 한국의 26만 GPU 계획과 일본의 전력 인식 차이를 중심으로 AI 인프라 경쟁을 이야기할 때 우리는 보통 GPU 수량을 먼저 본다. 어느 나라가 NVIDIA GPU를 몇 장 확보했는지, 어느 기업이 Blackwell을 얼마나 도입하는지, 몇 EFLOPS 규모의 AI 슈퍼컴퓨터를 구축하는지가 뉴스의 중심이 된다. 하지만 최근 상황을 보면 진짜 병목은 GPU 자체가 아닐 수 있다. GPU를 확보해도 그것을 꽂을 데이터센터, 그 데이터센터에 공급할 전력, 그리고 그 전력을 실제 위치까지 보내는 송전망이 준비되지 않으면 GPU는 전부 가동할 수 없다. 한국이 NVIDIA로부터 26만 장 이상 규모의 GPU 인프라를 확보하기로 했다는 발표는 이 문제를 매우 선명하게 보여준다. NVIDIA 공식 발표에 따르면 한국 정부, 삼성전자, SK그룹, 현대차그룹, NAVER Cloud 등이 합쳐 25만 장을 넘는 NVIDIA GPU 인프라를 구축할 예정이다. 구체적으로 정부와 클라우드 사업자에 5만 장 이상, 삼성전자에 5만 장 이상, SK그룹에 5만 장 이상, 현대차그룹에 5만 장, NAVER Cloud에 6만 장 이상이라는 구성이 제시되어 있다. 이 숫자는 한국 AI 산업 입장에서는 매우 큰 기회다. 하지만 동시에 질문도 생긴다. “이 GPU를 실제로 어디에서, 어떤 전력으로, 몇 년 안에 돌릴 수 있는가?” 26만 GPU는 단순한 서버 구매가 아니다 26만 장이라는 숫자는 단순히 서버실에 장비를 추가하는 수준이 아니다. Blackwell급 GPU는 한 장당 전력소비가 매우 크고, 이를 랙 단위로 묶으면 기존 데이터센터와는 다른 전력 밀도를 요구한다. NVIDIA 최신 GPU 랙의 전력 사용량은 2020년대 초반의 수십 kW 수준에서 2025년에는 100kW를 넘는 수준으로 올라가고 있으며, 향후 수백 kW급 랙도 현실적인 범위에 들어오고 있다. 한국전력 관계자도 AI 데이터센터의 전력 밀도 상승을 ...

자세한 내용 보기

AWS RNG와 NVIDIA CPO 비교 분석: AI 데이터센터 네트워크의 미래

AWS RNG와 NVIDIA CPO 비교 분석 – AI 데이터센터 네트워크의 미래는 어디로 가고 있는가? 최근 AWS가 발표한 RNG(Resilient Network Graphs) 와 NVIDIA가 발표한 CPO(Co-Packaged Optics) 는 모두 AI 시대의 초대형 데이터센터를 위한 핵심 기술로 주목받고 있습니다. 흥미로운 점은 두 기술이 모두 "AI 클러스터의 네트워크 문제"를 해결하려고 하지만, 실제로는 서로 다른 계층의 문제를 해결하고 있다는 것입니다. 많은 기사에서는 RNG와 CPO를 경쟁 기술처럼 소개하지만, 실제 엔지니어 관점에서 보면 둘은 경쟁 관계가 아니라 상호 보완 관계에 가깝습니다. 이번 글에서는 네트워크 아키텍트, DBRE, SRE, 인프라 엔지니어의 시각에서 두 기술을 비교해 보겠습니다. AI 시대에 네트워크가 중요해진 이유 전통적인 서비스 환경에서는 CPU나 스토리지가 병목이 되는 경우가 많았습니다. 하지만 LLM(대형 언어 모델) 학습 환경에서는 상황이 완전히 달라집니다. 예를 들어 GPT, Gemini, Claude와 같은 모델을 학습할 때는 수천~수십만 개의 GPU가 동시에 동작합니다. 실제 학습 과정은 다음과 같이 반복됩니다: GPU 계산 ➔ GPU 간 데이터 교환 ➔ GPU 계산 ➔ GPU 간 데이터 교환 모델 규모가 커질수록 GPU의 계산 능력보다 GPU 간 통신 능력이 전체 성능을 결정하게 됩니다. 이를 흔히 East-West Traffic 문제라고 부릅니다. AI 데이터센터의 핵심 과제는 다음과 같습니다: 더 많은 GPU 연결 (확장성) 더 낮은 네트워크 지연 (Latency) 더 높은 네트워크 처리량 (Throughput) 더 낮은 전력 소비 (Power Efficiency) AWS와 NVIDIA는 각각 다른 레이어에서 이 문제를 해결하려고 하고 있습니다. AWS RNG (Resilient Network Graphs) AWS가 접근한 방법은 토폴로지(T...

자세한 내용 보기

SQL Server Compatibility Level 100 vs 160: Query Store 관점에서 다시 보기

SQL Server에서 데이터베이스의 호환성 수준(Compatibility Level)을 변경하는 것은 단순한 "버전 호환성" 이상의 의미를 갖습니다. 실제로는 쿼리 최적화 방식, 카디널리티 추정(Cardinality Estimation), 그리고 지능형 쿼리 처리(Intelligent Query Processing, IQP) 기능의 활성화 여부까지 결정하는 중요한 아키텍처적 선택입니다. 종종 특정 쿼리가 느려졌을 때 호환성 수준을 낮추어 임시로 성능을 복구하곤 합니다. 그러나 이는 데이터베이스 전체 관점에서 최신 엔진이 제공하는 핵심 최적화 기능을 포기하는 대가로 이어집니다. 본 글에서는 SQL Server 호환성 수준 100과 160의 차이점을 Query Store 관점에서 면밀히 분석하고, 최선의 성능 관리 전략을 공유합니다. 1. Compatibility Level 100에서도 Query Store는 작동할까? 가장 흔한 오해 중 하나는 **"구형 호환성 수준(예: 100)에서는 Query Store를 사용할 수 없다"**는 것입니다. 결론부터 말하자면, 그렇지 않습니다. 호환성 수준이 100(SQL Server 2008 수준)으로 설정되어 있더라도, SQL Server 2016 이상 버전에서 데이터베이스가 실행 중이라면 Query Store를 활성화하여 다음과 같은 핵심 기능을 정상적으로 활용할 수 있습니다. 성능 데이터 수집 : 쿼리 텍스트, 실행 계획(Execution Plan), 런타임 통계(평균 실행 시간, CPU 사용량, 논리적 읽기 등) 수집. 실행 계획 비교 : 호환성 수준 변경 전후 또는 특정 시점 간의 실행 계획 회귀(Regression) 감지. 실행 계획 강제 적용(Plan Forcing) : 특정 query_id 에 대해 과거의 안정적인 plan_id 를 강제로 적용하여 쿼리 성능의 일관성 보장. 따라서 호환성 수준이 낮다고 해서 성능 모니터링 및 복구의 핵심 도구인 Que...

자세한 내용 보기

AWS가 선택한 RNG(Random Regular Graph)가 SDN보다 혁신적인 이유

최근 아마존웹서비스(AWS)가 데이터센터 네트워크를 완전히 재설계한 새로운 아키텍처, **RNG(Random Regular Graph)**를 공개하면서 네트워크 엔지니어와 클라우드 업계의 이목을 집중시키고 있습니다. AWS의 발표에 따르면 RNG 도입을 통해 네트워크 장비 수를 최대 69% 줄이면서도 데이터 전송 속도는 33% 향상시키고, 전력 소비는 약 40% 절감 하는 놀라운 성과를 거두었다고 합니다. 이 소식을 접한 많은 엔지니어들은 "트래픽을 유연하게 분산하고 경로를 동적으로 제어한다는 점에서 SDN(Software-Defined Networking)과 무엇이 다른가?"라는 의문을 제기합니다. 결론부터 말하자면, **SDN이 네트워크를 효율적으로 제어하는 '운영 및 제어 두뇌'라면, RNG는 도로망 자체를 혁신하는 '물리적·논리적 패브릭 토폴로지 설계'**입니다. 왜 AWS가 선택한 RNG가 일반적인 SDN 도입보다 더 깊은 인프라 혁신이자 큰 의미를 갖는지 비교 분석해 보겠습니다. 1. 한 줄로 요약하는 핵심 차이 SDN (Software-Defined Networking): 제어 구조 및 운영 모델 (Control Plane과 Data Plane의 분리) RNG (Random Regular Graph): 물리·논리 네트워크 구조 자체와 이에 최적화된 라우팅 방식 (Flat / Quasi-random 패브릭 설계) 💡 교통망 비유 SDN 은 실시간 차량 흐름에 따라 신호등을 바꾸고 우회 도로를 안내하는 **'도시 교통 관제 시스템'**입니다. RNG 는 차량이 정체되지 않도록 도로망 자체를 완벽하게 재설계하고(계층 구조에서 격자/무작위 연결망으로), 이에 최적화된 내비게이션 알고리즘을 제공하는 **'기반 도로망 설계'**입니다. 2. 왜 RNG와 SDN이 비슷하게 느껴질까? RNG의 핵심 동작 방식을 보면 SDN과 유사한 지점들이 존재합니...

자세한 내용 보기

우주로 향하는 인공지능: 궤도 컴퓨팅(Orbital Computing)과 우주 AI 데이터 센터의 미래 트렌드

우주로 향하는 인공지능: 궤도 컴퓨팅(Orbital Computing)과 우주 AI 데이터 센터의 미래 트렌드 최근 몇 년간 인공지능(AI) 기술의 폭발적인 성장과 함께 거대 언어 모델(LLM) 및 딥러닝 인프라의 전력 소비와 탄소 배출 문제가 지구적인 화두로 떠올랐습니다. 지상의 데이터 센터는 전력 공급 부족과 냉각 시스템 한계라는 물리적 장벽에 부딪히고 있습니다. 이러한 상황에서 글로벌 빅테크 기업과 우주 스타트업들은 지구를 넘어 새로운 해결책을 모색하고 있습니다. 바로 우주 공간에 인공지능 연산 시스템을 구축하는 **'궤도 컴퓨팅(Orbital Computing)'**과 **'우주 AI 데이터 센터(Space AI Data Center)'**입니다. 2026년 구글 트렌드와 업계 동향을 바탕으로, AI와 우주 기술의 융합이 만들어내는 혁신과 그 뒤에 숨겨진 기술적 도전 과제를 깊이 있게 살펴보겠습니다. 1. 궤도 컴퓨팅(Orbital Computing)과 에지 AI 위성이란? 과거의 인공위성은 우주에서 원시 데이터(이미지, 센서 값 등)를 수집하여 지상국(Ground Station)으로 전송하는 단순한 수집기 역할에 그쳤습니다. 그러나 전송해야 할 데이터의 양이 기하급수적으로 늘어나면서 지상국과의 대역폭 제한과 전송 지연(Latency)이 큰 걸림돌이 되었습니다. 궤도 컴퓨팅 은 위성 자체에 고성능 AI 반도체를 탑재하여 우주에서 즉각적으로 데이터를 분석하고 처리하는 '에지 AI(Edge AI)' 기술입니다. 실시간 데이터 처리: 위성 카메라가 캡처한 이미지에서 산불, 홍수, 혹은 국방 위협 요소를 지상으로 전송하기 전에 AI가 실시간으로 분석 및 감지합니다. 대역폭 절감: 쓸모없는 노이즈 데이터를 버리고 핵심적인 '인사이트 정보'만 압축하여 지상으로 전송함으로써 위성 통신 대역폭을 획기적으로 절약합니다. 여기에 핵심 통신 인프라로 자리 잡은 것이 바로 **스타링크의 레이...

자세한 내용 보기

Slack에 AI 비서를 여러 개 붙여보니 보인 것들 (OpenClaw, Manus, Antigravity, Codex 1차 사용 후기)

Slack에 AI 비서를 여러 개 붙여보니 보인 것들 OpenClaw, Manus, Antigravity, Codex 1차 사용 후기 최근 OpenClaw, Manus, Antigravity, Codex를 각각 Slack에 연결해서 실제 업무 비서처럼 사용할 수 있는지 테스트하고 있다. 처음에는 단순히 “어떤 AI가 더 똑똑한가?”를 비교하려고 했다. 그런데 직접 Slack에 붙여서 써보니 생각보다 비교 포인트가 달랐다. 모델 성능만 중요한 게 아니었다. 실제로는 다음 네 가지가 훨씬 중요했다. 첫째, Slack 안에서 얼마나 자연스럽게 대화하는가. 둘째, 외부 서비스나 내 작업 환경과 얼마나 잘 연결되는가. 셋째, 토큰이나 크레딧 비용이 감당 가능한가. 넷째, 먹통이 되지 않고 안정적으로 계속 운영 가능한가. 결론부터 말하면, 아직 “이거 하나면 끝”이라고 할 만한 도구는 없었다. 각각 장단점이 분명했고, 오히려 역할을 나눠서 섞어 쓰는 쪽이 현실적이라는 느낌이 강했다. Manus: 대화감은 좋지만 비용이 무섭다 가장 사람과 대화하는 느낌에 가까웠던 것은 Manus였다. Slack에서 말을 걸면 꽤 자연스럽게 반응했고, 짧은 메시지를 여러 번 보내면서 대화하듯 진행하는 방식도 나쁘지 않았다. 오히려 너무 자주 쪼개서 메시지를 보내다 보니 Slack 알림이 조금 귀찮을 정도였다. 하지만 문제는 비용이었다. Manus는 PC 설치형 도구가 아니다. 그래서 내 PC 안의 파일을 직접 만지거나 로컬 작업을 수행하는 데에는 한계가 있었다. 뭔가 PC와 연결하는 방법이 있는 것 같기는 했지만, 일단은 GitHub를 연결해서 AI들끼리 작업 내용을 볼 수 있도록 구성했다. 문제는 Slack 안에서 어떤 지시를 했을 때였다. Manus가 관련 정보를 찾기 위해 Slack 메시지를 계속 훑어보는 듯했고, 그 과정에서 크레딧이 빠르게 소모됐다. 실제로 한 번의 작업 지시에서 1,000 크레딧 이상을 사용하고도 “Slack에서 관련 정보를 못 찾았다”는 식...

자세한 내용 보기

Slack에 AI 비서를 여러 개 붙여보니 보인 것들 (OpenClaw, Manus, Antigravity, Codex 1차 사용 후기)

자세한 내용 보기