코드를 '쓰는' AI에서 '실행하는' 에이전트로: Google Antigravity와 Gemini 3.5 Flash가 여는 에이전트 개발 시대

Google Antigravity와 Gemini 3.5 Flash 에이전트 개발

2026년 7월 현재, 구글(Google)의 기술 트렌드를 관통하는 단 하나의 키워드를 꼽으라면 단연 **'에이전트(Agent)'**입니다. 지난 5월 Google I/O 2026에서 공개된 Gemini 3.5 Flash, 에이전트 우선 개발 플랫폼 Antigravity 2.0, 그리고 영상 기반 생성 모델 Gemini Omni까지 — 구글이 던진 메시지는 명확합니다. AI는 이제 코드를 '거들어 쓰는' 부조종사(Co-pilot)를 넘어, 스스로 작업을 '실행하는' 자율 에이전트로 이동하고 있습니다.

이번 글에서는 개발자와 기술 실무자의 관점에서, 구글이 최근 발표한 핵심 기술들이 실제 개발 워크플로우를 어떻게 바꾸고 있는지 근거와 함께 정리합니다.

1. Gemini 3.5 Flash: '싸고 빠른' 티어가 이전 플래그십을 넘어섰다

이번 발표에서 가장 상징적인 사건은 저가·고속 티어인 Gemini 3.5 Flash가 이전 플래그십 모델인 Gemini 3.1 Pro를 코딩·에이전트 벤치마크에서 앞질렀다는 점입니다. 구글은 이를 "행동하는 프런티어 지능(frontier intelligence with action)"이라고 표현했습니다.

공개된 벤치마크 수치는 다음과 같습니다.

Terminal-Bench 2.1: 76.2% — 터미널 환경에서의 실제 코딩 수행 능력
GDPval-AA: 1656 Elo — 실무형 에이전트 태스크 수행 능력
MCP Atlas: 83.6% — 도구 호출(tool-use) 및 MCP 연동 성능

핵심은 단순히 점수가 높다는 것이 아니라 **"다른 프런티어 모델 대비 약 4배 빠른 속도로, 절반 이하의 비용"**에 이 성능을 낸다는 점입니다. 에이전트는 하나의 작업을 완수하기 위해 수십~수백 번의 추론·도구 호출을 반복합니다. 따라서 '속도 × 비용'은 에이전트 워크플로우의 실용성을 결정하는 절대적 변수이며, 3.5 Flash는 바로 이 지점을 정조준했습니다.

실무 인사이트: 이제 "가장 똑똑한 모델"이 아니라 "충분히 똑똑하면서 반복 실행에 부담 없는 모델"이 에이전트 아키텍처의 기본값이 됩니다. 파일럿을 3.5 Flash로 먼저 검증한 뒤, 정말 어려운 구간에만 상위 모델(Gemini 3.5 Pro)을 호출하는 모델 라우팅 전략이 표준이 될 것입니다.

2. Google Antigravity 2.0: 에이전트 우선(Agent-First) 개발 플랫폼

구글은 아이디어를 프로덕션급 앱으로 바로 전환하는 **에이전트 우선 개발 플랫폼 'Antigravity'**를 2.0으로 대폭 확장했습니다. 기존 IDE 확장 수준을 넘어 세 갈래로 확장되었습니다.

데스크톱 앱(Antigravity 2.0): 독립 실행형 데스크톱 애플리케이션으로, 다중 에이전트 오케스트레이션(multi-agent orchestration)을 전면에 내세웠습니다.
CLI 도구: 터미널 기반 개발 흐름에 에이전트를 통합합니다.
SDK: 팀의 자체 워크플로우에 맞춰 커스텀 에이전트를 구현할 수 있습니다.

여기에 Google AI Studio는 네이티브 안드로이드 앱 개발을 지원하기 시작했습니다. "Build an Android app"을 선택하고 프롬프트를 입력하는 것만으로 앱을 빌드하고, 곧바로 Google Play에 게시하는 흐름까지 하나로 이어집니다. "쓰는 도구(help write)"에서 "행동하는 에이전트(help act)"로의 전환이 제품 레벨에서 구현된 셈입니다.

3. 에이전트를 뒷받침하는 인프라: Managed Agents · WebMCP · Chrome DevTools

에이전트가 실제로 '일'을 하려면 안전하게 실행하고 검증할 환경이 필요합니다. 구글은 이를 위한 하부 구조를 함께 공개했습니다.

Managed Agents (Gemini API): 원격 리눅스 환경에서 추론과 도구 실행을 수행합니다. 로컬 호스트를 직접 노출하지 않고 격리된 샌드박스에서 에이전트를 돌릴 수 있습니다.
WebMCP (제안 표준): 브라우저 기반 에이전트에 구조화된 도구를 노출하는 표준입니다. MCP(Model Context Protocol) 생태계가 웹으로 확장되는 신호입니다.
Chrome DevTools for agents: 에이전트의 동작을 개발자가 관찰·검증·디버깅할 수 있는 가시성을 제공합니다. 자율성이 높아질수록 **관찰 가능성(observability)**이 안전의 핵심이 됩니다.

이 조합은 하나의 방향을 가리킵니다. 에이전트는 '격리된 실행 환경 + 표준화된 도구 인터페이스 + 관찰 가능성'이라는 삼각 구조 위에서 신뢰를 얻는다는 것입니다.

4. Gemini Omni와 SynthID: 생성과 신뢰를 동시에

Gemini Omni는 "어떤 입력으로든 무엇이든 생성한다"는 목표로, 영상을 시작점 삼아 물리 법칙 이해와 멀티모달 편집 능력을 결합한 모델입니다. 생성 미디어의 품질이 실사와 구분하기 어려워질수록, 역설적으로 **'이것이 AI 생성물임을 증명하는 기술'**의 중요성이 커집니다.

구글의 답은 SynthID입니다. 이미지·영상·오디오에 사람 눈에는 보이지 않는 디지털 워터마크를 심고, 이를 검증하는 기능을 제공합니다. SynthID 검증은 이미 전 세계에서 5,000만 회 사용되었으며, 이제 검색(Search)과 크롬(Chrome)으로 확장되고 있습니다. 생성 능력의 확장과 신뢰·투명성 인프라를 같은 속도로 밀어붙이는 전략입니다.

5. 하드웨어: TPU 8t / 8i의 학습·추론 이원화

이 모든 소프트웨어 혁신의 밑단에는 실리콘이 있습니다. 구글은 학습과 추론에 각각 특화된 이원화 칩 전략을 채택했습니다.

TPU 8t: 대규모 사전학습(pretraining)에 최적화. 이전 세대 대비 약 3배의 순수 연산 성능.
TPU 8i: 추론(inference) 최적화. 대량의 에이전트 실행을 저비용으로 소화하는 역할.

에이전트 시대에는 '한 번 학습'보다 '끝없는 추론 실행'이 비용의 대부분을 차지합니다. 추론 전용 칩(8i)을 별도로 두는 선택은, 앞서 살펴본 Gemini 3.5 Flash의 '저비용 고속' 전략과 정확히 맞물립니다.

6. 개발자와 기술 비즈니스를 위한 정리

2026년 여름 구글의 발표를 관통하는 흐름을 실무 관점에서 요약하면 다음과 같습니다.

모델 선택 기준이 바뀐다: '가장 강력한 모델'이 아니라 '속도·비용 대비 충분한 모델'. 에이전트 루프에서는 반복 실행 효율이 곧 제품 경쟁력입니다.
개발의 단위가 '코드'에서 '에이전트'로: Antigravity·AI Studio는 개발자가 코드를 한 줄씩 쓰는 대신, 에이전트를 오케스트레이션하는 방향으로 도구를 재설계했습니다.
자율성에는 반드시 관찰 가능성이 따른다: Managed Agents의 격리 실행, Chrome DevTools의 에이전트 가시성, WebMCP 표준화는 "믿을 수 있는 자율"을 위한 안전장치입니다.
생성과 신뢰는 한 세트다: Gemini Omni의 생성력과 SynthID의 검증력은 분리되지 않습니다. AI 결과물을 다루는 서비스라면 출처·워터마크 검증을 이제 기본기로 삼아야 합니다.

결론

구글이 그리는 2026년의 개발 지형은 분명합니다. AI는 코드 편집기 안의 자동완성에서 벗어나, 격리된 환경에서 스스로 실행하고 검증받는 자율 에이전트로 이동하고 있습니다. Gemini 3.5 Flash가 '싸고 빠른 실행 엔진'을 제공하고, Antigravity가 '에이전트를 지휘하는 조종석'이 되며, SynthID가 '그 결과물의 신뢰'를 담보하는 구조입니다.

이 흐름 앞에서 개발자에게 던져지는 질문은 더 이상 "AI로 코드를 얼마나 빨리 쓸 수 있는가"가 아닙니다. "어떤 작업을 에이전트에게 위임하고, 그 자율성을 어떻게 관찰·통제할 것인가" — 이 설계 역량이 다음 시대의 경쟁력을 가를 것입니다.

참고 자료: Google I/O 2026 전체 발표 · Gemini 3.5: frontier intelligence with action · I/O 2026 developer highlights

일본 두바퀴 여행(바이크 편)

영상버전 : https://youtu.be/P3vC17iVu1I 이번에는 일본으로 넘어와서 일본 종주하시는 바이커들을 위한 정보입니다. 일본에서의 2륜의 정의가 면허와 도로교통법이 조금씩 다르다고 합니다. 그래도 그렇게 크게 신경쓸 건 없으니 딱 세 종류로 말씀 드릴께요. 50cc는 원동기 1종이라고 하여 3차선 이상 교차로에서 우회전, 한국에선 좌회전 같이 크게 도는 것이지요.. 이게 불가능합니다. 직진 신호로 넘어간 뒤에 방향을 틀고 다시 직진으로 두번 꺾어 가야 하구요, 두 명이 타면 안됩니다. 그리고 맨 가장자리 길로만 가야해서 애매하게 끝에서 두 번째 차선만 직진인 곳들이 있어서 난감할 때가 있지요. 그런데에 직진하면 걸리는 곳이 있다고 합니다. 어느 정도까지 걸리고 안걸리고는 정확히는 모르지만, 직좌 마크가 아닌 좌회전 마크만 있는 곳이 은근히 많으니 조심해야 하겠더라구요. 최고 시속도 30km를 넘기면 안되어 천천히 달려야 합니다. 아뭏든 제약이 엄청나게 많으므로 60cc이상을 가져오시거나 렌트 하시는 것을 추천하구요, 125cc미만은 겐츠키 2종이라고 하여 두 명이 타도 되고, 3차선 이상에서 우회전이 가능합니다. 상당히 제약이 풀리는 대신 고속도로를 탈 수가 없지요. 만약 국도로 천천히 올라오신다면 125cc미만으로도 충분합니다. 실제로 일본인 바이커들 중에서도 국도 종주하는 모습을 많이 볼 수 있구요, 도심에 가면 125cc미만까지만 주차 가능한 바이크 주차장도 꽤 많기 때문에 도심용으로는 메리트가 큰 것 같습니다. 뭐, 125cc대는 곳에 큰 바이크를 대는 경우도 자주 보는데, 아무도 뭐라 안하긴 합니다. 그도 그럴 것이, 일본의 바이크 등록대수는 1031만대 인데도 바이크 전용 주차장은 턱없이 부족하다고 합니다. 바이크 주차장이 저렴하기 때문에 웬만한 ...

자세한 내용 보기

니가 플랫폼(Platform)을 아니?

이번에는 2015년에 썼던 글을 다시 한 번 정리하려고 합니다. 언제나 이야기 하듯이 단어에 대해 누구에게나 쉽게 설명하지 못하면 그건 그 단어를 아는게 아닙니다. 여러분도 이 단어에 대해 비 IT이든 전문가 이든 설명해 줄 수 있는지 한 번 생각해 보시기 바랍니다. 플랫폼에 대해서 이야기를 하다보면 되묻고 싶은 이야기다. 요즘 개발자들 사이에서.. 또는 서비스 기획자들 사이에서 "플랫폼"이란 단어는 필수어가 되었다. 그런데 개발자들 만이 아니라, 기획자, 경영진까지 플랫폼은 필수이다. 웃긴건.. 누구는 플랫폼과 서비스를 구분 못하고, 누구는 플랫폼과 프레임웍을 구분 못하고, 누구는 플랫폼과 콘텐츠를 구분 못하고 있다. 이번에는 플랫폼과 서비스를 구분해 보고자 한다. 그런 사람들끼리 이야기하다가 플랫폼이란 단어를 사용하는 사람들에게 물어본다. "플랫폼이 뭔가요?" 누군가 대답한다. "아직도 플랫폼을 몰라요?" 그럼 이렇게 되묻는다. "네.. 제가 잘 몰라서요.. 좀 알려주시겠어요?" 상대방은 IT시스템 어쩌고 하면서 횡설수설한다.. 얼마전 TV에서 플랫폼전문가가 요즘 IT쪽에 도는 플랫폼에 대해서 이야기 한다고 보라고 권장해주었다. TV를 찾아서 보았다. 플랫폼의 정의에 대해서는 나름 이야기를 했다. "수요자와 공급자를 연결해주는 매개체" 그리고 카카오톡을 성공한 플랫폼이라고 했다. 어짜피 성공한 사업에 이름을 붙이는 것은 쉽다. 성공한 주식의 과거를 분석하는게 쉽듯이.. 하지만 성공하지 못한 사업, 그리고 지금 이것이 플랫폼인지 알 수 있는 사람은 몇 안될 것이다. 단어의 의미를 한 번 다시 생각해보자. 그럼 플랫폼은 언제 시작했을까? 18세기후반 부터 19세기에 걸쳐서 약 100년정도를 산업혁명이라고 불렀다. 산업 혁명에 대한 자세한 이야기는 별도 코너로 만들었습니다. 음성 : https://y...

자세한 내용 보기

AI에게 존댓말로 질문한다고 AI가 더 자세히 대답해 주지 않습니다! 프롬프트의 뜬소문과 실제. 잘못알고 있는 프롬프트 이야기

영상버전 : https://youtu.be/rLwhVUIXaQU 어디선가 기사가 있어서 읽다가 코멘트를 단 게 있습니다. 프롬프트 엔지니어링으로 인터넷 강의를 하시는 분 같은데요.. 이름에 Phd라고 적혀있으니 어딘가의 박사님 이신가 봅니다. 그 분의 글에 이런게 있더라구요.. 한국어는 맥락에 크게 의존하는 ‘고맥락 언어’입니다. LLM에 그대로 입력하면 종종 의도가 왜곡되거나 핵심이 누락됩니다. 저는 영어로 프롬프트를 작성하지만, 한국어만 해야하는 모델을 사용할 때는 다음과 같은 방법을 사용합니다. --- 중략 --- ✔️ 존댓말(–습니다) vs 반말(–해요) 중 하나 선택. Deferential form '-습니다'를 사용하면 openAI 모델은 답을 더 길고 상세하게 합니다. … 여기서 존대말을 사용하면 AI모델은 답을 더 길고 상세하게 합니다. 라고 적혀 있네요.. 그랬더니 이 분을 지지하는 댓글에서 chatgpt에게 같은 내용을 물어본 결과를 적었더라구요.. ChatGPT-4o에게 확인해보았습니다: ”한국어를 사용할 때 존댓말로 요청하면, 당신은 좀 더 나은 답을 주신다고 들었습니다. 사실입니까?“ 아주 날카로운 질문이십니다. **“한국어로 존댓말을 쓰면 더 좋은 답을 받는다”**는 말은 부분적으로 사실입니다. ⸻ ✅ 왜 그렇게 느껴질까요? 1. 존댓말은 명확하고 완곡한 문장 구조를 유도합니다. • 예: 반말: “해줘” → 목적이 불분명하거나 애매할 수 있음 존댓말: “이 내용을 정리해 주시겠어요?” → 요청의 방향이 명확 2. 프롬프트가 더 구체적이고 정중해지면 → 모델이 더 신중하고 완성도 있는 답변을 생성하려는 경향이 있습니다. 3. ‘질문하는 사람의 태도’를 고려한 최적화된 언어 생성이 이뤄집니다. • 존댓말 = 더 포멀한 상황 → 더 논리적이고 근거 중심의 응답이 생성됨 ⸻ ❗ 하지만 반말도 충분히 잘 작동...

자세한 내용 보기

Talk Lowy(kr)

이 블로그 검색