[AI 꿀팁] Gemini 3.5 Flash vs 3.1 Pro, 내 토큰이 순식간에 녹아내린 이유와 똑똑한 모델 선택 가이드

Gemini 3.5 Flash vs 3.1 Pro Token Guide

[AI 꿀팁] Gemini 3.5 Flash vs 3.1 Pro, 내 토큰이 순식간에 녹아내린 이유와 똑똑한 모델 선택 가이드

안녕하세요! 최근 구글의 차세대 AI 라인업인 Gemini 3.5 Flash와 Gemini 3.1 Pro를 사용해 보시면서 "어? 왜 이렇게 토큰(비용)이 순식간에 사라지지?" 하고 당황하셨던 분들 많으실 겁니다.

질문 몇 개 안 한 것 같은데 토큰 제한이 걸리거나 비용이 청구되는 눈물 나는 상황... 도대체 왜 이런 일이 발생하는지, 그리고 내 지갑을 지키면서 AI 효율을 극대화하는 모델 및 옵션 선택 기준을 총정리해 드립니다!

1. 내 토큰은 어디로 사라졌을까? 범인은 'Thinking 모드'

구글 Gemini 3.x 라인업의 가장 강력한 무기는 바로 '내장형 고도화 추론(Thinking) 기능'입니다. AI가 정답을 내기 전에 내부적으로 깊게 고민하는 단계를 거치는 것인데요.

여기서 반전이 있습니다. AI가 내부적으로 머리를 굴리며 쓴 혼잣말(추론 토큰)이 모두 '출력(Output) 토큰 사용량'에 포함되어 계산된다는 점입니다!

Thinking (High) 모드의 무서움: 사용자가 질문을 한 줄만 던졌어도, AI는 완벽한 정답을 내기 위해 백그라운드에서 스스로 에이전트 루프를 돌리며 수만 토큰을 써버립니다. 겉보기엔 짧은 답변이라도 실제로는 엄청난 토큰이 소모되는 주범이죠.
늘어난 출력 창: Gemini 3.5 Flash는 한 번에 뿜어낼 수 있는 출력 한도가 65,536 토큰으로 대폭 늘어났습니다. 모델이 글을 길게 쓰거나 깊게 생각하기 시작하면 한 번의 대화로도 토큰이 텅텅 비게 됩니다.

2. Gemini 모델별 'Thinking 레벨'에 따른 토큰 소모량 비교

모든 모델의 최대 입력은 100만 토큰, 최대 출력은 65,536 토큰으로 동일하지만, Thinking 설정에 따라 내부 토큰 배분이 완전히 달라집니다.

비율과 체급이 서로 다른 세 가지 설정(3.5 Flash - Medium, 3.1 Pro - Low, 기존 3 Flash - High)의 토큰 사용량을 명확하게 비교해 드릴게요.

기존 Gemini 3 Flash 시절의 High 설정과 신형 모델들의 설정이 결합되면 토큰 소모 방식에서 아주 흥미로운 차이가 발생합니다.

한눈에 보는 3파전 토큰 소모량 비교

이 세 조합은 "기본 단가(몸값)"와 "생각하는 데 쓰는 비용(추론 토큰)"의 조합이 제각각 다릅니다. 질문 하나를 던졌을 때 발생하는 평균적인 출력 토큰 소모량과 특징은 다음과 같습니다.

모델 및 설정 조합	API 기본 단가 (1M 토큰당)	평균 내부 추론(Thinking) 토큰 소모량	특징
Gemini 3 Flash (High) (구형 + 풀가동)	가장 저렴함 (입력 $0.50 / 출력 $3.00)	약 5,000 ~ 12,000개 (체급 한계로 생각의 양이 적음)	몸값은 가장 싸지만, 3 Flash 체급 치고는 생각을 많이 해서 기존 기본 모드보다 토큰을 더 먹음.
Gemini 3.5 Flash (Medium) (신형 + 균형)	중간 (3 Flash의 3배) (입력 $1.50 / 출력 $9.00)	약 5,000 ~ 15,000개	단가는 비싸졌지만 생각을 '적당히' 제어하기 때문에, 3.5 Flash 라인업 중 가장 밸런스가 좋음.
Gemini 3.1 Pro (Low) (헤비급 + 최소가동)	가장 비쌈 (입력 $2.00 / 출력 $12.00)	약 1,000 ~ 3,000개 (생각 프로세스를 거의 끔)	단가는 가장 비싸지만 '혼잣말(추론)'로 낭비하는 토큰이 거의 없어 출력 창 대부분을 진짜 답변으로 채움.

📌 핵심 규칙: [내부 추론 토큰] + [실제 답변 토큰] = 총 출력 토큰 사용량. 즉, 생각을 많이 시킬수록 정작 내가 받아볼 수 있는 실제 답변 글자 수 제한이 깎이게 됩니다.

3. 실제 시나리오별 토큰 소모 특징

동일한 분량의 최종 답변(예: 2,000 토큰짜리 결과물)을 받아본다고 가정했을 때, 세 모델이 토큰을 집어먹는 메커니즘은 완전히 다릅니다.

① Gemini 3 Flash (High) : "경차에 고성능 튜닝을 한 느낌"

기존 3 Flash는 모델의 크기(Parameter) 자체가 작습니다. 때문에 High 모드로 머리를 쥐어짜 내게 하더라도, 대형 모델들처럼 3만~4만 토큰씩 깊은 고차원 추론을 하지는 못합니다.

토큰 소모: 3 Flash 기준으로는 평소보다 머리를 많이 써서 수천~1만 토큰 정도를 추론에 쓰지만, 대형 모델에 비하면 양반입니다.
결과: 단가 자체가 워낙 저렴해서 비용 압박은 이 세 조합 중 가장 적습니다. 다만, 지능의 한계로 복잡한 에이전트 업무는 무리가 있습니다.

② Gemini 3.5 Flash (Medium) : "세련된 준중형차의 정속 주행"

구글이 3.5 Flash를 출시하며 기본값으로 제안한 세팅입니다.

토큰 소모: 모델의 기본 추론 능력이 3.0 버전보다 워낙 뛰어나기 때문에, Medium으로 생각을 적당히 제한해도 3 Flash (High)보다 더 똑똑한 답을 냅니다. 내부 추론 토큰도 1만 개 안팎으로 적절히 방어해 줍니다.
결과: 단가가 기존보다 3배 올랐기 때문에 3 Flash(High)보다는 비용이 더 나오지만, '소모되는 토큰 양의 예측 가능성'과 '정답률'을 고려하면 가장 효율적인 황금 분할 지점입니다.

③ Gemini 3.1 Pro (Low) : "대형 세단으로 골목길 살살 기어가기"

초고대형 모델인 Pro의 뇌 가동률을 최하(Low)로 낮춘 세팅입니다.

토큰 소모: 복잡한 추론 단계를 완전히 건너뛰기 때문에 내부적으로 낭비되는 '추론 토큰'이 거의 없습니다(1~3천 개 수준). 내가 질문한 내용에 대해 아는 지식을 곧바로 뿜어냅니다.
결과: 추론 토큰은 거의 안 쓰지만 모델 자체의 1M 토큰당 단가(출력 $12)가 가장 높기 때문에, 답변 글자 수가 길어지면 결국 3.5 Flash(Medium)보다 요금이 더 많이 나옵니다. 대신 대형 모델 특유의 정교한 문장력과 방대한 지식을 고스란히 얻을 수 있습니다.

💡 결론: 토큰 효율 최종 가이드

비용(지갑 사정)이 최우선이고 라이트한 작업이다: ➔ 단가가 압도적으로 싼 Gemini 3 Flash (High)가 가장 유리합니다.
적당한 비용으로 높은 지능과 에이전트 능력을 쓰고 싶다: ➔ 현재 가장 정답률 대비 토큰 효율이 좋은 Gemini 3.5 Flash (Medium)를 고르세요.
코딩 디버깅이나 논리 추론은 필요 없고, 방대한 전문 지식을 바탕으로 끊김 없이 긴 글(출력 창 극대화)을 뽑아내야 한다: ➔ 추론 토큰을 최소화한 Gemini 3.1 Pro (Low)가 가장 똑똑한 선택입니다.

#AI #Gemini3.5Flash #Gemini3.1Pro #구글제미나이 #LLM #AI꿀팁 #토큰절약

일본 두바퀴 여행(바이크 편)

영상버전 : https://youtu.be/P3vC17iVu1I 이번에는 일본으로 넘어와서 일본 종주하시는 바이커들을 위한 정보입니다. 일본에서의 2륜의 정의가 면허와 도로교통법이 조금씩 다르다고 합니다. 그래도 그렇게 크게 신경쓸 건 없으니 딱 세 종류로 말씀 드릴께요. 50cc는 원동기 1종이라고 하여 3차선 이상 교차로에서 우회전, 한국에선 좌회전 같이 크게 도는 것이지요.. 이게 불가능합니다. 직진 신호로 넘어간 뒤에 방향을 틀고 다시 직진으로 두번 꺾어 가야 하구요, 두 명이 타면 안됩니다. 그리고 맨 가장자리 길로만 가야해서 애매하게 끝에서 두 번째 차선만 직진인 곳들이 있어서 난감할 때가 있지요. 그런데에 직진하면 걸리는 곳이 있다고 합니다. 어느 정도까지 걸리고 안걸리고는 정확히는 모르지만, 직좌 마크가 아닌 좌회전 마크만 있는 곳이 은근히 많으니 조심해야 하겠더라구요. 최고 시속도 30km를 넘기면 안되어 천천히 달려야 합니다. 아뭏든 제약이 엄청나게 많으므로 60cc이상을 가져오시거나 렌트 하시는 것을 추천하구요, 125cc미만은 겐츠키 2종이라고 하여 두 명이 타도 되고, 3차선 이상에서 우회전이 가능합니다. 상당히 제약이 풀리는 대신 고속도로를 탈 수가 없지요. 만약 국도로 천천히 올라오신다면 125cc미만으로도 충분합니다. 실제로 일본인 바이커들 중에서도 국도 종주하는 모습을 많이 볼 수 있구요, 도심에 가면 125cc미만까지만 주차 가능한 바이크 주차장도 꽤 많기 때문에 도심용으로는 메리트가 큰 것 같습니다. 뭐, 125cc대는 곳에 큰 바이크를 대는 경우도 자주 보는데, 아무도 뭐라 안하긴 합니다. 그도 그럴 것이, 일본의 바이크 등록대수는 1031만대 인데도 바이크 전용 주차장은 턱없이 부족하다고 합니다. 바이크 주차장이 저렴하기 때문에 웬만한 ...

자세한 내용 보기

니가 플랫폼(Platform)을 아니?

이번에는 2015년에 썼던 글을 다시 한 번 정리하려고 합니다. 언제나 이야기 하듯이 단어에 대해 누구에게나 쉽게 설명하지 못하면 그건 그 단어를 아는게 아닙니다. 여러분도 이 단어에 대해 비 IT이든 전문가 이든 설명해 줄 수 있는지 한 번 생각해 보시기 바랍니다. 플랫폼에 대해서 이야기를 하다보면 되묻고 싶은 이야기다. 요즘 개발자들 사이에서.. 또는 서비스 기획자들 사이에서 "플랫폼"이란 단어는 필수어가 되었다. 그런데 개발자들 만이 아니라, 기획자, 경영진까지 플랫폼은 필수이다. 웃긴건.. 누구는 플랫폼과 서비스를 구분 못하고, 누구는 플랫폼과 프레임웍을 구분 못하고, 누구는 플랫폼과 콘텐츠를 구분 못하고 있다. 이번에는 플랫폼과 서비스를 구분해 보고자 한다. 그런 사람들끼리 이야기하다가 플랫폼이란 단어를 사용하는 사람들에게 물어본다. "플랫폼이 뭔가요?" 누군가 대답한다. "아직도 플랫폼을 몰라요?" 그럼 이렇게 되묻는다. "네.. 제가 잘 몰라서요.. 좀 알려주시겠어요?" 상대방은 IT시스템 어쩌고 하면서 횡설수설한다.. 얼마전 TV에서 플랫폼전문가가 요즘 IT쪽에 도는 플랫폼에 대해서 이야기 한다고 보라고 권장해주었다. TV를 찾아서 보았다. 플랫폼의 정의에 대해서는 나름 이야기를 했다. "수요자와 공급자를 연결해주는 매개체" 그리고 카카오톡을 성공한 플랫폼이라고 했다. 어짜피 성공한 사업에 이름을 붙이는 것은 쉽다. 성공한 주식의 과거를 분석하는게 쉽듯이.. 하지만 성공하지 못한 사업, 그리고 지금 이것이 플랫폼인지 알 수 있는 사람은 몇 안될 것이다. 단어의 의미를 한 번 다시 생각해보자. 그럼 플랫폼은 언제 시작했을까? 18세기후반 부터 19세기에 걸쳐서 약 100년정도를 산업혁명이라고 불렀다. 산업 혁명에 대한 자세한 이야기는 별도 코너로 만들었습니다. 음성 : https://y...

자세한 내용 보기

AI에게 존댓말로 질문한다고 AI가 더 자세히 대답해 주지 않습니다! 프롬프트의 뜬소문과 실제. 잘못알고 있는 프롬프트 이야기

영상버전 : https://youtu.be/rLwhVUIXaQU 어디선가 기사가 있어서 읽다가 코멘트를 단 게 있습니다. 프롬프트 엔지니어링으로 인터넷 강의를 하시는 분 같은데요.. 이름에 Phd라고 적혀있으니 어딘가의 박사님 이신가 봅니다. 그 분의 글에 이런게 있더라구요.. 한국어는 맥락에 크게 의존하는 ‘고맥락 언어’입니다. LLM에 그대로 입력하면 종종 의도가 왜곡되거나 핵심이 누락됩니다. 저는 영어로 프롬프트를 작성하지만, 한국어만 해야하는 모델을 사용할 때는 다음과 같은 방법을 사용합니다. --- 중략 --- ✔️ 존댓말(–습니다) vs 반말(–해요) 중 하나 선택. Deferential form '-습니다'를 사용하면 openAI 모델은 답을 더 길고 상세하게 합니다. … 여기서 존대말을 사용하면 AI모델은 답을 더 길고 상세하게 합니다. 라고 적혀 있네요.. 그랬더니 이 분을 지지하는 댓글에서 chatgpt에게 같은 내용을 물어본 결과를 적었더라구요.. ChatGPT-4o에게 확인해보았습니다: ”한국어를 사용할 때 존댓말로 요청하면, 당신은 좀 더 나은 답을 주신다고 들었습니다. 사실입니까?“ 아주 날카로운 질문이십니다. **“한국어로 존댓말을 쓰면 더 좋은 답을 받는다”**는 말은 부분적으로 사실입니다. ⸻ ✅ 왜 그렇게 느껴질까요? 1. 존댓말은 명확하고 완곡한 문장 구조를 유도합니다. • 예: 반말: “해줘” → 목적이 불분명하거나 애매할 수 있음 존댓말: “이 내용을 정리해 주시겠어요?” → 요청의 방향이 명확 2. 프롬프트가 더 구체적이고 정중해지면 → 모델이 더 신중하고 완성도 있는 답변을 생성하려는 경향이 있습니다. 3. ‘질문하는 사람의 태도’를 고려한 최적화된 언어 생성이 이뤄집니다. • 존댓말 = 더 포멀한 상황 → 더 논리적이고 근거 중심의 응답이 생성됨 ⸻ ❗ 하지만 반말도 충분히 잘 작동...

자세한 내용 보기

Talk Lowy(kr)

이 블로그 검색