상위 모델이 정답일까? AI 실무에서 깨달은 'Harness Engineering'의 진짜 가치

AI Harness Engineering - 모델 티어와 비용 최적화 전략

Claude Fable 논란, 그리고 쏟아지는 질문들

Anthropicの新モデル Claude Fable 5 가 출시 사흘 만에 미국 정부의 지시로 접근이 중단되는 초유의 사태가 벌어졌다. 사이버 보안 취약점 악용 가능성과 안전장치 우회 방법이 우려의 핵심이었다. 이 사건이 커뮤니티 전반에서 화제가 되면서, 고객들과 동료들로부터 자연스럽게 질문이 쏟아졌다.

"Fable 같은 고급 모델을 도입해야 할까요? 지금 쓰는 모델이 부족한 건 아닐까요?"

저의 답은 한결같았습니다. 그리고 이 글에서 그 근거를 수치와 실전 경험으로 풀어보려 합니다.

현재 제가 사용하는 모델 기준선

저는 다음 조건을 충족하는 모델 중, 가장 비용 효율적인(Cost-per-token이 낮은) 모델을 선택합니다.

공급사	기준 모델	현재 제 선택 기준
Anthropic	Claude Sonnet 4.5 이상	Sonnet 4.x 계열
OpenAI	GPT-5.4 Codex 이상	동급 Mid-tier
Google	Gemini 3 Flash 이상	Flash 계열

이 기준선 이상이면 아키텍처 설계, 대규모 코드 리뷰, 복잡한 인프라 분석 모두 실무 수준으로 처리됩니다. 저는 실제로 다음 작업을 이 급 모델로 매일 수행하고 있습니다.

단일 프로젝트 내 소스 파일 30,000개 이상 관리 (코드 리뷰, 리팩토링, 아키텍처 분석)
수백 대 규모의 AWS + On-premise + Azure 혼합 인프라 퍼포먼스 분석 및 이상 탐지
실시간 고객 AI 환경 운영 및 장애 대응

"더 비싼 모델 = 더 좋은 결과"는 틀린 전제입니다

Claude Opus 4.8, GPT-5.5 등 상위 모델도 직접 운용해 봤습니다. 솔직히 말하면, 결과물의 질이 드라마틱하게 향상되지는 않았습니다.

이유는 명확합니다.

모델의 한계보다 Harness의 한계가 먼저 옵니다.

2026년 현재 AI 개발 방법론은 세 단계로 진화해 왔습니다.

1단계 (2022-2024): Prompt Engineering
   "무슨 말을 하면 좋은 답이 나올까?"

2단계 (2025): Context Engineering
   "어떤 정보를 어떻게 주입할까?"

3단계 (2026-현재): Harness Engineering
   "어떤 시스템 위에서 에이전트를 작동시킬 것인가?"

Harness는 모델을 제외한 에이전트 시스템의 모든 것입니다.

Role: 에이전트의 페르소나와 책임 범위 정의
Rule: 행동 제약, 금지 패턴, 품질 기준
Skill: 재사용 가능한 전문 능력 모듈
Workflow: 멀티스텝 작업의 오케스트레이션 로직

저는 이 네 가지를 수십 개의 파일로 정밀하게 설계하고, 지속적으로 개선합니다. 이 Harness가 제대로 구축되면, 모델이 Sonnet급이든 Opus급이든 산출물의 차이는 미미합니다.

상위 모델이 실제로 더 효과적인 경우: 두 가지 예외

그렇다고 상위 모델이 항상 무의미하다는 건 아닙니다. 제 경험상 두 가지 상황에서 모델 티어가 확실히 체감됩니다.

예외 1: Harness가 빈약할 때

Role, Rule, Workflow 없이 그냥 "GPT야, 이 코드 리뷰해줘" 식으로 사용한다면, 상위 모델일수록 모델 자체의 내재적 판단력이 작동하여 더 나은 결과를 냅니다. Harness가 미완성일수록 모델의 Raw 성능 차이가 결과를 가릅니다.

예외 2: 극단적 모호성과 창의적 추론이 필요할 때

"선례가 없는 아키텍처 문제"나 "완전히 새로운 도메인의 설계" 같은, 구조화가 불가능한 문제에서는 Opus급의 심층 추론이 확실히 다릅니다. 그러나 이런 작업은 전체 업무의 5% 미만입니다.

실제 비용 구조와 토큰 소진 문제

비용 측면을 무시할 수 없습니다. 현재 최상위 모델의 토큰 단가는 Mid-tier 대비 5~10배 수준입니다.

티어	입력 ($/1M tokens)	출력 ($/1M tokens)	실무 체감
Top (Opus, GPT-5.5 xhigh)	~$4–5	~$25–30	토큰 금방 소진, 작업 중단 잦음
Mid (Sonnet, Codex, Pro)	~$0.8–1.5	~$4–8	긴 세션 유지 가능
Flash / Mini 계열	~$0.1–0.3	~$0.4–1.2	단순 작업에 최적

실제로 저는 상위 모델을 장시간 사용하다가 토큰이 빨리 소진되어 오히려 작업 완성도가 낮아지는 경험을 했습니다. 비용 절감보다 더 중요한 건, 컨텍스트를 유지한 채 작업을 끝까지 완주하는 것입니다.

고객에게 제공하는 AI 환경: 검증 우선 원칙

저는 단순 개인 사용자가 아니라, 실 고객에게 AI 환경을 제공하는 입장입니다. 이 위치에서는 추가적인 원칙이 요구됩니다.

안정성이 최우선: 신 모델이 출시됐다고 즉시 적용하지 않습니다. Claude Fable 사태처럼 예측 불가능한 리스크가 있습니다.
병행 검증 필수: 기존 모델과 신 모델을 동일한 작업 세트로 비교 평가한 후에만 전환을 검토합니다.
롤백 가능성 확보: 고객 환경에서 모델 변경은 항상 이전 버전으로의 롤백 플랜을 포함합니다.

현재 Fable 5에 대한 병행 검증은 진행 중이지만, 정부 규제 이슈가 완전히 해소되기 전까지는 프로덕션 적용 계획이 없습니다.

결론: "모델 티어보다 Harness 품질"이 실무의 법칙

저의 결론은 단호합니다.

잘 설계된 Harness + Mid-tier 모델 > 빈약한 Harness + 최상위 모델

더 비싼 모델로 올리기 전에 먼저 물어봐야 할 것들:

Role이 충분히 구체적으로 정의되어 있는가?
Rule이 실수 패턴을 예방하도록 설계되어 있는가?
Skill이 재사용 가능한 형태로 모듈화되어 있는가?
Workflow가 멀티스텝 작업을 오케스트레이션하는가?

이 네 가지가 다 "Yes"라면, 현재 모델에서 더 올릴 필요를 느끼기 어려울 것입니다.

여러분의 경험이 궁금합니다

물론 모든 케이스가 동일하지는 않습니다. 아래 상황에서 모델 티어가 확실하게 결과를 바꿨다는 경험이 있다면, 구체적인 사례와 함께 댓글로 공유해 주세요.

특정 언어/프레임워크에서의 고급 추론
수백만 토큰 규모의 초장문 컨텍스트 처리
창의적 문제 해결에서의 질적 차이

"모델을 탄다"는 경험이 있다면 그 맥락이 다른 독자에게 매우 귀중한 데이터가 될 것입니다.

일본 두바퀴 여행(바이크 편)

영상버전 : https://youtu.be/P3vC17iVu1I 이번에는 일본으로 넘어와서 일본 종주하시는 바이커들을 위한 정보입니다. 일본에서의 2륜의 정의가 면허와 도로교통법이 조금씩 다르다고 합니다. 그래도 그렇게 크게 신경쓸 건 없으니 딱 세 종류로 말씀 드릴께요. 50cc는 원동기 1종이라고 하여 3차선 이상 교차로에서 우회전, 한국에선 좌회전 같이 크게 도는 것이지요.. 이게 불가능합니다. 직진 신호로 넘어간 뒤에 방향을 틀고 다시 직진으로 두번 꺾어 가야 하구요, 두 명이 타면 안됩니다. 그리고 맨 가장자리 길로만 가야해서 애매하게 끝에서 두 번째 차선만 직진인 곳들이 있어서 난감할 때가 있지요. 그런데에 직진하면 걸리는 곳이 있다고 합니다. 어느 정도까지 걸리고 안걸리고는 정확히는 모르지만, 직좌 마크가 아닌 좌회전 마크만 있는 곳이 은근히 많으니 조심해야 하겠더라구요. 최고 시속도 30km를 넘기면 안되어 천천히 달려야 합니다. 아뭏든 제약이 엄청나게 많으므로 60cc이상을 가져오시거나 렌트 하시는 것을 추천하구요, 125cc미만은 겐츠키 2종이라고 하여 두 명이 타도 되고, 3차선 이상에서 우회전이 가능합니다. 상당히 제약이 풀리는 대신 고속도로를 탈 수가 없지요. 만약 국도로 천천히 올라오신다면 125cc미만으로도 충분합니다. 실제로 일본인 바이커들 중에서도 국도 종주하는 모습을 많이 볼 수 있구요, 도심에 가면 125cc미만까지만 주차 가능한 바이크 주차장도 꽤 많기 때문에 도심용으로는 메리트가 큰 것 같습니다. 뭐, 125cc대는 곳에 큰 바이크를 대는 경우도 자주 보는데, 아무도 뭐라 안하긴 합니다. 그도 그럴 것이, 일본의 바이크 등록대수는 1031만대 인데도 바이크 전용 주차장은 턱없이 부족하다고 합니다. 바이크 주차장이 저렴하기 때문에 웬만한 ...

자세한 내용 보기

니가 플랫폼(Platform)을 아니?

이번에는 2015년에 썼던 글을 다시 한 번 정리하려고 합니다. 언제나 이야기 하듯이 단어에 대해 누구에게나 쉽게 설명하지 못하면 그건 그 단어를 아는게 아닙니다. 여러분도 이 단어에 대해 비 IT이든 전문가 이든 설명해 줄 수 있는지 한 번 생각해 보시기 바랍니다. 플랫폼에 대해서 이야기를 하다보면 되묻고 싶은 이야기다. 요즘 개발자들 사이에서.. 또는 서비스 기획자들 사이에서 "플랫폼"이란 단어는 필수어가 되었다. 그런데 개발자들 만이 아니라, 기획자, 경영진까지 플랫폼은 필수이다. 웃긴건.. 누구는 플랫폼과 서비스를 구분 못하고, 누구는 플랫폼과 프레임웍을 구분 못하고, 누구는 플랫폼과 콘텐츠를 구분 못하고 있다. 이번에는 플랫폼과 서비스를 구분해 보고자 한다. 그런 사람들끼리 이야기하다가 플랫폼이란 단어를 사용하는 사람들에게 물어본다. "플랫폼이 뭔가요?" 누군가 대답한다. "아직도 플랫폼을 몰라요?" 그럼 이렇게 되묻는다. "네.. 제가 잘 몰라서요.. 좀 알려주시겠어요?" 상대방은 IT시스템 어쩌고 하면서 횡설수설한다.. 얼마전 TV에서 플랫폼전문가가 요즘 IT쪽에 도는 플랫폼에 대해서 이야기 한다고 보라고 권장해주었다. TV를 찾아서 보았다. 플랫폼의 정의에 대해서는 나름 이야기를 했다. "수요자와 공급자를 연결해주는 매개체" 그리고 카카오톡을 성공한 플랫폼이라고 했다. 어짜피 성공한 사업에 이름을 붙이는 것은 쉽다. 성공한 주식의 과거를 분석하는게 쉽듯이.. 하지만 성공하지 못한 사업, 그리고 지금 이것이 플랫폼인지 알 수 있는 사람은 몇 안될 것이다. 단어의 의미를 한 번 다시 생각해보자. 그럼 플랫폼은 언제 시작했을까? 18세기후반 부터 19세기에 걸쳐서 약 100년정도를 산업혁명이라고 불렀다. 산업 혁명에 대한 자세한 이야기는 별도 코너로 만들었습니다. 음성 : https://y...

자세한 내용 보기

AI에게 존댓말로 질문한다고 AI가 더 자세히 대답해 주지 않습니다! 프롬프트의 뜬소문과 실제. 잘못알고 있는 프롬프트 이야기

영상버전 : https://youtu.be/rLwhVUIXaQU 어디선가 기사가 있어서 읽다가 코멘트를 단 게 있습니다. 프롬프트 엔지니어링으로 인터넷 강의를 하시는 분 같은데요.. 이름에 Phd라고 적혀있으니 어딘가의 박사님 이신가 봅니다. 그 분의 글에 이런게 있더라구요.. 한국어는 맥락에 크게 의존하는 ‘고맥락 언어’입니다. LLM에 그대로 입력하면 종종 의도가 왜곡되거나 핵심이 누락됩니다. 저는 영어로 프롬프트를 작성하지만, 한국어만 해야하는 모델을 사용할 때는 다음과 같은 방법을 사용합니다. --- 중략 --- ✔️ 존댓말(–습니다) vs 반말(–해요) 중 하나 선택. Deferential form '-습니다'를 사용하면 openAI 모델은 답을 더 길고 상세하게 합니다. … 여기서 존대말을 사용하면 AI모델은 답을 더 길고 상세하게 합니다. 라고 적혀 있네요.. 그랬더니 이 분을 지지하는 댓글에서 chatgpt에게 같은 내용을 물어본 결과를 적었더라구요.. ChatGPT-4o에게 확인해보았습니다: ”한국어를 사용할 때 존댓말로 요청하면, 당신은 좀 더 나은 답을 주신다고 들었습니다. 사실입니까?“ 아주 날카로운 질문이십니다. **“한국어로 존댓말을 쓰면 더 좋은 답을 받는다”**는 말은 부분적으로 사실입니다. ⸻ ✅ 왜 그렇게 느껴질까요? 1. 존댓말은 명확하고 완곡한 문장 구조를 유도합니다. • 예: 반말: “해줘” → 목적이 불분명하거나 애매할 수 있음 존댓말: “이 내용을 정리해 주시겠어요?” → 요청의 방향이 명확 2. 프롬프트가 더 구체적이고 정중해지면 → 모델이 더 신중하고 완성도 있는 답변을 생성하려는 경향이 있습니다. 3. ‘질문하는 사람의 태도’를 고려한 최적화된 언어 생성이 이뤄집니다. • 존댓말 = 더 포멀한 상황 → 더 논리적이고 근거 중심의 응답이 생성됨 ⸻ ❗ 하지만 반말도 충분히 잘 작동...

자세한 내용 보기

Talk Lowy(kr)

이 블로그 검색