
Claude Fable 논란, 그리고 쏟아지는 질문들
Anthropicの新モデル Claude Fable 5 가 출시 사흘 만에 미국 정부의 지시로 접근이 중단되는 초유의 사태가 벌어졌다. 사이버 보안 취약점 악용 가능성과 안전장치 우회 방법이 우려의 핵심이었다. 이 사건이 커뮤니티 전반에서 화제가 되면서, 고객들과 동료들로부터 자연스럽게 질문이 쏟아졌다.
"Fable 같은 고급 모델을 도입해야 할까요? 지금 쓰는 모델이 부족한 건 아닐까요?"
저의 답은 한결같았습니다. 그리고 이 글에서 그 근거를 수치와 실전 경험으로 풀어보려 합니다.
현재 제가 사용하는 모델 기준선
저는 다음 조건을 충족하는 모델 중, 가장 비용 효율적인(Cost-per-token이 낮은) 모델을 선택합니다.
| 공급사 | 기준 모델 | 현재 제 선택 기준 |
|---|---|---|
| Anthropic | Claude Sonnet 4.5 이상 | Sonnet 4.x 계열 |
| OpenAI | GPT-5.4 Codex 이상 | 동급 Mid-tier |
| Gemini 3 Flash 이상 | Flash 계열 |
이 기준선 이상이면 아키텍처 설계, 대규모 코드 리뷰, 복잡한 인프라 분석 모두 실무 수준으로 처리됩니다. 저는 실제로 다음 작업을 이 급 모델로 매일 수행하고 있습니다.
- 단일 프로젝트 내 소스 파일 30,000개 이상 관리 (코드 리뷰, 리팩토링, 아키텍처 분석)
- 수백 대 규모의 AWS + On-premise + Azure 혼합 인프라 퍼포먼스 분석 및 이상 탐지
- 실시간 고객 AI 환경 운영 및 장애 대응
"더 비싼 모델 = 더 좋은 결과"는 틀린 전제입니다
Claude Opus 4.8, GPT-5.5 등 상위 모델도 직접 운용해 봤습니다. 솔직히 말하면, 결과물의 질이 드라마틱하게 향상되지는 않았습니다.
이유는 명확합니다.
모델의 한계보다 Harness의 한계가 먼저 옵니다.
2026년 현재 AI 개발 방법론은 세 단계로 진화해 왔습니다.
1단계 (2022-2024): Prompt Engineering
"무슨 말을 하면 좋은 답이 나올까?"
2단계 (2025): Context Engineering
"어떤 정보를 어떻게 주입할까?"
3단계 (2026-현재): Harness Engineering
"어떤 시스템 위에서 에이전트를 작동시킬 것인가?"
Harness는 모델을 제외한 에이전트 시스템의 모든 것입니다.
- Role: 에이전트의 페르소나와 책임 범위 정의
- Rule: 행동 제약, 금지 패턴, 품질 기준
- Skill: 재사용 가능한 전문 능력 모듈
- Workflow: 멀티스텝 작업의 오케스트레이션 로직
저는 이 네 가지를 수십 개의 파일로 정밀하게 설계하고, 지속적으로 개선합니다. 이 Harness가 제대로 구축되면, 모델이 Sonnet급이든 Opus급이든 산출물의 차이는 미미합니다.
상위 모델이 실제로 더 효과적인 경우: 두 가지 예외
그렇다고 상위 모델이 항상 무의미하다는 건 아닙니다. 제 경험상 두 가지 상황에서 모델 티어가 확실히 체감됩니다.
예외 1: Harness가 빈약할 때
Role, Rule, Workflow 없이 그냥 "GPT야, 이 코드 리뷰해줘" 식으로 사용한다면, 상위 모델일수록 모델 자체의 내재적 판단력이 작동하여 더 나은 결과를 냅니다. Harness가 미완성일수록 모델의 Raw 성능 차이가 결과를 가릅니다.
예외 2: 극단적 모호성과 창의적 추론이 필요할 때
"선례가 없는 아키텍처 문제"나 "완전히 새로운 도메인의 설계" 같은, 구조화가 불가능한 문제에서는 Opus급의 심층 추론이 확실히 다릅니다. 그러나 이런 작업은 전체 업무의 5% 미만입니다.
실제 비용 구조와 토큰 소진 문제
비용 측면을 무시할 수 없습니다. 현재 최상위 모델의 토큰 단가는 Mid-tier 대비 5~10배 수준입니다.
| 티어 | 입력 ($/1M tokens) | 출력 ($/1M tokens) | 실무 체감 |
|---|---|---|---|
| Top (Opus, GPT-5.5 xhigh) | ~$4–5 | ~$25–30 | 토큰 금방 소진, 작업 중단 잦음 |
| Mid (Sonnet, Codex, Pro) | ~$0.8–1.5 | ~$4–8 | 긴 세션 유지 가능 |
| Flash / Mini 계열 | ~$0.1–0.3 | ~$0.4–1.2 | 단순 작업에 최적 |
실제로 저는 상위 모델을 장시간 사용하다가 토큰이 빨리 소진되어 오히려 작업 완성도가 낮아지는 경험을 했습니다. 비용 절감보다 더 중요한 건, 컨텍스트를 유지한 채 작업을 끝까지 완주하는 것입니다.
고객에게 제공하는 AI 환경: 검증 우선 원칙
저는 단순 개인 사용자가 아니라, 실 고객에게 AI 환경을 제공하는 입장입니다. 이 위치에서는 추가적인 원칙이 요구됩니다.
- 안정성이 최우선: 신 모델이 출시됐다고 즉시 적용하지 않습니다. Claude Fable 사태처럼 예측 불가능한 리스크가 있습니다.
- 병행 검증 필수: 기존 모델과 신 모델을 동일한 작업 세트로 비교 평가한 후에만 전환을 검토합니다.
- 롤백 가능성 확보: 고객 환경에서 모델 변경은 항상 이전 버전으로의 롤백 플랜을 포함합니다.
현재 Fable 5에 대한 병행 검증은 진행 중이지만, 정부 규제 이슈가 완전히 해소되기 전까지는 프로덕션 적용 계획이 없습니다.
결론: "모델 티어보다 Harness 품질"이 실무의 법칙
저의 결론은 단호합니다.
잘 설계된 Harness + Mid-tier 모델 > 빈약한 Harness + 최상위 모델
더 비싼 모델로 올리기 전에 먼저 물어봐야 할 것들:
- Role이 충분히 구체적으로 정의되어 있는가?
- Rule이 실수 패턴을 예방하도록 설계되어 있는가?
- Skill이 재사용 가능한 형태로 모듈화되어 있는가?
- Workflow가 멀티스텝 작업을 오케스트레이션하는가?
이 네 가지가 다 "Yes"라면, 현재 모델에서 더 올릴 필요를 느끼기 어려울 것입니다.
여러분의 경험이 궁금합니다
물론 모든 케이스가 동일하지는 않습니다. 아래 상황에서 모델 티어가 확실하게 결과를 바꿨다는 경험이 있다면, 구체적인 사례와 함께 댓글로 공유해 주세요.
- 특정 언어/프레임워크에서의 고급 추론
- 수백만 토큰 규모의 초장문 컨텍스트 처리
- 창의적 문제 해결에서의 질적 차이
"모델을 탄다"는 경험이 있다면 그 맥락이 다른 독자에게 매우 귀중한 데이터가 될 것입니다.
댓글
댓글 쓰기