Talk Lowy(kr)

상위 모델이 정답일까? AI 실무에서 깨달은 'Harness Engineering'의 진짜 가치

Claude Fable 논란, 그리고 쏟아지는 질문들 Anthropicの新モデル Claude Fable 5 가 출시 사흘 만에 미국 정부의 지시로 접근이 중단되는 초유의 사태가 벌어졌다. 사이버 보안 취약점 악용 가능성과 안전장치 우회 방법이 우려의 핵심이었다. 이 사건이 커뮤니티 전반에서 화제가 되면서, 고객들과 동료들로부터 자연스럽게 질문이 쏟아졌다. "Fable 같은 고급 모델을 도입해야 할까요? 지금 쓰는 모델이 부족한 건 아닐까요?" 저의 답은 한결같았습니다. 그리고 이 글에서 그 근거를 수치와 실전 경험으로 풀어보려 합니다. 현재 제가 사용하는 모델 기준선 저는 다음 조건을 충족하는 모델 중, 가장 비용 효율적인(Cost-per-token이 낮은) 모델을 선택 합니다. 공급사 기준 모델 현재 제 선택 기준 Anthropic Claude Sonnet 4.5 이상 Sonnet 4.x 계열 OpenAI GPT-5.4 Codex 이상 동급 Mid-tier Google Gemini 3 Flash 이상 Flash 계열 이 기준선 이상이면 아키텍처 설계, 대규모 코드 리뷰, 복잡한 인프라 분석 모두 실무 수준으로 처리됩니다. 저는 실제로 다음 작업을 이 급 모델로 매일 수행하고 있습니다. 단일 프로젝트 내 소스 파일 30,000개 이상 관리 (코드 리뷰, 리팩토링, 아키텍처 분석) 수백 대 규모의 AWS + On-premise + Azure 혼합 인프라 퍼포먼스 분석 및 이상 탐지 실시간 고객 AI 환경 운영 및 장애 대응 "더 비싼 모델 = 더 좋은 결과"는 틀린 전제입니다 Claude Opus 4.8, GPT-5.5 등 상위 모델도 직접 운용해 봤습니다. 솔직히 말하면, 결과물의 질이 드라마틱하게 향상되지는 않았습니다. 이유는 명확합니다. 모델의 한계보다 Harness의 한계가 먼저 옵니다. 2026년 현재 AI 개발 방법론은 세 단...

자세한 내용 보기