SkillOpt vs Agent Lightning: AI 에이전트 최적화, 당신의 선택은?

!SkillOpt vs Agent Lightning 비교

2026년 5월, 마이크로소프트 리서치(Microsoft Research)는 AI 에이전트 개발 커뮤니티에 두 개의 강력한 카드를 내놓았습니다. SkillOpt와 Agent Lightning. 두 프레임워크 모두 AI 에이전트의 성능을 높이는 것이 목표이지만, 그 접근 방식은 완전히 다릅니다.

많은 개발자들이 묻습니다. "이 두 가지 중 뭘 써야 하죠?" 이 글은 그 질문에 명확하게 답하기 위해 작성되었습니다. 기술적 배경부터 실전 선택 기준까지, 한 번에 정리해 드립니다.

---

🧠 핵심 철학의 차이: 무엇을 최적화하는가?

두 프레임워크의 차이는 "무엇을 최적화 대상으로 삼는가"에서 출발합니다.

SkillOpt: 에이전트가 읽는 텍스트 지침(스킬 문서) 을 최적화합니다.

Agent Lightning: 에이전트의 행동 패턴과 의사결정 과정 자체를 최적화합니다.

이 차이를 이해하면 선택이 명확해집니다.

---

📄 SkillOpt: "지침을 진화시키는 프레임워크"

작동 원리

SkillOpt는 에이전트가 참조하는 `skills.md` 파일(마크다운 형식의 자연어 지침)을 훈련 가능한 파라미터처럼 취급합니다. 모델의 가중치(weight)는 전혀 건드리지 않습니다.

핵심 동작 흐름은 다음과 같습니다:

1. 롤아웃(Rollout): 현재 스킬 문서로 에이전트가 작업을 수행합니다. 2. 반성(Reflection): 성공/실패 데이터를 분석하여 스킬 문서의 개선점을 제안합니다. 3. 검증 게이트(Validation Gate): 제안된 수정이 실제로 성능을 향상시킬 때만 반영합니다. 4. 반복: 이 과정을 반복하며 스킬 문서가 점진적으로 진화합니다.

실측 성능

마이크로소프트 리서치 논문에 따르면, SkillOpt는 6개 벤치마크, 7개 모델, 3개 실행 환경(Direct Chat, Codex, Claude Code) 에서 모두 최고 또는 공동 최고 성능을 기록했습니다.

GPT-5.5 기준 정확도 향상:

Direct Chat: +23.5 포인트

Codex Agentic Loop: +24.8 포인트

Claude Code: +19.1 포인트

비교 대상이었던 TextGrad, GEPA, EvoSkill, 사람이 직접 작성한 스킬 문서 모두를 압도했습니다.

SkillOpt의 강점

✅ 모델 가중치 불변: GPT, Claude 등 어떤 모델에도 적용 가능 ✅ 추론 비용 제로: 최적화된 스킬 파일은 정적 파일이므로 배포 시 추가 비용 없음 ✅ 이식성: 최적화된 스킬이 다른 모델/환경으로 전이 가능 ✅ 해석 가능성: 결과물이 사람이 읽을 수 있는 마크다운 문서

🔗 공식 리소스

GitHub: https://github.com/microsoft/SkillOpt

프로젝트 페이지: https://microsoft.github.io/SkillOpt/

논문 (arXiv): arXiv:2605.23904

언제 SkillOpt를 선택해야 하나?

클로즈드 소스 모델(GPT-4o, Claude 등) 사용 시 파인튜닝이 불가능한 경우

특정 도메인의 절차나 지식 기반의 작업을 수행하는 에이전트

결과물을 사람이 검토하고 승인해야 하는 규제 환경

빠르게 시도하고 싶은 경우 (인프라 구축 최소화)

코딩 에이전트, 데이터 분석 에이전트 등 명확한 절차가 있는 태스크

---

⚡ Agent Lightning: "에이전트를 근본적으로 훈련시키는 프레임워크"

작동 원리

Agent Lightning은 AI 에이전트 개발의 가장 큰 문제 중 하나인 "에이전트 실행 코드와 훈련 인프라의 강한 결합(tight coupling)" 을 해결합니다.

두 가지 핵심 컴포넌트로 구성됩니다:

Lightning Server: 훈련 알고리즘(RL, SFT, APO)을 관리하는 서버

Lightning Client: 기존 에이전트 코드에 삽입되는 클라이언트 미들웨어

이 아키텍처를 통해 에이전트의 실행 과정을 마르코프 결정 과정(MDP, Markov Decision Process) 으로 모델링하여, 에이전트의 각 행동(action)을 강화학습으로 최적화합니다.

Agent Lightning의 강점

✅ 코드 변경 최소화: 기존 LangChain, AutoGen, CrewAI 등에 거의 변경 없이 통합 ✅ 다양한 학습 알고리즘: RL, SFT(지도 파인튜닝), APO(자동 프롬프트 최적화) 지원 ✅ 복잡한 추론 최적화: 다단계 의사결정 능력을 근본적으로 향상 ✅ 프레임워크 독립성: LangChain, AutoGen, CrewAI 등과 호환

🔗 공식 리소스

GitHub: https://github.com/microsoft/agent-lightning

언제 Agent Lightning을 선택해야 하나?

GPU 클러스터 등 훈련 인프라를 보유한 팀

에이전트가 복잡한 추론과 시행착오가 많은 다단계 작업을 수행하는 경우

오픈소스 모델을 사용하여 직접 파인튜닝이 가능한 환경

기존 에이전트 시스템에 학습 루프를 추가하려는 경우

고도의 자동화가 필요한 프로덕션 에이전트 시스템

---

📊 한눈에 보는 비교표

🤔 함께 사용할 수 있을까?

네, 오히려 함께 사용하는 것이 최선일 수 있습니다.

많은 전문가들은 이 두 가지를 보완적으로 사용합니다:

1. Agent Lightning으로 에이전트의 학습 아키텍처와 의사결정 루프를 구축 2. SkillOpt로 에이전트가 참조하는 도메인 지식 문서와 절차 지침을 지속적으로 정제

이는 마치 사람이 "생각하는 방식(Agent Lightning)"과 "참고하는 매뉴얼(SkillOpt)" 모두를 동시에 개선하는 것과 같습니다.

---

🎯 최종 선택 가이드

SkillOpt를 선택하세요, 만약:

> "나는 특정 작업 절차를 AI에게 가르치고 싶고, 모델을 바꾸지 않으면서 점진적으로 더 나은 지침을 만들고 싶다. 결과를 사람이 읽을 수 있어야 한다."

Agent Lightning을 선택하세요, 만약:

> "나는 에이전트가 복잡한 문제를 스스로 해결하는 능력을 근본적으로 강화하고 싶고, 강화학습을 통해 행동 자체를 진화시킬 수 있는 인프라가 있다."

---

마치며

SkillOpt와 Agent Lightning은 AI 에이전트 성능 향상의 두 가지 서로 다른 철학을 대표합니다. 전자는 "더 나은 지침서", 후자는 "더 나은 학습 방법" 을 추구합니다.

어느 것이 더 좋다고 단정하기보다는, 여러분의 팀이 처한 상황, 사용 가능한 인프라, 에이전트가 수행하는 태스크의 성격에 맞게 선택하는 것이 핵심입니다.

2026년 현재, AI 에이전트 개발은 "만들기"에서 "최적화하기"로 패러다임이 전환되고 있습니다. 이 두 프레임워크는 그 전환의 최전선에 있습니다.

---

*참고: 이 글은 Microsoft Research의 공식 논문 및 발표 자료를 바탕으로 작성되었습니다. 두 프레임워크 모두 활발히 개발 중이므로 최신 공식 문서를 함께 참고하시기 바랍니다.*

일본 두바퀴 여행(바이크 편)

영상버전 : https://youtu.be/P3vC17iVu1I 이번에는 일본으로 넘어와서 일본 종주하시는 바이커들을 위한 정보입니다. 일본에서의 2륜의 정의가 면허와 도로교통법이 조금씩 다르다고 합니다. 그래도 그렇게 크게 신경쓸 건 없으니 딱 세 종류로 말씀 드릴께요. 50cc는 원동기 1종이라고 하여 3차선 이상 교차로에서 우회전, 한국에선 좌회전 같이 크게 도는 것이지요.. 이게 불가능합니다. 직진 신호로 넘어간 뒤에 방향을 틀고 다시 직진으로 두번 꺾어 가야 하구요, 두 명이 타면 안됩니다. 그리고 맨 가장자리 길로만 가야해서 애매하게 끝에서 두 번째 차선만 직진인 곳들이 있어서 난감할 때가 있지요. 그런데에 직진하면 걸리는 곳이 있다고 합니다. 어느 정도까지 걸리고 안걸리고는 정확히는 모르지만, 직좌 마크가 아닌 좌회전 마크만 있는 곳이 은근히 많으니 조심해야 하겠더라구요. 최고 시속도 30km를 넘기면 안되어 천천히 달려야 합니다. 아뭏든 제약이 엄청나게 많으므로 60cc이상을 가져오시거나 렌트 하시는 것을 추천하구요, 125cc미만은 겐츠키 2종이라고 하여 두 명이 타도 되고, 3차선 이상에서 우회전이 가능합니다. 상당히 제약이 풀리는 대신 고속도로를 탈 수가 없지요. 만약 국도로 천천히 올라오신다면 125cc미만으로도 충분합니다. 실제로 일본인 바이커들 중에서도 국도 종주하는 모습을 많이 볼 수 있구요, 도심에 가면 125cc미만까지만 주차 가능한 바이크 주차장도 꽤 많기 때문에 도심용으로는 메리트가 큰 것 같습니다. 뭐, 125cc대는 곳에 큰 바이크를 대는 경우도 자주 보는데, 아무도 뭐라 안하긴 합니다. 그도 그럴 것이, 일본의 바이크 등록대수는 1031만대 인데도 바이크 전용 주차장은 턱없이 부족하다고 합니다. 바이크 주차장이 저렴하기 때문에 웬만한 ...

자세한 내용 보기

니가 플랫폼(Platform)을 아니?

이번에는 2015년에 썼던 글을 다시 한 번 정리하려고 합니다. 언제나 이야기 하듯이 단어에 대해 누구에게나 쉽게 설명하지 못하면 그건 그 단어를 아는게 아닙니다. 여러분도 이 단어에 대해 비 IT이든 전문가 이든 설명해 줄 수 있는지 한 번 생각해 보시기 바랍니다. 플랫폼에 대해서 이야기를 하다보면 되묻고 싶은 이야기다. 요즘 개발자들 사이에서.. 또는 서비스 기획자들 사이에서 "플랫폼"이란 단어는 필수어가 되었다. 그런데 개발자들 만이 아니라, 기획자, 경영진까지 플랫폼은 필수이다. 웃긴건.. 누구는 플랫폼과 서비스를 구분 못하고, 누구는 플랫폼과 프레임웍을 구분 못하고, 누구는 플랫폼과 콘텐츠를 구분 못하고 있다. 이번에는 플랫폼과 서비스를 구분해 보고자 한다. 그런 사람들끼리 이야기하다가 플랫폼이란 단어를 사용하는 사람들에게 물어본다. "플랫폼이 뭔가요?" 누군가 대답한다. "아직도 플랫폼을 몰라요?" 그럼 이렇게 되묻는다. "네.. 제가 잘 몰라서요.. 좀 알려주시겠어요?" 상대방은 IT시스템 어쩌고 하면서 횡설수설한다.. 얼마전 TV에서 플랫폼전문가가 요즘 IT쪽에 도는 플랫폼에 대해서 이야기 한다고 보라고 권장해주었다. TV를 찾아서 보았다. 플랫폼의 정의에 대해서는 나름 이야기를 했다. "수요자와 공급자를 연결해주는 매개체" 그리고 카카오톡을 성공한 플랫폼이라고 했다. 어짜피 성공한 사업에 이름을 붙이는 것은 쉽다. 성공한 주식의 과거를 분석하는게 쉽듯이.. 하지만 성공하지 못한 사업, 그리고 지금 이것이 플랫폼인지 알 수 있는 사람은 몇 안될 것이다. 단어의 의미를 한 번 다시 생각해보자. 그럼 플랫폼은 언제 시작했을까? 18세기후반 부터 19세기에 걸쳐서 약 100년정도를 산업혁명이라고 불렀다. 산업 혁명에 대한 자세한 이야기는 별도 코너로 만들었습니다. 음성 : https://y...

자세한 내용 보기

AI에게 존댓말로 질문한다고 AI가 더 자세히 대답해 주지 않습니다! 프롬프트의 뜬소문과 실제. 잘못알고 있는 프롬프트 이야기

영상버전 : https://youtu.be/rLwhVUIXaQU 어디선가 기사가 있어서 읽다가 코멘트를 단 게 있습니다. 프롬프트 엔지니어링으로 인터넷 강의를 하시는 분 같은데요.. 이름에 Phd라고 적혀있으니 어딘가의 박사님 이신가 봅니다. 그 분의 글에 이런게 있더라구요.. 한국어는 맥락에 크게 의존하는 ‘고맥락 언어’입니다. LLM에 그대로 입력하면 종종 의도가 왜곡되거나 핵심이 누락됩니다. 저는 영어로 프롬프트를 작성하지만, 한국어만 해야하는 모델을 사용할 때는 다음과 같은 방법을 사용합니다. --- 중략 --- ✔️ 존댓말(–습니다) vs 반말(–해요) 중 하나 선택. Deferential form '-습니다'를 사용하면 openAI 모델은 답을 더 길고 상세하게 합니다. … 여기서 존대말을 사용하면 AI모델은 답을 더 길고 상세하게 합니다. 라고 적혀 있네요.. 그랬더니 이 분을 지지하는 댓글에서 chatgpt에게 같은 내용을 물어본 결과를 적었더라구요.. ChatGPT-4o에게 확인해보았습니다: ”한국어를 사용할 때 존댓말로 요청하면, 당신은 좀 더 나은 답을 주신다고 들었습니다. 사실입니까?“ 아주 날카로운 질문이십니다. **“한국어로 존댓말을 쓰면 더 좋은 답을 받는다”**는 말은 부분적으로 사실입니다. ⸻ ✅ 왜 그렇게 느껴질까요? 1. 존댓말은 명확하고 완곡한 문장 구조를 유도합니다. • 예: 반말: “해줘” → 목적이 불분명하거나 애매할 수 있음 존댓말: “이 내용을 정리해 주시겠어요?” → 요청의 방향이 명확 2. 프롬프트가 더 구체적이고 정중해지면 → 모델이 더 신중하고 완성도 있는 답변을 생성하려는 경향이 있습니다. 3. ‘질문하는 사람의 태도’를 고려한 최적화된 언어 생성이 이뤄집니다. • 존댓말 = 더 포멀한 상황 → 더 논리적이고 근거 중심의 응답이 생성됨 ⸻ ❗ 하지만 반말도 충분히 잘 작동...

자세한 내용 보기

Talk Lowy(kr)

이 블로그 검색