Slack에 AI 비서를 여러 개 붙여보니 보인 것들 (OpenClaw, Manus, Antigravity, Codex 1차 사용 후기)

Slack Multi Agents Collaborating

Slack에 AI 비서를 여러 개 붙여보니 보인 것들

OpenClaw, Manus, Antigravity, Codex 1차 사용 후기

최근 OpenClaw, Manus, Antigravity, Codex를 각각 Slack에 연결해서 실제 업무 비서처럼 사용할 수 있는지 테스트하고 있다.

처음에는 단순히 “어떤 AI가 더 똑똑한가?”를 비교하려고 했다. 그런데 직접 Slack에 붙여서 써보니 생각보다 비교 포인트가 달랐다. 모델 성능만 중요한 게 아니었다. 실제로는 다음 네 가지가 훨씬 중요했다.

첫째, Slack 안에서 얼마나 자연스럽게 대화하는가. 둘째, 외부 서비스나 내 작업 환경과 얼마나 잘 연결되는가. 셋째, 토큰이나 크레딧 비용이 감당 가능한가. 넷째, 먹통이 되지 않고 안정적으로 계속 운영 가능한가.

결론부터 말하면, 아직 “이거 하나면 끝”이라고 할 만한 도구는 없었다. 각각 장단점이 분명했고, 오히려 역할을 나눠서 섞어 쓰는 쪽이 현실적이라는 느낌이 강했다.

Manus: 대화감은 좋지만 비용이 무섭다

가장 사람과 대화하는 느낌에 가까웠던 것은 Manus였다.

Slack에서 말을 걸면 꽤 자연스럽게 반응했고, 짧은 메시지를 여러 번 보내면서 대화하듯 진행하는 방식도 나쁘지 않았다. 오히려 너무 자주 쪼개서 메시지를 보내다 보니 Slack 알림이 조금 귀찮을 정도였다.

하지만 문제는 비용이었다.

Manus는 PC 설치형 도구가 아니다. 그래서 내 PC 안의 파일을 직접 만지거나 로컬 작업을 수행하는 데에는 한계가 있었다. 뭔가 PC와 연결하는 방법이 있는 것 같기는 했지만, 일단은 GitHub를 연결해서 AI들끼리 작업 내용을 볼 수 있도록 구성했다.

문제는 Slack 안에서 어떤 지시를 했을 때였다. Manus가 관련 정보를 찾기 위해 Slack 메시지를 계속 훑어보는 듯했고, 그 과정에서 크레딧이 빠르게 소모됐다. 실제로 한 번의 작업 지시에서 1,000 크레딧 이상을 사용하고도 “Slack에서 관련 정보를 못 찾았다”는 식으로 멈추는 상황이 있었다.

4000 크레딧에 20달러라고 보면, 성공할지도 모르는 작업 한 번에 거의 5달러 가까이 소모될 수 있다는 뜻이다.

이건 업무 비서로 상시 운영하기에는 부담이 크다. 대화감은 좋지만, 비용 예측이 안 되면 실무 자동화 도구로 쓰기 어렵다.

그래서 현재 기준으로 Manus는 일단 배제하는 쪽으로 판단했다.

Codex: Google 연동이 편해서 메인 비서 후보

Codex는 의외로 업무 비서 관점에서 꽤 괜찮았다.

특히 Google MCP 연결이 쉬웠다. Calendar와 Gmail을 연결하면 일정을 확인하거나 메일을 체크하는 흐름이 자연스럽게 이어진다. Slack에서 “내 일정 확인해줘”, “메일 확인해줘” 같은 지시를 했을 때 업무 비서에 가까운 형태로 사용할 수 있다.

개발 도구로만 생각했던 Codex가 오히려 Google Workspace와 연결되면서 개인 비서 역할에 가까워지는 느낌이었다.

다만 아쉬운 점도 있었다.

로컬 PC와 연결해서 Codex App 형태로 쓰려고 하니 Mac 제한이 걸렸다. 나는 Mac을 메인으로 쓰지 않기 때문에 이 부분은 꽤 불편했다. Windows 환경에서 자연스럽게 붙일 수 있으면 훨씬 활용도가 높아질 텐데, 현재는 그 부분이 제약으로 느껴진다.

그럼에도 불구하고, Google 연동이 편하다는 점 하나만으로도 Codex는 메인 비서 후보로 남겨둘 만하다.

지금 기준으로는 “Slack 기반 업무 비서” 역할은 Codex가 가장 현실적이다.

OpenClaw: 똑똑하진 않지만, 의외로 쓰기 나쁘지 않다

OpenClaw는 솔직히 말하면 여전히 똑똑하다는 느낌은 약하다.

응답 품질만 보면 Manus나 Antigravity보다 떨어지는 부분이 있다. 가끔은 권한이 없다고 하거나, 필요한 모듈을 로드하는 데 메모리를 많이 쓰는 등 운영 측면에서 불편한 점도 있었다.

그런데 이상하게도 완전히 버리기에는 애매하다.

OpenClaw는 자기와 나눴던 대화를 찾아서 정리해주는 능력이 있다. 이게 생각보다 실무에서 중요하다. AI 비서를 Slack에 붙여놓고 쓰다 보면, 단순히 한 번의 질문에 답하는 것보다 “과거 맥락을 기억하고 다시 꺼내오는 능력”이 더 중요해진다.

물론 현재 사용 중인 모델이 gpt-5.3-codex라고 해도, Codex의 Slack 연결보다 효율이 확실히 좋다고 보기는 어렵다. 그래서 OpenClaw는 일단 정지해볼까 고민 중이다.

다만 OpenClaw의 방향성 자체는 나쁘지 않다. 조금 덜 똑똑하더라도, 대화 이력을 잘 정리하고 로컬 환경과 붙일 수 있다면 “개인 작업실 비서” 같은 역할은 가능해 보인다.

Antigravity: 코드 수정과 복잡한 워크플로우에 적합

Antigravity는 OpenClaw보다 조금 더 똑똑한 느낌이 있다.

특히 코드 수정이나 복잡한 작업을 맡길 때는 꽤 쓸 만하다. 단순한 질의응답보다는, 여러 단계로 이어지는 작업이나 스케줄된 워크플로우를 맡기는 쪽이 더 잘 맞아 보인다.

그래서 Antigravity는 “상시 대화형 비서”라기보다는 “작업 실행 담당자”에 가깝게 보는 것이 맞을 것 같다.

다만 안정성은 아직 아쉽다.

사용하다 보면 어딘가의 풀링이 꼬이는지 응답이 멈추는 경우가 있었다. 현재는 답변이 없으면 그냥 재기동해서 다시 처리시키는 방식으로 쓰고 있다. 설정 문제일 수도 있지만, 어쨌든 장시간 안정적으로 붙여두기에는 아직 불안한 부분이 있다.

그래도 복잡한 코드 수정이나 워크플로우 자동화 측면에서는 계속 유지할 가치가 있다.

AI끼리 서로 대화하게 하는 것은 생각보다 쉽지 않다

재미있는 실험도 해봤다.

Slack 채널 안에 여러 AI를 넣고 서로 대화하게 시켜본 것이다. 예상으로는 AI들이 서로 의견을 주고받고, 한쪽이 작업하면 다른 쪽이 검토하는 구조가 될 줄 알았다.

그런데 실제로는 잠잠했다.

아마도 각 도구마다 봇 멘션, 채널 메시지 감지, 이벤트 트리거, 권한 설정 방식이 다르기 때문일 것이다. 단순히 같은 채널에 넣는다고 해서 AI들이 자동으로 협업하지는 않는다.

결국 멀티 AI 협업을 하려면 다음 구조가 필요해 보인다.

하나는 지시를 받는 메인 비서, 하나는 코드를 수정하는 실행자, 하나는 결과를 검토하는 리뷰어, 하나는 Slack이나 GitHub의 변경 내역을 정리하는 기록 담당자.

즉, AI를 여러 개 붙이는 것보다 중요한 것은 역할 분담과 라우팅이다.

현재 기준 역할 분담

지금까지의 1차 사용감으로 정리하면 다음과 같다.

Manus는 대화감은 좋지만 토큰 비용을 감당하기 어렵다. 그래서 일단 배제한다.

Codex는 Google 연동이 편하고, Calendar와 Gmail을 확인하는 업무 비서 역할에 적합하다. 현재 기준으로는 메인 비서 후보에 가장 가깝다.

Antigravity는 코드 수정, 복잡한 작업, 스케줄된 워크플로우에 적합하다. 다만 먹통 문제는 계속 확인이 필요하다.

OpenClaw는 똑똑하다는 느낌은 약하지만, 대화 이력을 찾아 정리하는 점은 좋다. 다만 현재는 Codex 대비 효율이 애매해서 일시 정지를 검토 중이다.

결론: 하나의 AI가 아니라, 역할별 AI 조합이 필요하다

이번 테스트를 통해 느낀 것은 명확하다.

AI 비서를 Slack에 붙이는 것은 가능하다. 하지만 아직은 하나의 AI가 모든 역할을 완벽하게 처리하는 단계는 아니다.

대화가 자연스러운 AI가 있고, Google 연동이 좋은 AI가 있고, 코드 수정에 강한 AI가 있고, 과거 대화 정리에 강한 AI가 있다.

문제는 이들을 어떻게 섞어서 쓸 것인가다.

앞으로의 핵심은 “어떤 AI가 제일 좋은가?”가 아니라 “어떤 AI에게 어떤 역할을 맡길 것인가?”가 될 가능성이 높다.

특히 흥미로운 점은, 이렇게 멀티 에이전트(Multi-agent) 환경을 직접 구성하고 경험해봐야만 비로소 '나에게 딱 맞는 에이전트'가 무엇인지 제대로 파악하고 고를 수 있다는 사실이다. 단 하나의 AI만 쓸 때는 그 도구의 답변 품질이나 사소한 버그가 AI 자체의 성능 한계로만 느껴져 무엇을 선택해야 할지 갈팡질팡하게 된다. 하지만 여러 에이전트를 동시에 띄워놓고 서로 비교해가며 일을 시켜보면, 각 도구의 고유한 성향과 진짜 강점(Google 연동, 이력 기억, 코드 작성 등)이 입체적으로 드러난다. 결국 나만의 최적 비서 라인업을 완성하려면 멀티 에이전트 구성을 거치는 것이 필수적이다.

내가 생각하는 현실적인 구성은 이렇다.

Codex를 메인 업무 비서로 두고, Antigravity를 코드 수정과 복잡한 워크플로우 실행 담당으로 둔다. OpenClaw는 대화 이력 정리나 로컬 작업 보조 용도로 가능성을 더 본다. Manus는 대화감은 좋지만, 비용 구조가 안정되기 전까지는 상시 운영 대상에서 제외한다.

AI 비서의 시대가 온 것은 맞다. 하지만 지금 필요한 것은 더 똑똑한 AI 하나가 아니다.

필요한 것은 여러 AI를 실제 업무 흐름 안에서 어떻게 배치하고, 어떻게 비용을 통제하고, 어떻게 안정적으로 운영할 것인가에 대한 설계다.

결국 AI 비서 운영도 인프라 운영과 비슷하다. 성능만 보면 안 된다. 비용, 권한, 안정성, 장애 대응, 로그, 재시도 구조까지 함께 봐야 한다.

AI를 Slack에 붙이는 순간, 그것은 단순한 챗봇이 아니라 하나의 운영 시스템이 된다.

Tip: 내 에이전트를 더 똑똑하게 만드는 방법

만약 사용하는 에이전트를 보다 똑똑하게 만들고 싶다면, 다양한 오픈소스 스킬을 통합해 둔 레포지토리를 에이전트에게 직접 학습시키는 것을 추천한다. 에이전트에게 그저 다음과 같이 한 줄만 적어주면 된다.

아래 URL에서 네게 필요한 기능이 있으면 넣어서 통합해줘. https://github.com/LowyShin/giip-dev-agent

AI에게 존댓말로 질문한다고 AI가 더 자세히 대답해 주지 않습니다! 프롬프트의 뜬소문과 실제. 잘못알고 있는 프롬프트 이야기

영상버전 : https://youtu.be/rLwhVUIXaQU 어디선가 기사가 있어서 읽다가 코멘트를 단 게 있습니다. 프롬프트 엔지니어링으로 인터넷 강의를 하시는 분 같은데요.. 이름에 Phd라고 적혀있으니 어딘가의 박사님 이신가 봅니다. 그 분의 글에 이런게 있더라구요.. 한국어는 맥락에 크게 의존하는 ‘고맥락 언어’입니다. LLM에 그대로 입력하면 종종 의도가 왜곡되거나 핵심이 누락됩니다. 저는 영어로 프롬프트를 작성하지만, 한국어만 해야하는 모델을 사용할 때는 다음과 같은 방법을 사용합니다. --- 중략 --- ✔️ 존댓말(–습니다) vs 반말(–해요) 중 하나 선택. Deferential form '-습니다'를 사용하면 openAI 모델은 답을 더 길고 상세하게 합니다. … 여기서 존대말을 사용하면 AI모델은 답을 더 길고 상세하게 합니다. 라고 적혀 있네요.. 그랬더니 이 분을 지지하는 댓글에서 chatgpt에게 같은 내용을 물어본 결과를 적었더라구요.. ChatGPT-4o에게 확인해보았습니다: ”한국어를 사용할 때 존댓말로 요청하면, 당신은 좀 더 나은 답을 주신다고 들었습니다. 사실입니까?“ 아주 날카로운 질문이십니다. **“한국어로 존댓말을 쓰면 더 좋은 답을 받는다”**는 말은 부분적으로 사실입니다. ⸻ ✅ 왜 그렇게 느껴질까요? 1. 존댓말은 명확하고 완곡한 문장 구조를 유도합니다. • 예: 반말: “해줘” → 목적이 불분명하거나 애매할 수 있음 존댓말: “이 내용을 정리해 주시겠어요?” → 요청의 방향이 명확 2. 프롬프트가 더 구체적이고 정중해지면 → 모델이 더 신중하고 완성도 있는 답변을 생성하려는 경향이 있습니다. 3. ‘질문하는 사람의 태도’를 고려한 최적화된 언어 생성이 이뤄집니다. • 존댓말 = 더 포멀한 상황 → 더 논리적이고 근거 중심의 응답이 생성됨 ⸻ ❗ 하지만 반말도 충분히 잘 작동...

자세한 내용 보기

Talk Lowy(kr)

이 블로그 검색