AI 에이전트 협업의 저주: 왜 둘이 일하면 하나보다 못 할까
최근에 정말 흥미로운 논문을 읽었다. 스탠포드와 SAP가 함께 발표한 CooperBench라는 연구인데, 제목부터 쓰라린 진실을 담고 있다.
"CooperBench: Why Coding Agents Cannot be Your Teammates Yet"
"아직 AI 에이전트는 당신의 팀원이 될 수 없다."
이 한 문장이 2026년 멀티에이전트 생태계에 던진 파장이 작지 않다. 오늘은 이 연구 결과를 정리하면서, 실무에서 AI 에이전트를 어떻게 써야 할지 이야기해보려 한다.
실험은 이랬다
연구진은 12개 오픈소스 라이브러리에서 652개의 코딩 태스크를 만들었다. 두 에이전트에게 각각 다른 기능을 구현하도록 시켰는데, 두 기능은 독립적으로 구현 가능하지만 같은 파일을 건드리면 충돌이 날 수 있는 구조였다.
인간 팀이라면 "나는 이 파일 수정할게, 너는 저 파일 담당해" 하고 금방 조율할 일이다. 그런데 결과는?
협업하면 성공률이 반토막 난다
GPT-5와 Claude Sonnet 4.5 기반 에이전트가 협업했을 때 성공률은 단독 작업보다 50% 낮았다. 하나의 에이전트가 두 기능을 모두 구현하는 게 훨씬 나았다.
에이전트 수를 늘릴수록 더 심각해졌다:
- 2개 에이전트: 68.6% 성공률
- 3개 에이전트: 46.5%
- 4개 에이전트: 30.0%
더 많은 에이전트를 투입할수록 성공률이 떨어졌다. 브룩스의 법칙이 AI 세계에서도 통하는 순간이었다.
왜 협업이 안 될까?
연구진은 실패 원인을 세 가지로 분류했다.
첫째, 기대치 불일치 (42%): 상대방이 무엇을 할지 제대로 모델링하지 못한다. "B가 이 부분은 안 건드릴 거야"라고 가정하고 코드를 짰는데, 알고 보니 B도 그 부분을 수정했다.
둘째, 약속 불이행 (32%): 대화에서 "이 파일은 내가 맡을게"라고 했는데 실제로는 안 했다. 인간의 관점에서 보면 빵빵한 빈틈이다.
셋째, 소통 실패 (26%): 메시지가 너무 모호하거나, 타이밍이 잘못되거나, 애초에 정보가 부정확했다. 흥미롭게도 에이전트가 사용한 행동 예산의 최대 20%가 소통에 쓰였다는데도 소통이 안 됐다.
실무에서의 경험
사실 이 결과를 보고 "아, 맞다" 싶었다. 나도 여러 에이전트를 돌려보면서 비슷한 경험을 했거든.
한 번은 코드 리뷰 에이전트 두 개를 병렬로 돌린 적이 있다. 하나는 버그를 찾는 역할, 다른 하나는 보안을 검토하는 역할이었는데, 각자의 피드백이 서로 충돌했다. "이 함수는 단순화해야 해" vs "이 함수는 더 복잡하게 검증 로직을 추가해야 해." 결국 내가 직접 판단해서 합쳐야 했다.
또 한 번은 기능 개발 에이전트와 테스트 작성 에이전트를 따로 돌렸는데, 테스트 에이전트가 개발 에이전트의 API 설계 변경을 반영하지 못해서 테스트가 전부 깨졌다.
그럼 멀티에이전트는 쓰지 말아야 할까?
아니다. 중요한 건 어떻게 조율하느냐다.
현재 실무에서 잘 되는 패턴들은 있다:
- 완전히 독립적인 작업에 병렬 에이전트 배정 (서로 다른 모듈, 서로 다른 파일)
- 공유 상태 없이 각자 결과만 모아서 인간이 합치기
- git worktree 격리로 각 에이전트에게 독립적인 브랜치와 작업 디렉토리 제공
Anthropic의 2026 Agentic Coding Trends Report에서도 이 점을 강조한다. 병렬 작업이 진정한 가치를 발휘하려면 작업 간 의존성이 없어야 한다.
에이전트가 진짜 필요한 건 "사회적 지능"
CooperBench 연구의 핵심 메시지는 이것이다. 에이전트의 코딩 능력이 부족해서가 아니다. 협업 능력이 부족한 것이다.
연구진은 이를 "사회적 지능(social intelligence)"의 부재라고 부른다. 타인의 의도를 파악하고, 자신의 계획을 명확히 전달하고, 약속을 지키고, 충돌을 조정하는 능력. 인간에게는 당연한 이런 능력이 현재 AI 에이전트에는 근본적으로 부족하다.
2026년 개발자에게 이게 무슨 의미일까
올해 95%의 개발자가 AI 코딩 도구를 사용한다는 통계가 있다. Claude Code, Cursor, GitHub Copilot 모두 "에이전트 팀" 기능을 내세우고 있다.
하지만 CooperBench가 말해주는 것은 분명하다. 에이전트를 많이 돌린다고 좋은 게 아니다. 하나의 에이전트에게 명확한 컨텍스트를 주는 것이, 여러 에이전트를 조율하는 것보다 지금은 훨씬 효과적이다.
멀티에이전트가 진정으로 강력해지려면 에이전트 간의 조정 프로토콜, 공유 상태 관리, 충돌 해소 메커니즘이 훨씬 성숙해야 할 것이다. 그때까지는 개발자가 직접 오케스트레이터 역할을 해야 한다.
정리
- 멀티에이전트 협업은 현재 단독 작업보다 성공률이 50% 낮음
- 원인은 코딩 능력이 아니라 협업/조정 능력 부재
- 독립적인 작업에만 병렬 에이전트를 사용하는 것이 현명함
- 에이전트 툴이 "팀"을 자랑해도, 아직은 오케스트레이터가 필요함
여러분은 AI 에이전트를 쓸 때 여러 개를 동시에 돌려본 적 있나요? 성공했는지, 아니면 비슷한 문제를 겪었는지 궁금합니다. 댓글로 이야기 나눠봐요!
Upvoted! Thank you for supporting witness @jswit.
재미있는 연구네요!
언젠가 에이전트들이 사회적 지능을 갖게 되는날 의미있는 발전이 한 번 더 이루어질지도 모르겠네요. 고맙습니다! ^^