조조는 속도로, 유비는 신뢰로, 손권은 생태계로 천하를 노린다.
이 글에서 다루는 내용
- Google I/O 2026에서 발표된 Gemini 3.5 Flash와 Antigravity 2.0의 핵심 변화
- OpenAI Codex + GPT-5.5가 쌓아온 포지션
- Claude Code + Opus 4.7의 현재 위치
- 세 플랫폼의 벤치마크 및 가격 비교
- 어떤 개발자에게 어떤 선택이 맞는지
막이 오른 삼국 시대
2025년 말까지만 해도 “AI 코딩 툴”은 Cursor, GitHub Copilot, 그리고 Claude Code 정도로 좁혀지는 분위기였다. 그런데 2026년 들어 판이 바뀌었다.
OpenAI는 Codex를 단순한 CLI에서 데스크탑 앱 + IDE 확장 + 클라우드 에이전트로 키웠고, Google은 I/O 2026에서 Gemini 3.5 Flash와 함께 Antigravity 2.0을 공개하며 Gemini CLI를 사실상 은퇴시켰다. Anthropic은 Opus 4.7로 SWE-bench 87.6%를 찍으며 조용히 1위 자리를 지키고 있다.
셋 다 “내 코드를 읽고, 계획하고, 실행하고, 검증한다”는 에이전트 루프를 표방한다. 그런데 지향점이 미묘하게 다르다.
위(魏) — OpenAI Codex: 속도와 점유율
OpenAI가 Codex에 가장 공격적이다. 2026년 3월 기준 Codex 데스크탑 앱이 macOS와 Windows에 동시 출시됐고, Free·Go 플랜 사용자에게도 제한적으로 무료 개방하며 저변을 넓혔다.
모델 라인업도 빠르게 올라왔다. 현재 Codex에서 가장 강력한 모델은 GPT-5.5로, 복잡한 코딩과 컴퓨터 사용, 리서치 워크플로우에서 플래그십 역할을 한다. 그 아래로는 GPT-5.2-Codex가 장기 컨텍스트 이해, 안정적인 툴 호출, 네이티브 컴팩션을 강점으로 가져가며, 빠르고 가벼운 작업은 gpt-5.4-mini가 담당한다.
2026년 3월 기준 주간 활성 사용자 200만 명을 돌파했고, 지금은 400만 명을 넘어섰다는 수치도 나오고 있다. 넓은 사용자 기반과 ChatGPT와의 자연스러운 연동이 Codex의 가장 큰 무기다.
Codex 요금
ChatGPT Plus($20/월) 이상이면 기본 사용 가능. Pro($200/월) 플랜에서 rate limit 2배 혜택.
촉(蜀) — Anthropic Claude Code: 신뢰와 벤치마크
Claude Code는 조용하지만 무섭다. Opus 4.7(2026년 4월 16일 출시) 기준 SWE-bench Verified 87.6%를 기록했고, 새로운 xhigh effort가 모든 플랜의 기본값이 됐다.
SWE-bench Verified 리더보드 기준(2026년 5월 21일), Claude Mythos Preview가 93.9%로 1위, Claude Opus 4.7(Adaptive)이 87.6%로 2위, GPT-5.3 Codex가 85%로 3위다. 일반 사용자가 쓸 수 있는 모델 기준으로는 Claude Code + Opus 4.7이 사실상 코딩 에이전트 정점에 있다.
데스크탑 앱도 2026년 4월에 대폭 개편됐다. 멀티 세션 사이드바, 드래그앤드롭 패널, 통합 터미널, 인앱 파일 에디터가 추가됐고, 클라우드 기반 자동화 기능인 Routines가 새로 도입됐다 — 랩탑이 꺼져 있어도 에이전트가 돌아간다.
플랫폼도 넓어졌다. 터미널 CLI, VS Code, JetBrains, 데스크탑 앱, 웹, iOS, 그리고 Chrome 확장까지 7개 서피스를 지원한다.
Claude Code는 CLAUDE.md 파일로 프로젝트별 컨텍스트를 설정할 수 있어, 팀 컨벤션이나 금지 패턴을 에이전트에게 주입하기 좋다. 실제로 써보면 이게 생산성 차이를 만든다.
오(吳) — Google Antigravity 2.0: 생태계와 인프라
Google은 I/O 2026에서 가장 화려한 쇼를 펼쳤다. 핵심은 두 가지 — Gemini 3.5 Flash 모델과 Antigravity 2.0 플랫폼이다.
Gemini 3.5 Flash는 I/O 2026에서 공개됐으며, 이전 세대 Gemini 3.1 Pro를 코딩 및 에이전트 벤치마크에서 앞서면서도 Flash 티어의 속도와 비용 구조를 유지한다. 구체적으로는 Terminal-Bench 2.1에서 76.2%, MCP Atlas에서 83.6%를 기록했고, 출력 토큰 속도는 다른 프론티어 모델 대비 약 4배 빠르다.
Antigravity 2.0은 독립 데스크탑 앱을 중심으로 CLI, SDK, Managed Agents API, 엔터프라이즈 플랫폼의 다섯 개 레이어로 구성된 풀스택 에이전트 개발 플랫폼이다. 가장 눈에 띄는 기능은 병렬 서브에이전트 오케스트레이션과 스케줄 태스크 — 에이전트를 한 번 설정해두면 백그라운드에서 자동으로 돌아간다.
기존 Gemini CLI는 2026년 6월 18일부로 일반 사용자 접근이 종료되며, 모든 사용자는 Antigravity CLI로 마이그레이션해야 한다. Gemini CLI를 쓰던 개발자라면 지금 당장 확인이 필요하다.
Gemini CLI 종료
AI Pro, Ultra, 무료 플랜 사용자의 Gemini CLI 접근이 2026년 6월 18일 종료된다. Antigravity CLI로 이전 시 Agent Skills, Hooks, Subagents는 그대로 마이그레이션된다.
세 진영 한눈 비교
| 항목 | Claude Code | OpenAI Codex | Antigravity 2.0 |
|---|---|---|---|
| 핵심 모델 | Opus 4.7 | GPT-5.5 / GPT-5.3-Codex | Gemini 3.5 Flash |
| SWE-bench | 87.6% | 85% | 미발표 |
| 속도 | 중간 | 중간 | 4× 빠름 |
| 플랫폼 | CLI, VS Code, JetBrains, Desktop, iOS, Chrome | CLI, Desktop, IDE, 웹 | Desktop, CLI, SDK, API |
| 오케스트레이션 | Routines, 서브에이전트 | 병렬 에이전트 | 병렬 서브에이전트, 스케줄 태스크 |
| 생태계 연동 | GitHub, Datadog, Vercel | ChatGPT, 브라우저 | AI Studio, Firebase, Android |
| 무료 티어 | 없음 | 제한적 | 있음 |
| 최고 플랜 | Max 20x ($200/월) | Pro ($200/월) | AI Ultra ($100/월) |
어떤 개발자에게 뭐가 맞나
Claude Code — 코드 품질과 정확성이 우선인 백엔드 개발자. 복잡한 멀티파일 리팩토링, 테스트 작성, PR 자동화가 주요 워크플로우라면 SWE-bench 수치가 실제로 체감된다. Java/Spring 같이 구조가 복잡한 코드베이스에서 특히 강하다.
OpenAI Codex — ChatGPT를 이미 쓰고 있고, 자연스러운 채팅 맥락에서 코딩 에이전트로 넘어가고 싶은 사람. 프론트엔드와 풀스택 쪽에서 사용자 후기가 많아 레퍼런스 찾기 쉽다.
Antigravity 2.0 — Google 스택(Firebase, Android, GCP)을 쓰거나, 비용 효율이 중요하거나, 에이전트 파이프라인을 자동화하고 싶은 팀. SDK로 커스텀 에이전트를 만들어 사내 인프라에 붙일 수 있다는 점이 엔터프라이즈에서 매력적이다.
마치며
삼국지의 결말을 알다시피, 셋 다 살아남았다가 결국 진(晋)에게 통일된다. AI 코딩 에이전트 시장이 어떻게 흘러갈지는 알 수 없지만, 지금 당장은 명확한 승자 없이 세 플랫폼이 각자의 강점으로 치열하게 경쟁하는 구도다.
벤치마크만 보면 Claude Code, 속도와 비용은 Antigravity, 생태계와 점유율은 Codex. 셋 중 하나를 “메인”으로 정하되, 용도에 따라 병행하는 게 현실적인 전략이다.
진짜 전쟁은 이제 막 시작됐다.