Passei a semana afundado em fórum, documentação oficial e benchmark de agente. Quanto mais eu leio, mais tenho certeza de uma coisa: a corrida de 2026 não é mais sobre modelo. É sobre onde você fica preso.
Vou explicar o que eu vejo, sem floreio.
A real de 2026
Modelo virou commoditizado. M3, DeepSeek V4, Claude Opus, GPT-5.5 — todos com 1M+ de contexto, todos com preço parecido, todos entregando 90% da mesma coisa na maioria das tarefas. A diferença entre eles no seu dia-a-dia de dev é desprezível.
O que mudou foi pra onde o jogo foi. Hoje a briga é no harness — o framework que envolve o modelo. Onde a memória fica, como o agente evolui, com quantas ferramentas ele conversa, e o principal: se ele te prende a um vendor ou não.
Caminho 1: IAs subsidiadas (Claude Code, Codex)
A Anthropic e a OpenAI estão literalmente queimando dinheiro pra te dar acesso barato. Codex tá subsidiado por VC. Claude Pro por $20/mês entrega muito mais do que isso custa em token. A estratégia é clara: construir lock-in agora, cobrar o preço real depois.
OpenAI projeta perder $14 bilhões em 2026. Anthropic já testou tirar Claude Code do plano de $20. O barato atual é uma estratégia de aquisição, não um modelo de negócio sustentável.
Funciona? Demais. DX foda, IDE integrado, modelo top. Mas você tá construindo em cima de um castelo de areia cujo dono pode mudar as regras a qualquer momento.
Quem tá usando hoje: maioria absoluta dos devs. E tá todo mundo feliz — até o dia que o preço sobe, ou alguma feature quebra, ou o modelo é descontinuado, e você tem que migrar tudo às pressas.
Caminho 2: Open source (Hermes, OpenClaw, OpenCode)
Aqui é o outro extremo. Você monta seu stack, usa a API de quem quiser, troca de provedor quando quiser.
Por que isso importa mais do que parece:
A velocidade de cópia no open source é absurda. Codex lançou /goal como feature nova. Em semanas, todo mundo tinha. No mundo corporativo, a Anthropic demora meses pra implementar o que a comunidade pede porque precisa considerar shareholders, compliance, dezenas de stakeholders. No open source, a dor de quem usa vira PR na semana seguinte.
O ecossistema em números (junho/2026):
- Hermes Agent: 140k stars em 12 semanas. #1 do OpenRouter em maio. 224 bilhões de tokens/dia processados.
- OpenClaw: 350k stars, 5.700+ skills, 20+ canais de mensageria.
- OpenCode: focado em ser o "code agent open source", gratuito, multi-modelo.
A real é que o open source fez em 6 meses o que levou anos pra ser montado nas big techs — porque a comunidade sente a dor na pele e resolve.
Custo real (junho/2026):
- Hermes rodando M3 via Token Plan da MiniMax: $20/mês com 1,7 bilhão de tokens
- Mesmo volume via OpenRouter Pay-as-You-Go: ~$70–$140/mês
- Mesmo volume no Claude Opus: $500–$2.000/mês
A diferença não é 2×. É 10× a 100×.
Por que modelo virou detalhe
Eu testei, a comunidade testou, todo mundo chegou na mesma conclusão: a diferença entre M3, DeepSeek V4, Claude Sonnet 4.6 e GPT-5.5 em 90% das tarefas de coding é marginal. Os benchmarks mostram gap, mas na hora de fazer o seu CRUD, refatorar aquele módulo legado, escrever um teste, qualquer um dos quatro resolve.
O que mata hoje é o contexto perdido entre sessões. É começar todo dia explicando pro agente o que você tava fazendo ontem. É o agente que não lembra das suas preferências de código. É você refazer setup porque trocou de ferramenta.
Isso é problema de harness, não de modelo.
Hermes resolve com SQLite + FTS5 indexando todas as sessões. OpenClaw resolve com markdown. Ambos evoluem com você — Hermes com o loop GAPA (cria skills novas automaticamente baseado no que aprendeu), OpenClaw com biblioteca de skills manual.
Claude Code e Codex não tem nada disso. Cada sessão começa do zero. Você é o portador de contexto.
A corrida dos dois lados tá se misturando
2026 tá sendo o ano em que os dois mundos se aproximam perigosamente:
- Codex abriu pra multi-modelo (já roda M3, DeepSeek, não fica preso na OpenAI)
- Claude Code ganhou canais (Telegram, Discord), memory de projetos, hooks
- Cursor virou IDE+agente completo
- OpenClaw já tem skills voltadas pra código
- Hermes integrou MCP Server Mode, contexto de IDE
O muro entre "coding agent" e "general agent" tá caindo. Em 1–2 anos vira commoditizado. A diferença vai ser o framework de memória e o ecossistema de skills, não mais "qual faz código melhor."
Então qual escolher?
Os dois. Depende do dia.
Quando eu uso Claude Code/Codex:
- Tarefa de coding focada, sessão única, IDE aberto
- Quero a melhor qualidade bruta de modelo sem pensar
- Tô disposto a pagar pelo DX
Quando eu uso Hermes/OpenClaw:
- Trabalho contínuo, multi-sessão, contexto longo
- Quero que o agente lembre de ontem
- Preciso rodar em background (cron, Telegram, WhatsApp)
- Quero trocar de provedor sem reescrever nada
A real é: ninguém vai ficar preso num caminho só. Os preços subsidiados vão apertar, alguma feature vai quebrar, algum modelo vai ser descontinuado. Se você construiu tudo em cima de uma empresa só, vai sofrer. Se você construiu agnóstico, troca em uma config.
Setup prático: pé nos dois mundos
Aqui é o que eu recomendo. Leva 10 minutos pra montar:
1. Claude Code/Codex pra coding no IDE
Usa normal, no dia-a-dia, quando o editor tá aberto. Custo subsidiado, melhor DX, sem fricção.
2. Hermes Agent pra tudo que precisa rodar 24/7
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
hermes model
Seleciona MiniMax (global endpoint), cola sua Subscription Key (Token Plan de $20/mês), seleciona M3 como modelo.
3. Config de fallback
# ~/.hermes/config.yaml
provider: minimax
model:
default: MiniMax-M3
fallback_provider:
provider: openrouter
model: deepseek/deepseek-v4-flash
context:
max_tokens: 400000
auto_compact: true
Se o Token Plan bater limite (janela de 5h), cai automaticamente pro DeepSeek V4 Flash. Sem interrupção.
4. Cron jobs pra tarefas recorrentes
Exemplo: backup diário do banco, relatório semanal, ping num endpoint. Tudo roda no Hermes em background, custa centavos, você esquece que existe.
O que eu espero dos próximos 12 meses
- Modelos vão se igualar mais ainda. Diferença vai ser ruído.
- Harness vai ser o diferencial. Quem tiver melhor memória + melhor ecossistema de skills + multi-canal ganha.
- Preços subsidiados vão apertar. OpenAI/Anthropic vão ter que cobrar mais.
- Open source vai incorporar features mais rápido. A comunidade tá faminta e o ciclo de feedback é direto.
- Vendor lock-in vai ser o maior custo escondido. Quem tá agnóstico vai dormir tranquilo.
TL;DR
Modelo não importa mais. Harness importa. Memória persistente importa. Agnosticismo importa.
Usa Claude Code/Codex quando quiser o melhor DX no IDE. Usa Hermes/OpenClaw quando quiser um agente que evolui com você, lembra de tudo, e roda em qualquer lugar.
Não fica 100% em nenhum dos dois lados. Monta setup paralelo. Mantém optionality. Quando o jogo mudar (e vai mudar), você troca em uma config, não em uma semana de trabalho.
A real é simples: o castelo de areia mais bonito do mundo não vale nada se o dono dele pode soprar a qualquer momento.
Fontes
- Towards AI: Hermes vs Claude Code vs OpenClaw (18 tasks benchmark)
- Utilo: Hermes vs Claude Code vs OpenClaw (filosofias)
- Lushbinary: Best Self-Hosted AI Agents 2026
- Forbes: Hermes overtakes OpenClaw (140k stars em 90 dias)
- The New Stack: OpenClaw vs Hermes Agent
- Design Systems Collective: The End of Cheap AI
- Kucoin: Hermes vs OpenClaw benchmarks
- Walmart Code Puppy: Avoiding vendor lock-in
- AIThinkerLab: Claude Code vs Codex 30-day test
- Hermes Agent + M3 setup guide