Pular para o conteúdo

30 min com Billy. Saiba como sua empresa pode usar IA hoje.

Agendar →
IA

MiniMax M3 + Hermes Agent: O melhor custo-benefício para agentes de IA em 2026

·7 min de leitura·0 visualizações

O que é o MiniMax M3?

Lançado em 1º de junho de 2026, o MiniMax M3 é o primeiro modelo open-weights a combinar três coisas que pareciam mutuamente exclusivas:

  1. Performance de coding agêntico — 59% no SWE-Bench Pro, 66% no Terminal-Bench 2.1
  2. Janela de contexto de 1 milhão de tokens (via arquitetura MSA — MiniMax Sparse Attention)
  3. Multimodalidade nativa — texto, imagem e vídeo como entrada, texto como saída

O segredo técnico é a arquitetura MSA (MiniMax Sparse Attention), que substitui a atenção quadrática tradicional por seleção em blocos de KV-cache. Segundo a MiniMax, isso reduz o custo por token em contexto longo para ~1/20 do necessário anteriormente, com prefill >9× mais rápido e decode >15× mais rápido a 1M de tokens.

Benchmarks (dados da própria MiniMax)

BenchmarkM3Comparação
SWE-Bench Pro59,0%À frente do DeepSeek V4 Pro (55,4%)
Terminal-Bench 2.166,0%≈ Claude Opus 4.7
BrowseComp83,5Acima do Opus 4.7 (79,3)
MCP Atlas74,2%Pouco acima do DeepSeek V4 Pro (73,6%)
SVG-Benchsupera Opus 4.7Geração de SVG

⚠️ Todos os benchmarks são fornecidos pela própria MiniMax. Aguardamos verificações independentes.


O problema de custo dos agentes de IA

Agentes como o Hermes Agent (Nous Research), Claude Code, OpenClaw e Cline consomem muitos tokens. Cada tarefa envolve múltiplas rodadas de: pensar → chamar ferramenta → observar resultado → pensar de novo.

Em modelos frontier como Claude Opus ($5–$15/M input, $15–$30/M output), uma sessão de 500K input + 100K output custa ~$5,00–$10,00. Em dias de trabalho intenso, o custo passa de $100–$200/mês fácil.

A comunidade de coding agents (r/opencodeCLI, r/LocalLLaMA, r/MiniMax_AI) vem discutindo intensamente como reduzir esse custo sem sacrificar qualidade.


Pay-as-You-Go vs Token Plan: a diferença é absurda

OpenRouter / Pay-as-You-Go (MiniMax direto)

Preço promocionalPreço padrão
Input$0,30 / M tok$0,60 / M tok
Output$1,20 / M tok$2,40 / M tok

Token Plan (assinatura mensal MiniMax)

Plano$/mêsTokens M3/mês$/M tok efetivo
Plus$20~1,7B$0,012
Max$50~5,1B~$0,010
Ultra$120~12,5B~$0,010

A conta é simples:

  • 1,7 bilhão de tokens no Plus por $20
  • No Pay-as-You-Go, 1,7B tokens custariam entre $510 (só input) e $4.080 (só output)
  • O Token Plan é ~90–100× mais barato que qualquer alternativa por demanda

No plano anual, o desconto é de 2 meses grátis:

  • Plus: $200/ano ($16,67/mês)
  • Max: $500/ano ($41,67/mês)
  • Ultra: $1.200/ano ($100/mês)

Como configurar o Hermes Agent com o Token Plan

A MiniMax tem documentação oficial para integrar o Hermes Agent. O processo é simples:

1. Adquira o Token Plan

Acesse platform.minimax.io/subscribe/token-plan e escolha o plano:

  • Plus ($20/mês) — uso pessoal, projetos médios, 3–4 agentes simultâneos
  • Max ($50/mês) — uso profissional, 4–5 agentes, inclui 3 clipes de vídeo/dia
  • Ultra ($120/mês) — heavy user, 6–7 agentes, 5 clipes de vídeo/dia

Copie sua Subscription Key (sk-cp-...) — ela é diferente da API Key comum do Pay-as-You-Go.

2. Instale o Hermes Agent

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
source ~/.zshrc
hermes doctor

3. Configure o provider MiniMax

hermes model

No menu interativo:

  1. Selecione "MiniMax (global endpoint)"
  2. Cole sua Subscription Key
  3. Selecione MiniMax-M3 como modelo

Pronto. O Hermes Agent já está rodando com o M3 via Token Plan.

Alternativa: configuração manual

# ~/.hermes/.env
MINIMAX_API_KEY=sk-cp-sua-chave-aqui
# ~/.hermes/config.yaml
provider: minimax
model:
  default: MiniMax-M3

context:
  max_tokens: 400000      # não enche o 1M sem necessidade
  auto_compact: true      # sumariza turns antigas

memory:
  backend: sqlite
  auto_summarize: true

4. (Opcional) Setup híbrido com fallback

Para ter resiliência contra rate limits do Token Plan (que tem janelas de 5h):

# ~/.hermes/config.yaml
provider: minimax
model:
  default: MiniMax-M3

fallback_provider:
  provider: openrouter
  model: deepseek/deepseek-v4-flash

Assim, tarefas rotineiras vão pelo M3 ($0.01/M tok) e, se o Token Plan bater limite, o Hermes cai automaticamente pro DeepSeek V4 Flash ($0.10–$0.20/M tok).


O que a comunidade está dizendo

Pesquisei as discussões mais recentes (junho/2026) em fóruns de coding agents:

✅ Pontos positivos (unânimes)

"Hands down the most stable, creative, and productive AI agent I have ever had a chance to use" — r/LocalLLaMA

"It's very economical and fast in the Token plan" — r/opencodeCLI

"MiniMax is so affordable" — r/MiniMax_AI

"M3 promo pricing is ~5% of Opus cost" — Lushbinary

O Hermes Agent + MiniMax M3 é a combinação mais comentada porque:

  • Hermes tem memória persistente entre sessões e loop de aprendizado contínuo (GAPA)
  • M3 oferece 1M de contexto a um custo que viabiliza manter o Hermes rodando o dia inteiro
  • A MiniMax tem documentação oficial dedicada para o Hermes Agent

⚠️ Pontos de atenção

  • Janela de 5h corrida — a cota do Token Plan tem janela rolante de 5 horas + janela semanal. Sessões muito longas podem ser interrompidas.
  • Rate limit em horário de pico (15h–17h30, horário da China). O plano Plus aguenta 3–4 agentes simultâneos.
  • "Disguised price increase" — alguns usuários no Reddit reportam que o mesmo plano Plus rende menos tarefas completas com M3 do que rendia com M2.7, porque M3 consome mais tokens por tarefa.
  • Cota compartilhada — imagem, áudio, speech e música consomem da mesma cota de texto.
  • Benchmarks são vendor-run — os números são da própria MiniMax, não verificados de forma independente ainda.

Estratégia recomendada

Baseado no que a comunidade está discutindo e testando:

  1. Assine o Token Plan Plus anual ($200/ano) — é o melhor custo-benefício para uso individual com Hermes Agent
  2. Configure o M3 como modelo principal e um fallback barato (DeepSeek V4 Flash) no Hermes
  3. Mantenha o contexto entre 200K–400K tokens — 1M existe pra emergências, não pra uso diário
  4. Use auto_compact: true — o Hermes já tem suporte nativo pra comprimir histórico automaticamente
  5. Acompanhe seu consumo pela API de status: curl --location 'https://www.minimax.io/v1/token_plan/remains'

Quanto custa na prática?

Estimativa para uso de agente o dia inteiro:

  • Leve (~1M tok/dia): cabe folgado no Plus ($20/mês)
  • Moderado (~3M tok/dia): ainda cabe no Plus
  • Pesado (~6M tok/dia): Plus suficiente, mas talvez queira o Max para maior concorrência
  • Extremo (>10M tok/dia): Ultra ($120/mês)

Comparação com alternativas no mesmo volume:

  • OpenRouter M3 Pay-as-You-Go: $70–$140/mês para uso moderado
  • Claude Opus: $500–$2.000/mês para o mesmo volume
  • Token Plan Plus: $20/mês

Conclusão

O MiniMax M3 via Token Plan é, de longe, a opção mais barata para rodar agentes de IA como o Hermes Agent em 2026. A diferença de ~90–100× em relação ao Pay-as-You-Go não é exagero — é matemática básica.

O M3 não é perfeito: perde para Claude Opus em tarefas muito complexas (SWE-Bench Pro: 59% vs 69%), e a cota do Token Plan tem limitações de janela de 5h. Mas para 95% do trabalho diário de um agente de codificação — ler contexto, chamar ferramentas, iterar em soluções — o custo é imbatível.

A estratégia que a comunidade está adotando: M3 no Token Plan como padrão, modelo frontier como fallback para os 5% de tarefas que realmente exigem o melhor.


Fontes

Quer aplicar isso no seu projeto?

Mentoria e consultoria em carreira, código e produtos digitais.

Falar com Billy
Billy

Billy Franklim

Engenheiro de Software · Construtor de agentes AI

Engenheiro de software desde 2017. Construo agentes AI sob medida pra negócios brasileiros em parceria com a NeuralNets — clínicas, SDR, e-commerce, imobiliárias e advocacia. Fundador do HubNews AI e Sistema Reino.

Compartilhar:XLinkedInWhatsApp