O que é o MiniMax M3?
Lançado em 1º de junho de 2026, o MiniMax M3 é o primeiro modelo open-weights a combinar três coisas que pareciam mutuamente exclusivas:
- Performance de coding agêntico — 59% no SWE-Bench Pro, 66% no Terminal-Bench 2.1
- Janela de contexto de 1 milhão de tokens (via arquitetura MSA — MiniMax Sparse Attention)
- Multimodalidade nativa — texto, imagem e vídeo como entrada, texto como saída
O segredo técnico é a arquitetura MSA (MiniMax Sparse Attention), que substitui a atenção quadrática tradicional por seleção em blocos de KV-cache. Segundo a MiniMax, isso reduz o custo por token em contexto longo para ~1/20 do necessário anteriormente, com prefill >9× mais rápido e decode >15× mais rápido a 1M de tokens.
Benchmarks (dados da própria MiniMax)
| Benchmark | M3 | Comparação |
|---|---|---|
| SWE-Bench Pro | 59,0% | À frente do DeepSeek V4 Pro (55,4%) |
| Terminal-Bench 2.1 | 66,0% | ≈ Claude Opus 4.7 |
| BrowseComp | 83,5 | Acima do Opus 4.7 (79,3) |
| MCP Atlas | 74,2% | Pouco acima do DeepSeek V4 Pro (73,6%) |
| SVG-Bench | supera Opus 4.7 | Geração de SVG |
⚠️ Todos os benchmarks são fornecidos pela própria MiniMax. Aguardamos verificações independentes.
O problema de custo dos agentes de IA
Agentes como o Hermes Agent (Nous Research), Claude Code, OpenClaw e Cline consomem muitos tokens. Cada tarefa envolve múltiplas rodadas de: pensar → chamar ferramenta → observar resultado → pensar de novo.
Em modelos frontier como Claude Opus ($5–$15/M input, $15–$30/M output), uma sessão de 500K input + 100K output custa ~$5,00–$10,00. Em dias de trabalho intenso, o custo passa de $100–$200/mês fácil.
A comunidade de coding agents (r/opencodeCLI, r/LocalLLaMA, r/MiniMax_AI) vem discutindo intensamente como reduzir esse custo sem sacrificar qualidade.
Pay-as-You-Go vs Token Plan: a diferença é absurda
OpenRouter / Pay-as-You-Go (MiniMax direto)
| Preço promocional | Preço padrão | |
|---|---|---|
| Input | $0,30 / M tok | $0,60 / M tok |
| Output | $1,20 / M tok | $2,40 / M tok |
Token Plan (assinatura mensal MiniMax)
| Plano | $/mês | Tokens M3/mês | $/M tok efetivo |
|---|---|---|---|
| Plus | $20 | ~1,7B | $0,012 |
| Max | $50 | ~5,1B | ~$0,010 |
| Ultra | $120 | ~12,5B | ~$0,010 |
A conta é simples:
- 1,7 bilhão de tokens no Plus por $20
- No Pay-as-You-Go, 1,7B tokens custariam entre $510 (só input) e $4.080 (só output)
- O Token Plan é ~90–100× mais barato que qualquer alternativa por demanda
No plano anual, o desconto é de 2 meses grátis:
- Plus: $200/ano ($16,67/mês)
- Max: $500/ano ($41,67/mês)
- Ultra: $1.200/ano ($100/mês)
Como configurar o Hermes Agent com o Token Plan
A MiniMax tem documentação oficial para integrar o Hermes Agent. O processo é simples:
1. Adquira o Token Plan
Acesse platform.minimax.io/subscribe/token-plan e escolha o plano:
- Plus ($20/mês) — uso pessoal, projetos médios, 3–4 agentes simultâneos
- Max ($50/mês) — uso profissional, 4–5 agentes, inclui 3 clipes de vídeo/dia
- Ultra ($120/mês) — heavy user, 6–7 agentes, 5 clipes de vídeo/dia
Copie sua Subscription Key (sk-cp-...) — ela é diferente da API Key comum do Pay-as-You-Go.
2. Instale o Hermes Agent
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
source ~/.zshrc
hermes doctor
3. Configure o provider MiniMax
hermes model
No menu interativo:
- Selecione "MiniMax (global endpoint)"
- Cole sua Subscription Key
- Selecione MiniMax-M3 como modelo
Pronto. O Hermes Agent já está rodando com o M3 via Token Plan.
Alternativa: configuração manual
# ~/.hermes/.env
MINIMAX_API_KEY=sk-cp-sua-chave-aqui
# ~/.hermes/config.yaml
provider: minimax
model:
default: MiniMax-M3
context:
max_tokens: 400000 # não enche o 1M sem necessidade
auto_compact: true # sumariza turns antigas
memory:
backend: sqlite
auto_summarize: true
4. (Opcional) Setup híbrido com fallback
Para ter resiliência contra rate limits do Token Plan (que tem janelas de 5h):
# ~/.hermes/config.yaml
provider: minimax
model:
default: MiniMax-M3
fallback_provider:
provider: openrouter
model: deepseek/deepseek-v4-flash
Assim, tarefas rotineiras vão pelo M3 ($0.01/M tok) e, se o Token Plan bater limite, o Hermes cai automaticamente pro DeepSeek V4 Flash ($0.10–$0.20/M tok).
O que a comunidade está dizendo
Pesquisei as discussões mais recentes (junho/2026) em fóruns de coding agents:
✅ Pontos positivos (unânimes)
"Hands down the most stable, creative, and productive AI agent I have ever had a chance to use" — r/LocalLLaMA
"It's very economical and fast in the Token plan" — r/opencodeCLI
"MiniMax is so affordable" — r/MiniMax_AI
"M3 promo pricing is ~5% of Opus cost" — Lushbinary
O Hermes Agent + MiniMax M3 é a combinação mais comentada porque:
- Hermes tem memória persistente entre sessões e loop de aprendizado contínuo (GAPA)
- M3 oferece 1M de contexto a um custo que viabiliza manter o Hermes rodando o dia inteiro
- A MiniMax tem documentação oficial dedicada para o Hermes Agent
⚠️ Pontos de atenção
- Janela de 5h corrida — a cota do Token Plan tem janela rolante de 5 horas + janela semanal. Sessões muito longas podem ser interrompidas.
- Rate limit em horário de pico (15h–17h30, horário da China). O plano Plus aguenta 3–4 agentes simultâneos.
- "Disguised price increase" — alguns usuários no Reddit reportam que o mesmo plano Plus rende menos tarefas completas com M3 do que rendia com M2.7, porque M3 consome mais tokens por tarefa.
- Cota compartilhada — imagem, áudio, speech e música consomem da mesma cota de texto.
- Benchmarks são vendor-run — os números são da própria MiniMax, não verificados de forma independente ainda.
Estratégia recomendada
Baseado no que a comunidade está discutindo e testando:
- Assine o Token Plan Plus anual ($200/ano) — é o melhor custo-benefício para uso individual com Hermes Agent
- Configure o M3 como modelo principal e um fallback barato (DeepSeek V4 Flash) no Hermes
- Mantenha o contexto entre 200K–400K tokens — 1M existe pra emergências, não pra uso diário
- Use
auto_compact: true— o Hermes já tem suporte nativo pra comprimir histórico automaticamente - Acompanhe seu consumo pela API de status:
curl --location 'https://www.minimax.io/v1/token_plan/remains'
Quanto custa na prática?
Estimativa para uso de agente o dia inteiro:
- Leve (~1M tok/dia): cabe folgado no Plus ($20/mês)
- Moderado (~3M tok/dia): ainda cabe no Plus
- Pesado (~6M tok/dia): Plus suficiente, mas talvez queira o Max para maior concorrência
- Extremo (>10M tok/dia): Ultra ($120/mês)
Comparação com alternativas no mesmo volume:
- OpenRouter M3 Pay-as-You-Go: $70–$140/mês para uso moderado
- Claude Opus: $500–$2.000/mês para o mesmo volume
- Token Plan Plus: $20/mês
Conclusão
O MiniMax M3 via Token Plan é, de longe, a opção mais barata para rodar agentes de IA como o Hermes Agent em 2026. A diferença de ~90–100× em relação ao Pay-as-You-Go não é exagero — é matemática básica.
O M3 não é perfeito: perde para Claude Opus em tarefas muito complexas (SWE-Bench Pro: 59% vs 69%), e a cota do Token Plan tem limitações de janela de 5h. Mas para 95% do trabalho diário de um agente de codificação — ler contexto, chamar ferramentas, iterar em soluções — o custo é imbatível.
A estratégia que a comunidade está adotando: M3 no Token Plan como padrão, modelo frontier como fallback para os 5% de tarefas que realmente exigem o melhor.
Fontes
- MiniMax Token Plan — Página oficial
- Hermes Agent + MiniMax: Documentação oficial
- MiniMax Pay as You Go — Preços oficiais
- Lushbinary: Hermes Agent + MiniMax M3 Setup & Cost Guide
- Digital Applied: MiniMax M3 Release Analysis
- Towards AI: MiniMax M3 Made Frontier-Level Coding Look Cheap
- JuheAPI: MiniMax M3 Cost Feedback
- OpenRouter: MiniMax M3 Pricing
- Reddit r/opencodeCLI — MiniMax M3 discussion
- Reddit r/LocalLLaMA — MiniMax M3