O que é o MiniMax M3?

Lançado em 1º de junho de 2026, o MiniMax M3 é o primeiro modelo open-weights a combinar três coisas que pareciam mutuamente exclusivas:

Performance de coding agêntico — 59% no SWE-Bench Pro, 66% no Terminal-Bench 2.1
Janela de contexto de 1 milhão de tokens (via arquitetura MSA — MiniMax Sparse Attention)
Multimodalidade nativa — texto, imagem e vídeo como entrada, texto como saída

O segredo técnico é a arquitetura MSA (MiniMax Sparse Attention), que substitui a atenção quadrática tradicional por seleção em blocos de KV-cache. Segundo a MiniMax, isso reduz o custo por token em contexto longo para ~1/20 do necessário anteriormente, com prefill >9× mais rápido e decode >15× mais rápido a 1M de tokens.

Benchmarks (dados da própria MiniMax)

Benchmark	M3	Comparação
SWE-Bench Pro	59,0%	À frente do DeepSeek V4 Pro (55,4%)
Terminal-Bench 2.1	66,0%	≈ Claude Opus 4.7
BrowseComp	83,5	Acima do Opus 4.7 (79,3)
MCP Atlas	74,2%	Pouco acima do DeepSeek V4 Pro (73,6%)
SVG-Bench	supera Opus 4.7	Geração de SVG

⚠️ Todos os benchmarks são fornecidos pela própria MiniMax. Aguardamos verificações independentes.

O problema de custo dos agentes de IA

Agentes como o Hermes Agent (Nous Research), Claude Code, OpenClaw e Cline consomem muitos tokens. Cada tarefa envolve múltiplas rodadas de: pensar → chamar ferramenta → observar resultado → pensar de novo.

Em modelos frontier como Claude Opus ($5–$15/M input, $15–$30/M output), uma sessão de 500K input + 100K output custa ~$5,00–$10,00. Em dias de trabalho intenso, o custo passa de $100–$200/mês fácil.

A comunidade de coding agents (r/opencodeCLI, r/LocalLLaMA, r/MiniMax_AI) vem discutindo intensamente como reduzir esse custo sem sacrificar qualidade.

Pay-as-You-Go vs Token Plan: a diferença é absurda

OpenRouter / Pay-as-You-Go (MiniMax direto)

	Preço promocional	Preço padrão
Input	$0,30 / M tok	$0,60 / M tok
Output	$1,20 / M tok	$2,40 / M tok

Token Plan (assinatura mensal MiniMax)

Plano	$/mês	Tokens M3/mês	$/M tok efetivo
Plus	$20	~1,7B	$0,012
Max	$50	~5,1B	~$0,010
Ultra	$120	~12,5B	~$0,010

A conta é simples:

1,7 bilhão de tokens no Plus por $20
No Pay-as-You-Go, 1,7B tokens custariam entre $510 (só input) e $4.080 (só output)
O Token Plan é ~90–100× mais barato que qualquer alternativa por demanda

No plano anual, o desconto é de 2 meses grátis:

Plus: $200/ano ($16,67/mês)
Max: $500/ano ($41,67/mês)
Ultra: $1.200/ano ($100/mês)

Como configurar o Hermes Agent com o Token Plan

A MiniMax tem documentação oficial para integrar o Hermes Agent. O processo é simples:

1. Adquira o Token Plan

Acesse platform.minimax.io/subscribe/token-plan e escolha o plano:

Plus ($20/mês) — uso pessoal, projetos médios, 3–4 agentes simultâneos
Max ($50/mês) — uso profissional, 4–5 agentes, inclui 3 clipes de vídeo/dia
Ultra ($120/mês) — heavy user, 6–7 agentes, 5 clipes de vídeo/dia

Copie sua Subscription Key (sk-cp-...) — ela é diferente da API Key comum do Pay-as-You-Go.

2. Instale o Hermes Agent

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
source ~/.zshrc
hermes doctor

3. Configure o provider MiniMax

hermes model

No menu interativo:

Selecione "MiniMax (global endpoint)"
Cole sua Subscription Key
Selecione MiniMax-M3 como modelo

Pronto. O Hermes Agent já está rodando com o M3 via Token Plan.

Alternativa: configuração manual

# ~/.hermes/.env
MINIMAX_API_KEY=sk-cp-sua-chave-aqui

# ~/.hermes/config.yaml
provider: minimax
model:
  default: MiniMax-M3

context:
  max_tokens: 400000      # não enche o 1M sem necessidade
  auto_compact: true      # sumariza turns antigas

memory:
  backend: sqlite
  auto_summarize: true

4. (Opcional) Setup híbrido com fallback

Para ter resiliência contra rate limits do Token Plan (que tem janelas de 5h):

# ~/.hermes/config.yaml
provider: minimax
model:
  default: MiniMax-M3

fallback_provider:
  provider: openrouter
  model: deepseek/deepseek-v4-flash

Assim, tarefas rotineiras vão pelo M3 ($0.01/M tok) e, se o Token Plan bater limite, o Hermes cai automaticamente pro DeepSeek V4 Flash ($0.10–$0.20/M tok).

O que a comunidade está dizendo

Pesquisei as discussões mais recentes (junho/2026) em fóruns de coding agents:

✅ Pontos positivos (unânimes)

"Hands down the most stable, creative, and productive AI agent I have ever had a chance to use" — r/LocalLLaMA

"It's very economical and fast in the Token plan" — r/opencodeCLI

"MiniMax is so affordable" — r/MiniMax_AI

"M3 promo pricing is ~5% of Opus cost" — Lushbinary

O Hermes Agent + MiniMax M3 é a combinação mais comentada porque:

Hermes tem memória persistente entre sessões e loop de aprendizado contínuo (GAPA)
M3 oferece 1M de contexto a um custo que viabiliza manter o Hermes rodando o dia inteiro
A MiniMax tem documentação oficial dedicada para o Hermes Agent

⚠️ Pontos de atenção

Janela de 5h corrida — a cota do Token Plan tem janela rolante de 5 horas + janela semanal. Sessões muito longas podem ser interrompidas.
Rate limit em horário de pico (15h–17h30, horário da China). O plano Plus aguenta 3–4 agentes simultâneos.
"Disguised price increase" — alguns usuários no Reddit reportam que o mesmo plano Plus rende menos tarefas completas com M3 do que rendia com M2.7, porque M3 consome mais tokens por tarefa.
Cota compartilhada — imagem, áudio, speech e música consomem da mesma cota de texto.
Benchmarks são vendor-run — os números são da própria MiniMax, não verificados de forma independente ainda.

Estratégia recomendada

Baseado no que a comunidade está discutindo e testando:

Assine o Token Plan Plus anual ($200/ano) — é o melhor custo-benefício para uso individual com Hermes Agent
Configure o M3 como modelo principal e um fallback barato (DeepSeek V4 Flash) no Hermes
Mantenha o contexto entre 200K–400K tokens — 1M existe pra emergências, não pra uso diário
Use auto_compact: true — o Hermes já tem suporte nativo pra comprimir histórico automaticamente
Acompanhe seu consumo pela API de status: curl --location 'https://www.minimax.io/v1/token_plan/remains'

Quanto custa na prática?

Estimativa para uso de agente o dia inteiro:

Leve (~1M tok/dia): cabe folgado no Plus ($20/mês)
Moderado (~3M tok/dia): ainda cabe no Plus
Pesado (~6M tok/dia): Plus suficiente, mas talvez queira o Max para maior concorrência
Extremo (>10M tok/dia): Ultra ($120/mês)

Comparação com alternativas no mesmo volume:

OpenRouter M3 Pay-as-You-Go: $70–$140/mês para uso moderado
Claude Opus: $500–$2.000/mês para o mesmo volume
Token Plan Plus: $20/mês

Conclusão

O MiniMax M3 via Token Plan é, de longe, a opção mais barata para rodar agentes de IA como o Hermes Agent em 2026. A diferença de ~90–100× em relação ao Pay-as-You-Go não é exagero — é matemática básica.

O M3 não é perfeito: perde para Claude Opus em tarefas muito complexas (SWE-Bench Pro: 59% vs 69%), e a cota do Token Plan tem limitações de janela de 5h. Mas para 95% do trabalho diário de um agente de codificação — ler contexto, chamar ferramentas, iterar em soluções — o custo é imbatível.

A estratégia que a comunidade está adotando: M3 no Token Plan como padrão, modelo frontier como fallback para os 5% de tarefas que realmente exigem o melhor.

MiniMax M3 + Hermes Agent: O melhor custo-benefício para agentes de IA em 2026