Playbook: como se constrói um agente AI sob medida
Cinco fases, do discovery ao monitoramento contínuo. Sem mistério, sem buzzword: o que sai do escopo, o que entra no preço, como medir se está funcionando — e quando dizer que NÃO faz sentido construir agente.
Publicado em Atualizado em
O que um agente AI faz, em 4 movimentos
- Lê
- · Planilha
- · CRM
- · Ticket
- Decide
- · Classifica
- · Extrai dado
- · Compara regra
- · Marca risco
- Age
- · CRM
- · Drive
- · Planilha
- · Sistema
- Devolve
- · Resumo no formato do time
- · Só chama humano se foge do padrão
As 5 fases de um projeto
Discovery
1–3 diasObjetivo: Entender o processo real, não o processo desenhado.
Entregáveis- — Mapeamento do fluxo atual (entrada → decisão → ação → saída)
- — Volume mensal e momentos de pico
- — Critério de sucesso mensurável (métrica antes/depois)
- — Identificação dos sistemas envolvidos (CRM, WhatsApp, e-mail, planilha, ERP)
- — Validação de regras escritas vs. regras tácitas (o "Maria sabe como faz")
Artefatos versionados- — Fluxograma do processo atual e do processo com agente
- — Documento de critério de sucesso assinado pelas duas pontas
Arquitetura
2–5 diasObjetivo: Definir o como antes de escrever código.
Entregáveis- — Escolha do modelo (GPT-4o, Claude 3.5 Sonnet, Llama 3 self-hosted) por custo/latência/governança
- — Padrão de orquestração (single-agent, multi-agent, function calling, agentes hierárquicos)
- — Estratégia de memória (RAG com vector store, memória de curto prazo, contexto de sessão)
- — Integrações: APIs disponíveis, fallback (webhook, planilha, scraping)
- — Plano de observabilidade (logs estruturados, traces, métricas de qualidade)
- — Estratégia de fallback humano (quando o agente NÃO deve agir sozinho)
Artefatos versionados- — ADR (Architecture Decision Record) por escolha não-trivial
- — Diagrama de sistema (sequência + componentes)
Build do pilot
5–10 dias úteisObjetivo: Versão mínima funcional que cobre o fluxo principal.
Entregáveis- — Tool/function definitions com schema validado
- — Prompts de sistema com guardrails explícitos (o que NÃO fazer)
- — Conector pro CRM/WhatsApp/sistema legado
- — Pipeline RAG com chunking e embedding configurados
- — Suite de eval (10–30 casos de teste com expected output)
- — Dashboard mínimo (taxa de sucesso, latência, custo/execução)
Artefatos versionados- — Repositório com README + arquitetura
- — Variáveis de ambiente documentadas
- — Runbook de incidente
Pilot em produção
2–4 semanasObjetivo: Rodar com 10–30% do volume real e medir.
Entregáveis- — Rampa gradual: dia 1 com 5%, semana 1 com 20%, semana 2 com 50%
- — Comparativo lado a lado: agente vs humano nos mesmos casos
- — Calibração de prompts com base em erros reais
- — Validação do critério de sucesso definido no discovery
Artefatos versionados- — Relatório semanal de métricas
- — Lista de casos onde o agente errou (e o porquê)
Produção full + manutenção
contínuoObjetivo: Manter o agente útil enquanto o negócio evolui.
Entregáveis- — Monitoramento 24/7 com alerta em fail rate / latência / custo
- — Ciclo mensal de revisão (novos edge cases, ajuste de prompts)
- — Atualização quando muda dependência (modelo novo da OpenAI/Anthropic)
- — Versionamento de prompts e reversão segura
- — Relatório mensal de KPI vs baseline
Artefatos versionados- — Changelog do agente (o que mudou e por quê)
- — KPI dashboard compartilhado com o cliente
O que NÃO entra num agente sob medida (e por quê)
- Caso esporádico (10x/mês): custo de build não amortiza. Use ChatGPT pago.
- Regra que ainda não foi escrita: agente sem regra clara é caro pra calibrar e perigoso na operação. Documente o processo primeiro.
- Dado que ninguém quer estruturar: "tem tudo no e-mail e na cabeça da Maria". RAG ajuda mas não milagra. Antes de agente, organize a fonte de verdade.
- Substituir time inteiro: agente substitui tarefa, não pessoa. Pessoa sobe pra gerir o agente — produtividade multiplica, mas não é zero-pessoa.
Perguntas técnicas comuns
Quanto tempo leva do discovery até produção?
Vocês usam que stack?
O código é meu ou de vocês?
O que é função/tool calling e por que importa?
Como vocês evitam alucinação em decisões importantes?
E LGPD?
Quer ver isso aplicado no seu caso?
Discovery de 30 minutos, gratuito. Você conta o processo, eu aponto que fase pediria mais investimento, qual stack faz sentido, e se faz sentido mesmo construir.