Playbook técnico

Playbook: como se constrói um agente AI sob medida

Cinco fases, do discovery ao monitoramento contínuo. Sem mistério, sem buzzword: o que sai do escopo, o que entra no preço, como medir se está funcionando — e quando dizer que NÃO faz sentido construir agente.

Publicado em 30 de abril de 2026Atualizado em 1 de maio de 2026

O que um agente AI faz, em 4 movimentos

01
Lê
- · Email
- · PDF
- · Planilha
- · CRM
- · Ticket
→
02
Decide
- · Classifica
- · Extrai dado
- · Compara regra
- · Marca risco
→
03
Age
- · CRM
- · WhatsApp
- · Drive
- · Planilha
- · Sistema
→
04
Devolve
- · Resumo no formato do time
- · Só chama humano se foge do padrão

Não é chatbot. É um software que lê, decide, age e devolve — dentro do seu fluxo, com seus dados, sob suas regras.

As 5 fases de um projeto

Discovery
1–3 dias
Objetivo: Entender o processo real, não o processo desenhado.
Entregáveis
- — Mapeamento do fluxo atual (entrada → decisão → ação → saída)
- — Volume mensal e momentos de pico
- — Critério de sucesso mensurável (métrica antes/depois)
- — Identificação dos sistemas envolvidos (CRM, WhatsApp, e-mail, planilha, ERP)
- — Validação de regras escritas vs. regras tácitas (o "Maria sabe como faz")
Artefatos versionados
- — Fluxograma do processo atual e do processo com agente
- — Documento de critério de sucesso assinado pelas duas pontas
Arquitetura
2–5 dias
Objetivo: Definir o como antes de escrever código.
Entregáveis
- — Escolha do modelo (GPT-4o, Claude 3.5 Sonnet, Llama 3 self-hosted) por custo/latência/governança
- — Padrão de orquestração (single-agent, multi-agent, function calling, agentes hierárquicos)
- — Estratégia de memória (RAG com vector store, memória de curto prazo, contexto de sessão)
- — Integrações: APIs disponíveis, fallback (webhook, planilha, scraping)
- — Plano de observabilidade (logs estruturados, traces, métricas de qualidade)
- — Estratégia de fallback humano (quando o agente NÃO deve agir sozinho)
Artefatos versionados
- — ADR (Architecture Decision Record) por escolha não-trivial
- — Diagrama de sistema (sequência + componentes)
Build do pilot
5–10 dias úteis
Objetivo: Versão mínima funcional que cobre o fluxo principal.
Entregáveis
- — Tool/function definitions com schema validado
- — Prompts de sistema com guardrails explícitos (o que NÃO fazer)
- — Conector pro CRM/WhatsApp/sistema legado
- — Pipeline RAG com chunking e embedding configurados
- — Suite de eval (10–30 casos de teste com expected output)
- — Dashboard mínimo (taxa de sucesso, latência, custo/execução)
Artefatos versionados
- — Repositório com README + arquitetura
- — Variáveis de ambiente documentadas
- — Runbook de incidente
Pilot em produção
2–4 semanas
Objetivo: Rodar com 10–30% do volume real e medir.
Entregáveis
- — Rampa gradual: dia 1 com 5%, semana 1 com 20%, semana 2 com 50%
- — Comparativo lado a lado: agente vs humano nos mesmos casos
- — Calibração de prompts com base em erros reais
- — Validação do critério de sucesso definido no discovery
Artefatos versionados
- — Relatório semanal de métricas
- — Lista de casos onde o agente errou (e o porquê)
Produção full + manutenção
contínuo
Objetivo: Manter o agente útil enquanto o negócio evolui.
Entregáveis
- — Monitoramento 24/7 com alerta em fail rate / latência / custo
- — Ciclo mensal de revisão (novos edge cases, ajuste de prompts)
- — Atualização quando muda dependência (modelo novo da OpenAI/Anthropic)
- — Versionamento de prompts e reversão segura
- — Relatório mensal de KPI vs baseline
Artefatos versionados
- — Changelog do agente (o que mudou e por quê)
- — KPI dashboard compartilhado com o cliente

O que NÃO entra num agente sob medida (e por quê)

Caso esporádico (10x/mês): custo de build não amortiza. Use ChatGPT pago.
Regra que ainda não foi escrita: agente sem regra clara é caro pra calibrar e perigoso na operação. Documente o processo primeiro.
Dado que ninguém quer estruturar: "tem tudo no e-mail e na cabeça da Maria". RAG ajuda mas não milagra. Antes de agente, organize a fonte de verdade.
Substituir time inteiro: agente substitui tarefa, não pessoa. Pessoa sobe pra gerir o agente — produtividade multiplica, mas não é zero-pessoa.

Perguntas técnicas comuns

Quanto tempo leva do discovery até produção?

Pilot em até 15 dias úteis (discovery + arquitetura + build + 1 semana de validação). Produção full em mais 2-4 semanas após o pilot, dependendo de volume e quantidade de edge cases descobertos.

Vocês usam que stack?

Modelos via OpenAI (GPT-4o, GPT-4o-mini), Anthropic (Claude 3.5 Sonnet), opcionalmente Llama 3 self-hosted quando exige governança. Orquestração com LangChain ou código direto dependendo da complexidade. Vector store: pgvector (Postgres) ou Qdrant. Backend Node.js ou Python. WhatsApp via Evolution API ou WhatsApp Cloud API oficial.

O código é meu ou de vocês?

Seu. Repositório no seu GitHub/GitLab, deploy na sua conta de cloud, modelos sob suas chaves de API. Documentação aberta. Vocês podem auditar, evoluir, ou trocar de fornecedor sem reescrever do zero. Vendo expertise, não lock-in.

O que é função/tool calling e por que importa?

É como o agente decide quais ações tomar. Em vez de mandar texto livre pro LLM e esperar que ele "entenda", você expõe funções com schema (ex.: criar_lead(nome, email, vertical)). O modelo escolhe qual chamar e com quais parâmetros. Resultado: agente confiável, testável, auditável.

Como vocês evitam alucinação em decisões importantes?

Três camadas: (1) prompt com guardrails explícitos do que NÃO fazer; (2) function calling com validação de schema antes de executar; (3) fallback humano obrigatório em casos de baixa confiança ou alto impacto (ex: qualquer decisão financeira > R$ X). Não é "AI mágica" — é AI auditada.

E LGPD?

Discovery cobre o levantamento de dados pessoais envolvidos. Arquitetura define onde dado fica (Brasil, Europa, EUA), por quanto tempo, com qual base legal. Cliente é o controlador, eu sou operador — DPA assinado. Sem dado sensível indo pra modelo público sem necessidade comprovada.

Quer ver isso aplicado no seu caso?

Discovery de 30 minutos, gratuito. Você conta o processo, eu aponto que fase pediria mais investimento, qual stack faz sentido, e se faz sentido mesmo construir.

Marcar discovery →Comparar com outras opções

Playbook: como se constrói um agente AI sob medida

O que um agente AI faz, em 4 movimentos

As 5 fases de um projeto

Discovery

Arquitetura

Build do pilot

Pilot em produção

Produção full + manutenção

O que NÃO entra num agente sob medida (e por quê)

Perguntas técnicas comuns

Quer ver isso aplicado no seu caso?