Pular para o conteúdo

30 min com Billy. Saiba como sua empresa pode usar IA hoje.

Agendar →
Playbook técnico

Playbook: como se constrói um agente AI sob medida

Cinco fases, do discovery ao monitoramento contínuo. Sem mistério, sem buzzword: o que sai do escopo, o que entra no preço, como medir se está funcionando — e quando dizer que NÃO faz sentido construir agente.

Publicado em Atualizado em

O que um agente AI faz, em 4 movimentos

    • · Email
    • · PDF
    • · Planilha
    • · CRM
    • · Ticket
  1. Decide
    • · Classifica
    • · Extrai dado
    • · Compara regra
    • · Marca risco
  2. Age
    • · CRM
    • · WhatsApp
    • · Drive
    • · Planilha
    • · Sistema
  3. Devolve
    • · Resumo no formato do time
    • · Só chama humano se foge do padrão
Não é chatbot. É um software que lê, decide, age e devolve — dentro do seu fluxo, com seus dados, sob suas regras.

As 5 fases de um projeto

  1. Discovery

    1–3 dias

    Objetivo: Entender o processo real, não o processo desenhado.

    Entregáveis
    • Mapeamento do fluxo atual (entrada → decisão → ação → saída)
    • Volume mensal e momentos de pico
    • Critério de sucesso mensurável (métrica antes/depois)
    • Identificação dos sistemas envolvidos (CRM, WhatsApp, e-mail, planilha, ERP)
    • Validação de regras escritas vs. regras tácitas (o "Maria sabe como faz")
    Artefatos versionados
    • Fluxograma do processo atual e do processo com agente
    • Documento de critério de sucesso assinado pelas duas pontas
  2. Arquitetura

    2–5 dias

    Objetivo: Definir o como antes de escrever código.

    Entregáveis
    • Escolha do modelo (GPT-4o, Claude 3.5 Sonnet, Llama 3 self-hosted) por custo/latência/governança
    • Padrão de orquestração (single-agent, multi-agent, function calling, agentes hierárquicos)
    • Estratégia de memória (RAG com vector store, memória de curto prazo, contexto de sessão)
    • Integrações: APIs disponíveis, fallback (webhook, planilha, scraping)
    • Plano de observabilidade (logs estruturados, traces, métricas de qualidade)
    • Estratégia de fallback humano (quando o agente NÃO deve agir sozinho)
    Artefatos versionados
    • ADR (Architecture Decision Record) por escolha não-trivial
    • Diagrama de sistema (sequência + componentes)
  3. Build do pilot

    5–10 dias úteis

    Objetivo: Versão mínima funcional que cobre o fluxo principal.

    Entregáveis
    • Tool/function definitions com schema validado
    • Prompts de sistema com guardrails explícitos (o que NÃO fazer)
    • Conector pro CRM/WhatsApp/sistema legado
    • Pipeline RAG com chunking e embedding configurados
    • Suite de eval (10–30 casos de teste com expected output)
    • Dashboard mínimo (taxa de sucesso, latência, custo/execução)
    Artefatos versionados
    • Repositório com README + arquitetura
    • Variáveis de ambiente documentadas
    • Runbook de incidente
  4. Pilot em produção

    2–4 semanas

    Objetivo: Rodar com 10–30% do volume real e medir.

    Entregáveis
    • Rampa gradual: dia 1 com 5%, semana 1 com 20%, semana 2 com 50%
    • Comparativo lado a lado: agente vs humano nos mesmos casos
    • Calibração de prompts com base em erros reais
    • Validação do critério de sucesso definido no discovery
    Artefatos versionados
    • Relatório semanal de métricas
    • Lista de casos onde o agente errou (e o porquê)
  5. Produção full + manutenção

    contínuo

    Objetivo: Manter o agente útil enquanto o negócio evolui.

    Entregáveis
    • Monitoramento 24/7 com alerta em fail rate / latência / custo
    • Ciclo mensal de revisão (novos edge cases, ajuste de prompts)
    • Atualização quando muda dependência (modelo novo da OpenAI/Anthropic)
    • Versionamento de prompts e reversão segura
    • Relatório mensal de KPI vs baseline
    Artefatos versionados
    • Changelog do agente (o que mudou e por quê)
    • KPI dashboard compartilhado com o cliente

O que NÃO entra num agente sob medida (e por quê)

  • Caso esporádico (10x/mês): custo de build não amortiza. Use ChatGPT pago.
  • Regra que ainda não foi escrita: agente sem regra clara é caro pra calibrar e perigoso na operação. Documente o processo primeiro.
  • Dado que ninguém quer estruturar: "tem tudo no e-mail e na cabeça da Maria". RAG ajuda mas não milagra. Antes de agente, organize a fonte de verdade.
  • Substituir time inteiro: agente substitui tarefa, não pessoa. Pessoa sobe pra gerir o agente — produtividade multiplica, mas não é zero-pessoa.

Perguntas técnicas comuns

Quanto tempo leva do discovery até produção?
Pilot em até 15 dias úteis (discovery + arquitetura + build + 1 semana de validação). Produção full em mais 2-4 semanas após o pilot, dependendo de volume e quantidade de edge cases descobertos.
Vocês usam que stack?
Modelos via OpenAI (GPT-4o, GPT-4o-mini), Anthropic (Claude 3.5 Sonnet), opcionalmente Llama 3 self-hosted quando exige governança. Orquestração com LangChain ou código direto dependendo da complexidade. Vector store: pgvector (Postgres) ou Qdrant. Backend Node.js ou Python. WhatsApp via Evolution API ou WhatsApp Cloud API oficial.
O código é meu ou de vocês?
Seu. Repositório no seu GitHub/GitLab, deploy na sua conta de cloud, modelos sob suas chaves de API. Documentação aberta. Vocês podem auditar, evoluir, ou trocar de fornecedor sem reescrever do zero. Vendo expertise, não lock-in.
O que é função/tool calling e por que importa?
É como o agente decide quais ações tomar. Em vez de mandar texto livre pro LLM e esperar que ele "entenda", você expõe funções com schema (ex.: criar_lead(nome, email, vertical)). O modelo escolhe qual chamar e com quais parâmetros. Resultado: agente confiável, testável, auditável.
Como vocês evitam alucinação em decisões importantes?
Três camadas: (1) prompt com guardrails explícitos do que NÃO fazer; (2) function calling com validação de schema antes de executar; (3) fallback humano obrigatório em casos de baixa confiança ou alto impacto (ex: qualquer decisão financeira > R$ X). Não é "AI mágica" — é AI auditada.
E LGPD?
Discovery cobre o levantamento de dados pessoais envolvidos. Arquitetura define onde dado fica (Brasil, Europa, EUA), por quanto tempo, com qual base legal. Cliente é o controlador, eu sou operador — DPA assinado. Sem dado sensível indo pra modelo público sem necessidade comprovada.

Quer ver isso aplicado no seu caso?

Discovery de 30 minutos, gratuito. Você conta o processo, eu aponto que fase pediria mais investimento, qual stack faz sentido, e se faz sentido mesmo construir.