O que é RAG e Por que Sua IA Precisa dos Seus Dados

Você pergunta pro ChatGPT sobre o bug que aconteceu ontem no seu sistema. Ele responde algo genérico sobre debugging. Você insiste, cola o log de erro. Ele dá uma resposta melhor, mas você teve que fazer o trabalho de alimentar a IA manualmente.

E se a IA pudesse ir buscar essa informação sozinha?

Isso é RAG (Retrieval-Augmented Generation) — e é provavelmente a técnica mais importante pra quem quer usar IA de verdade no dia a dia de desenvolvimento.

O problema fundamental das LLMs

Modelos como GPT-4, Claude e Gemini sabem muita coisa. Foram treinados em bilhões de documentos. Mas têm duas limitações sérias:

Não conhecem seus dados privados. Seu código, seus logs, sua documentação interna — nada disso existe pro modelo.
O conhecimento tem data de corte. Se algo aconteceu depois do treinamento, o modelo não sabe.

A solução ingênua seria retreinar o modelo com seus dados. Mas retreinar uma LLM custa milhares de dólares e leva semanas. Não é viável pra 99% dos casos.

RAG resolve isso de um jeito elegante: em vez de ensinar o modelo, você busca a informação relevante e cola no contexto antes de ele responder.

Como RAG funciona, passo a passo

O processo tem três etapas:

1. Indexação (uma vez)

Você pega seus documentos — arquivos Markdown, logs, código, PDFs, qualquer coisa textual — e transforma em embeddings. Um embedding é uma representação numérica do significado de um texto. Frases com significados parecidos ficam "perto" no espaço vetorial.

Esses embeddings são armazenados em um banco vetorial (como Chroma, Pinecone, pgvector ou FAISS).

2. Busca (a cada pergunta)

Quando você faz uma pergunta, ela também é transformada em embedding. O sistema busca os documentos mais semanticamente próximos da sua pergunta.

Isso é diferente de busca por palavras-chave. Se você pergunta "como resolver alta carga de CPU", uma busca por palavras-chave só encontra documentos que contêm essas palavras exatas. Busca vetorial encontra seu runbook de incidentes que fala sobre "load average acima de 4.0" — porque o significado é próximo.

3. Geração (a resposta)

Os documentos encontrados são injetados no contexto da LLM, junto com sua pergunta. O modelo agora tem acesso a informação que não estava no treinamento dele. Ele responde baseado nos seus dados reais, não em conhecimento genérico.

Quando usar RAG vs. fine-tuning

	RAG	Fine-tuning
Custo	Baixo (só embedding)	Alto (retreino)
Velocidade	Minutos pra configurar	Horas/dias pra treinar
Dados atualizados	Sim, em tempo real	Precisa retreinar
Melhor pra	Consultar dados privados	Mudar o estilo/formato
Alucinação	Menor (fontes citáveis)	Pode piorar

Na prática, RAG é a resposta certa pra 90% dos casos onde você quer que a IA conheça seus dados. Fine-tuning é pra quando você quer mudar como o modelo responde, não o que ele sabe.

Exemplo real: busca semântica em notas pessoais

No meu setup, uso RAG local pra buscar semanticamente nas minhas notas — veja o projeto completo.

O servidor MCP knowledge-rag indexa meus arquivos Markdown e permite que o Claude Code faça perguntas como:

"Qual foi o último incidente de segurança?"
"Como está configurado o backup do MySQL?"
"Que decisões o Billy tomou sobre billing?"

Mesmo sem as palavras exatas nos arquivos, a busca vetorial encontra os documentos certos. É a diferença entre buscar no Google (keywords) e perguntar pra alguém que leu tudo (semântica).

Ferramentas pra começar

Se quiser implementar RAG hoje:

LangChain / LlamaIndex — frameworks Python que abstraem todo o pipeline
Chroma — banco vetorial simples, roda local, zero config
pgvector — extensão pro PostgreSQL, ideal se você já usa Postgres
OpenAI Embeddings — API pra gerar embeddings (text-embedding-3-small é barato e bom)

Um setup mínimo com LangChain + Chroma + OpenAI roda em 20 linhas de Python.

RAG na Prática: Como Uso no HubNews

A teoria é bonita, mas eu queria mostrar como RAG funciona de verdade em produção. No HubNews — minha plataforma de notícias movida por IA — o pipeline inteiro de publicação é um RAG multi-estágio.

O fluxo completo

RSS (300 chars) → Jina Reader (1800 chars) → Embeddings → Similar Articles + SEO Data → AI Writer → Article

Cada etapa adiciona uma camada de contexto. Não é um "joga tudo no prompt e reza". É uma cadeia onde cada estágio enriquece o anterior.

Retrieve: buscando o conteúdo real

Tudo começa com o RSS. O problema: um feed RSS te dá ~300 caracteres de resumo. Impossível escrever algo decente com isso.

O ResearchAgent usa a Jina Reader API pra buscar o artigo original completo. Ele extrai só o corpo do texto — sem menu, sem footer, sem sidebar, sem comentários. O conteúdo salta de ~300 pra ~1800 caracteres. Se a Jina falha, ele cai pra HTTP direto com extração por regex. O pipeline não para.

Deduplicate: embeddings contra duplicatas

Cada artigo recebe um embedding via OpenAI (text-embedding-3-small, 512 dimensões). Esse vetor é comparado contra os últimos 600 artigos usando dot product. Se a similaridade passa de 0.82, o artigo é duplicata — ele é mesclado com o existente em vez de virar um post separado.

Isso evita publicar 5 versões da mesma notícia quando toda fonte cobre o mesmo assunto.

Augment: contexto interno + dados reais de SEO

Aqui é onde o RAG brilha de verdade. O WriterAgent recebe três tipos de contexto injetados no prompt:

O conteúdo enriquecido — o artigo completo do Jina Reader
Até 3 artigos similares já publicados (threshold 0.5) — marcados como "cobertura anterior — não copiar, usar para enriquecer"
Dados reais de SEO do Google Search Console — títulos que performaram melhor, dados de CTR

O modelo não está escrevendo no vácuo. Ele sabe o que já publicamos sobre o tema e o que funciona em termos de engajamento.

Generate + Validate

O DeepSeek v3.2 reescreve o artigo com todo esse contexto, seguindo regras estritas: sem dados inventados, sem headlines genéricas, números específicos obrigatórios.

Depois, o CritiqueJob avalia a qualidade do título e o FactCheckerJob verifica as alegações contra as fontes originais.

O insight que importa

Isso não é um RAG simples de "joga contexto no prompt". É multi-estágio: buscar conteúdo externo → enriquecer com conhecimento interno (artigos similares) → otimizar com dados reais de performance (SEO) → validar output. Cada estágio é não-bloqueante — se qualquer busca falha, o pipeline continua com o que tem.

O que muda na prática

RAG transforma a IA de um "sabe-tudo genérico" em um especialista no seu contexto. O modelo continua o mesmo, mas agora ele tem acesso ao que importa — seus dados, sua documentação, seu histórico.

A tendência é clara: cada vez mais ferramentas de desenvolvimento vão embutir RAG por padrão. O Cursor já faz isso com seu código. O Claude Code faz com os arquivos de memória. O GitHub Copilot está adicionando contexto de repositório.

Se você ainda copia e cola contexto manualmente pra IA, vale entender RAG. É a diferença entre gritar instruções pra alguém do outro lado da rua e sentar do lado dele com todos os documentos na mesa.