
Por que a Busca de Similaridade Ingênua Destruirá Seu Agente RAG (E O Que Fazer em Vez Disso)
A maioria das implementações de RAG que vejo em produção usa busca de similaridade ingênua: incorpora a consulta, encontra os vetores mais próximos, os coloca no contexto, gera. Funciona em demonstrações. Falha em produção.
Veja por que — e aqui está o padrão que eu adotei após rodar agentes autônomos 24/7.
O Problema Com RAG Ingênuo
Considere o que a similaridade do cosseno realmente mede: ela encontra pedaços cuja direção de incorporação é semelhante à direção de incorporação da sua consulta. Isso parece bom até você perceber:
Desajustes de palavras-chave. Se um usuário pergunta "qual é nossa política de reembolso?" mas seus documentos dizem "política de devolução," a similaridade do cosseno pode classificar um documento completamente irrelevante sobre "atualizações de política" mais alto porque aconteceu de compartilhar tokens comuns no espaço de incorporação.
Sem diversidade. Você pode facilmente obter 5 pedaços quase idênticos da mesma seção do documento — todos pontuando 0.87 — quando você precisava de 5 diferentes perspectivas sobre o tópico.
Sem ponderação de frescor. Um documento de política de 2 anos atrás e um de semana passada classificam-se identicamente.
Alucinação silenciosa. Quando a recuperação retorna resultados de baixa qualidade, o LLM não diz "não consegui encontrar isso" — ele alucina. E você não saberá até que alguém reclame.
A pior parte: suas avaliações provavelmente parecem boas. RAGAS pode pontuar 0.8 no seu conjunto de testes. Então a produção chega e os casos extremos te matam.
O Padrão Que Realmente Funciona
Aqui está o que eu uso para agentes de produção. Você não precisa de tudo isso — comece com busca híbrida, adicione o resto à medida que seu uso cresce.
Nível 1: Busca Híbrida (Densa + Esparsa)
Isso é inegociável para qualquer sistema de produção. Vetores densos capturam similaridade semântica; BM25 captura correspondências exatas de palavras-chave. Nenhum deles sozinho é suficiente.
A combinação via Reciprocal Rank Fusion (RRF):
def hybrid_retrieve(query, k=10, final_k=5, rrf_k=60):
query_vec = embed(query)
dense_results = vector_store.similarity_search(query_vec, k=k)
sparse_results = bm25_index.search(query, k=k)
scores = {}
for rank, result in enumerate(dense_results):
scores.setdefault(result['id'], {'data': result, 'rrf': 0})
scores[result['id']]['rrf'] += 0.7 * (1.0 / (rrf_k + rank + 1))
for rank, result in enumerate(sparse_results):
scores.setdefault(result['id'], {'data': result, 'rrf': 0})
scores[result['id']]['rrf'] += 0.3 * (1.0 / (rrf_k + rank + 1))
ranked = sorted(scores.values(), key=lambda x: x['rrf'], reverse=True)
return ranked[:final_k]
A divisão 70/30 densa/esparsa funciona bem para a maioria dos domínios. Ajuste para esparsa (40/60) para conteúdo técnico com terminologia exata como códigos de produtos ou nomes de API.
Nível 2: Compressão Contextual
Uma vez que você recupera seus pedaços, não apenas os coloque todos no contexto. Peça ao LLM para extrair apenas as partes relevantes:
def compress_chunk(query, chunk_text, llm):As empresas brasileiras que utilizam agentes de IA precisam evitar a busca de similaridade ingênua para garantir resultados precisos e relevantes. A implementação de buscas híbridas pode melhorar a qualidade das respostas e a satisfação do cliente. A adoção de práticas recomendadas é essencial para a eficácia dos sistemas de IA.
Noticias relacionadas

AionUi: Uma Interface para Mais de 12 Agentes de IA - Um App de Desktop Gratuito e Open-Source
AionUi é um aplicativo de desktop que unifica a gestão de múltiplos agentes de IA em uma única interface. Suporta mais de 12 ferramentas de IA e permite automação de tarefas, agendamento e geração de documentos.
Todos os Dados e IA Semanal #236 - 06 de Abril de 2026
A edição 236 traz insights sobre a importância de modelos semânticos para equipes de dados, além de novidades sobre o Snowflake e eventos relacionados à IA e dados.

SEO em 2026: Padrões mais altos, influência da IA e uma web ainda se adaptando
O SEO técnico está se tornando mais fácil, mas decisões sobre bots, LLMs.txt e dados estruturados estão se tornando mais complexas. O artigo analisa as tendências emergentes e padrões em SEO para 2026.
Gostou do conteudo?
Receba toda semana as principais novidades sobre WebMCP.