Além do RAG: Por que cada plataforma de busca em IA agora é agentiva e o que isso significa para seu conteúdo

Há dois anos e meio, escrevi um artigo para o Search Engine Land sobre como a geração aumentada por recuperação (RAG) era o futuro da busca. Esse artigo argumentava que a RAG não era a resposta reativa do Google ao ChatGPT. Era a arquitetura que eles estavam construindo desde o artigo REALM em agosto de 2020. O SGE (agora AI Overviews) era a manifestação em produção. Tudo o que aconteceu desde então confirmou isso.

O pipeline de RAG de uma única tentativa que descrevi naquele artigo, consulta → recuperador → top-k pedaços → LLM → resposta com citações, já é passado. Cada plataforma de busca de IA importante avançou. Google AI Mode, ChatGPT Search, Perplexity Pro Search, Claude com Uso de Computador, Gemini Deep Research, até mesmo os agentes Microsoft Copilot Researcher e Analyst, todos eles operam com uma arquitetura diferente agora. Eles planejam. Eles roteiam entre ferramentas. Eles recuperam, leem e depois recuperam novamente. Eles avaliam seus próprios primeiros rascunhos e decidem se devem voltar para mais. O padrão de recuperar uma vez e depois gerar que definiu a primeira onda é obsoleto.

Isso é RAG agentic, e agora é o padrão.

Se o seu programa GEO ainda está otimizado para recuperação de uma única tentativa, você está otimizando para um sistema que não existe mais. Pior: na RAG agentic, você não pode ver os gatekeepers rejeitando você. Você só vê se acabou na resposta final. O manual tradicional de engenharia reversa (verificação de classificação, contagem de citações, até mesmo amostragem prompt a prompt) só vê a última etapa de um pipeline de múltiplas etapas. Tudo o que acontece a montante é uma caixa-preta.

Quando você chegar ao final desta página, terá um modelo mental funcional de RAG agentic, as evidências patenteadas de que o Google productizou essa arquitetura, o que cada plataforma importante está realmente fazendo, as seis mudanças concretas que isso força na engenharia de conteúdo e uma auditoria reproduzível que você pode realizar contra sua própria marca esta semana. Você também terá a opinião mais forte que publiquei este ano: a única maneira honesta de avançar é destilação de modelo.

O que o artigo do Search Engine Land acertou e o que mudou

A tese de outubro de 2023 ainda se mantém. A recuperação em nível de passagem é a unidade de relevância. Os gráficos de conhecimento são simbióticos com LLMs, não uma caixa de seleção que você marca uma vez e esquece. As pontuações de IR estáticas são obsoletas. O trabalho de um sistema de busca é reduzir custos delficos, o custo que um usuário paga para chegar a uma resposta, e o princípio organizador do Google sempre foi que o tráfego é um mal necessário, não um objetivo. Essa parte do argumento não precisa de revisão.

O que mudou é a forma do pipeline de recuperação.

Em 2023, a RAG era uma linha de montagem linear. Uma consulta chegava, um modelo de incorporação a codificava, um índice vetorial retornava os top-k trechos, esses trechos eram inseridos na janela de contexto do LLM e o modelo gerava uma resposta. O rastreamento de citações era direto porque o conjunto de citações era o conjunto de recuperação. Se seu conteúdo estava entre os top-k, você tinha uma chance. Se não estava, você não tinha. Esta é a estrutura que descrevi naquele artigo, e era precisa na época.

Mas as coisas mudaram.

Os pipelines agora têm quatro propriedades que a arquitetura linear não possui: planejamento, uso de ferramentas, iteração em múltiplas etapas e reflexão. A implicação é que a recuperação não é mais um único evento. Uma única consulta de usuário aciona entre cinco e vinte sub-recuperações internas. O agente orquestra essas recuperações, avalia os resultados intermediários e só sintetiza uma resposta final uma vez que decidiu que a base de evidências é suficiente.

Esta é a atualização que meu artigo previu, mas não nomeou.

Por que a RAG ingênua quebrou

A qualidade da recuperação determina a qualidade da saída e a RAG ingênua tem quatro modos de falha que resultaram em resultados de menor qualidade.

A RAG clássica de passagem única não pode atender a perguntas compostas – Um prompt como {Como uma troca 1031 interage com um SEP IRA para um proprietário de LLC com menos de 50 anos?} precisa de cinco recuperações, não uma. Uma única consulta de incorporação contra um índice vetorial irá encontrar documentos sobre trocas 1031 ou SEP IRAs, e a síntese será incoerente porque o modelo é forçado a unir duas recuperações que nunca fez.
A RAG clássica não pode se recuperar de uma primeira tentativa ruim – Se a recuperação inicial perde a fonte canônica porque a distância de incorporação estava errada, ou porque os limites dos trechos dividiram a passagem relevante ao meio, ou porque um conteúdo concorrente mais agressivo pontuou mais alto em uma consulta que o usuário não pediu literalmente, então o modelo não tem nada em que se apoiar, exceto seu conhecimento paramétrico. É quando as alucinações se acumulam.
A RAG clássica não roteava entre ferramentas de recuperação – A busca vetorial é a resposta certa para algumas sub-perguntas e exatamente errada para outras. “Qual é a taxa de hipoteca de hoje?” precisa de uma chamada de API de dados estruturados, não de uma busca de passagem. “O que a IRS diz sobre a Seção 179?” precisa de um filtro de fonte autoritativa, não de similaridade. “Calcule o cronograma de depreciação de um veículo de $50.000 colocado em serviço em março” precisa de um interpretador de código ou uma ferramenta de calculadora. Um único recuperador não pode fazer essas escolhas.
A RAG clássica não pode avaliar seu próprio trabalho – Uma vez que a resposta é gerada, a RAG ingênua a envia. Não há crítico. Nenhuma segunda tentativa. Nenhum “espere, isso contradiz a fonte que citei dois parágrafos acima.” Se o modelo erra, o usuário vê a resposta errada.

Esses quatro modos de falha são a razão pela qual cada implantação séria mudou para uma arquitetura diferente. Cada um tem uma correção correspondente, e as correções juntas são a RAG agentic.

O que 'agentic' significa na RAG agentic

O wor

Além do RAG: Por que cada plataforma de busca em IA agora é agentiva e o que isso significa para seu conteúdo

O que o artigo do Search Engine Land acertou e o que mudou

Por que a RAG ingênua quebrou

O que 'agentic' significa na RAG agentic

Noticias relacionadas

Mudando de 'ver avaliações' para 'executar campanhas': A mudança de fluxo de trabalho Agentic

Construindo Sistemas de IA Agente de Grau de Produção: Um Blueprint para Escalabilidade, Latência e Confiança

Como Medir a Visibilidade em Busca de IA

Gostou do conteudo?