Reduza seus custos de busca com IA sem sacrificar a qualidade

Ilustração geométrica 3D abstrata representando recuperação assimétrica na busca por IA, apresentando uma esfera texturizada equilibrada em um anel inclinado orbitando um cilindro central.

O custo que está impulsionando sua conta de busca por IA

Toda organização que utiliza busca impulsionada por IA enfrenta o mesmo fator de custo oculto: embeddings de consulta. Documentos são incorporados uma vez. Consultas são incorporadas continuamente para cada usuário, cada busca, a cada segundo. Em grande escala, isso rapidamente se torna um dos maiores itens na sua infraestrutura de orçamento de IA.

Juntas, a Vespa AI e a Voyage AI resolveram esse problema com uma técnica chamada recuperação assimétrica. Use o melhor modelo de embedding disponível para seus documentos (uma vez, no momento da indexação), e então incorpore consultas gratuitamente usando um pequeno modelo em execução localmente. A família de modelos voyage-4 da Voyage AI é construída exatamente para isso. Todos os quatro modelos compartilham um espaço vetorial comum, tornando a divisão prática sem qualquer reindexação ou mudanças arquitetônicas.

“Toda organização que utiliza busca impulsionada por IA enfrenta o mesmo fator de custo oculto: embeddings de consulta.”

Resumo para tomadores de decisão: Sua conta de embedding de consulta efetivamente vai a zero e seu caminho de busca se torna mais resiliente, tudo isso sem substituir sua infraestrutura de busca existente.

O problema: A simetria é cara

A abordagem convencional utiliza o mesmo modelo de embedding para documentos e consultas. É simples, mas ignora uma assimetria crítica em como essas duas operações funcionam.

	Embedding de Documento	Embedding de Consulta
Frequência	Uma vez por documento	Cada solicitação
Sensibilidade à latência	Nenhuma, nenhum usuário está esperando	No caminho crítico, 24/7
Custo @ 10K QPS	Amortizado, negligenciável	~$15,500/mês

Com 10.000 consultas por segundo e consultas de ~30 tokens, você gera aproximadamente 777 bilhões de tokens por mês, todos roteados através de uma API externa a um custo real.

A solução: Recuperação assimétrica com Voyage AI + Vespa

A família voyage-4 da Voyage AI introduz quatro modelos (voyage-4-large, voyage-4, voyage-4-lite e voyage-4-nano) que produzem embeddings em um espaço vetorial compartilhado. Você pode incorporar documentos com o modelo mais poderoso e consultar com o menor, e eles permanecem totalmente compatíveis.

A Vespa agora tem suporte nativo para esse fluxo de trabalho, executando voyage-4-nano localmente dentro de seus nós de contêiner, sem chamadas de API, sem limites de taxa e sem custo adicional.

Como funciona

Passo 1: tempo de indexação: documentos → `voyage-4-large` (API)

Incorpore cada documento uma vez com o modelo de ponta da Voyage AI. Os resultados são a mais alta precisão, sem pressão de latência. O custo é totalmente amortizado ao longo da vida útil do documento.

Passo 2: tempo de consulta: consultas → `voyage-4-nano` (local)

Incorpore cada consulta de usuário com um pequeno modelo em execução dentro da Vespa. Funciona em milissegundos de um único dígito na CPU. Zero dependência de API externa. Zero custo.

Leia o blog técnico completo.

Impacto nos negócios em um relance

Métrica	Simétrica (tradicional)	Assimétrica (Vespa + Voyage AI)
Custo de embedding de consulta @ 10K QPS	❌ ~$15,500 / mês	✅ $0 / mês
Latência de embedding de consulta	❌ API round-trip (10–80ms)	✅ <5ms na CPU (local)
Qualidade de recuperação vs. OpenAI v3 Large	Base	✅ +14.05% NDCG@10
Dependência de API no caminho crítico	❌ Sim, interrupções afetam a busca	✅ Não, totalmente autossuficiente
Reindexação para atualizar o modelo de consulta	❌ Necessária	✅ Não necessária
Qualidade de documento em múltiplas camadas	❌ Não suportada	✅ Suportada

Por que a resiliência operacional é importante

Eliminar a API externa do caminho de consulta é mais do que uma otimização de custo, é uma decisão de confiabilidade.

“Eliminar a API externa do caminho de consulta é mais do que uma otimização de custo, é uma decisão de confiabilidade.”

Risco	Arquitetura Tradicional	Arquitetura Assimétrica
Interrupção da API	A busca para	Sem impacto, totalmente local
Limitação de taxa	Solicitações descartadas/delayed em picos de tráfego	Sem limites de taxa
Escalonamento	Dias para negociar uma cota de API mais alta	Minutos para adicionar nós de contêiner Vespa

Com a recuperação assimétrica, o caminho de consulta é totalmente autossuficiente. A busca funciona independentemente do status da API de terceiros.

Avançado: classificação em duas fases para máxima precisão

A Vespa combina essa arquitetura com uma estratégia de classificação em duas fases que oferece tanto velocidade quanto precisão em grande escala.

A Vespa armazena vetores de documentos em duas formas, embeddings binários compactos (16× menores em memória) para recuperação rápida na primeira fase, e bfloat16 de precisão total (em disco) para reclassificação precisa na segunda fase. O resultado é uma busca com velocidade binária e precisão total.

Fase 1: varredura completa do índice

Distância de Hamming em vetores binários. ~1 bilhão de cálculos de distância por segundo. Recupera os 2.000 principais candidatos de todo o corpus em milissegundos.

Fase 2: reclassificação de precisão

Bfloat16