Seu Agente Está Queimando Dinheiro (Aqui Está a Matemática e a Solução)

Você construiu um agente. Ele funciona. Então você recebeu a conta da API.

Vamos fazer as contas sobre um agente típico em produção antes da otimização:

Chamada de tarefa única:
- 2.000 tokens de prompt do sistema
- 1.500 tokens de histórico de conversa
- 3.000 tokens de esquemas de ferramentas (10 ferramentas)
- 500 tokens de consulta do usuário
- 200 tokens de contexto recuperado
───────────────────────────────
Total de entrada: 7.200 tokens
Saída: 400 tokens

Em claude-sonnet-4:
  Entrada: 7.200 × $3/M  = $0.0216
  Saída: 400 × $15/M  = $0.0060
  Por chamada: ~$0.028

Em 1.000 chamadas/dia: $28/dia = $840/mês

Agora aqui está o mesmo sistema após a otimização:

Com cache + compressão + roteamento:
- Sistema + esquemas em cache (desconto de 90%): $0.00165
- Histórico comprimido: 800 tokens × $3/M  = $0.0024
- Consulta do usuário + contexto: 700 tokens × $3/M = $0.0021
- 60% das tarefas roteadas para Haiku

Custo médio por chamada: ~$0.004
Em 1.000 chamadas/dia: $4/dia = $120/mês

Economia: 86% de redução ($720/mês economizados)

Isso não é uma melhoria marginal. Essa é a diferença entre um produto viável e um que queima dinheiro mais rápido do que ganha. Vamos passar por como chegar lá.

Passo 1: Ativar o Cache de Prompt (redução de 40–70%, 2 linhas de código)

A otimização com maior ROI. A Anthropic cobra 10% do preço normal de entrada para leituras de cache. O ponto de equilíbrio é literalmente 1,1 solicitações.

A maioria dos desenvolvedores nunca ativa porque "parece complicado". Não é.

# Antes (sem cache)
response = client.messages.create(
    model="claude-sonnet-4-5",
    system=my_system_prompt,  # Pagou o preço total a cada chamada
    messages=conversation,
    ...
)

# Depois (com cache)
response = client.messages.create(
    model="claude-sonnet-4-5",
    system=[{
        "type": "text",
        "text": my_system_prompt,
        "cache_control": {"type": "ephemeral"}  # ← isso
    }],
    messages=conversation,
    ...
)

Essa é a mudança completa para o cache básico. Faça isso hoje.

Para o histórico de conversa, coloque o ponto de interrupção do cache no final do histórico estável:

# Cache o histórico de conversa até a última interação
for i, msg in enumerate(history[:-1]):
    messages.append(msg)  # Sem marcador de cache nas mensagens antigas

# A última mensagem histórica recebe o marcador de cache
last_hist = history[-1].copy()
last_hist["content"] = messages.append(last_hist)

# Mensagem atual — nunca cache (é sempre única)
messages.append({"role": "user", "content": current_message})

Acompanhe o desempenho do seu cache via response.usage:

usage = response.usage
hit_rate = usage.cache_read_input_tokens / (
    usage.input_tokens + usage.cache_read_input_tokens
)
print(f"Taxa de acerto do cache:

Seu Agente Está Queimando Dinheiro (Aqui Está a Matemática e a Solução)

Seu Agente Está Queimando Dinheiro (Aqui Está a Matemática e a Solução)

Passo 1: Ativar o Cache de Prompt (redução de 40–70%, 2 linhas de código)

`Noticias relacionadas`

Controle em Tempo de Execução vs Guardrails Estáticos em Sistemas Agentes

Por que os usuários estão fugindo da busca sem IA e o que isso significa para o SEO

Relatório de Visão Geral de IA do GSC: Como Podemos Usar Essas Informações?

`Gostou do conteudo?`