Como Adicionar Seleção de Modelo Consciente de Custos ao Seu Agente de IA

Todo agente de IA escolhe um modelo. A maioria escolhe o mesmo toda vez — geralmente o mais caro. Isso é um bom padrão quando você está prototipando, mas em produção significa que você está pagando demais por tarefas simples e subutilizando modelos complexos.

Este tutorial mostra como adicionar seleção de modelo dinâmica e consciente de custos a qualquer agente de IA usando o WhichModel, um servidor MCP aberto que rastreia preços e capacidades em mais de 100 modelos LLM.

O Problema

Os preços dos LLM mudam constantemente. Novos modelos são lançados semanalmente. Escolher o modelo certo para cada tarefa requer saber:

Preços atuais entre os provedores
Quais modelos suportam as capacidades que você precisa (chamada de ferramenta, saída JSON, visão)
Como a qualidade do modelo se relaciona com a complexidade da tarefa

Manter isso você mesmo significa construir um banco de dados de preços, mantê-lo atualizado e escrever lógica de roteamento. Ou você pode deixar seu agente perguntar ao WhichModel.

Configuração: 30 Segundos

Adicione o WhichModel à configuração do seu cliente MCP:

{
  "mcpServers": {
    "whichmodel": {
      "url": "https://whichmodel.dev/mcp"
    }
  }
}

Sem chave de API. Sem instalação. É um servidor MCP remoto — seu agente se conecta diretamente.

Para clientes baseados em stdio (Claude Desktop, Cursor):

{
  "mcpServers": {
    "whichmodel": {
      "command": "npx",
      "args": ["-y", "whichmodel-mcp"]
    }
  }
}

Usando: Três Padrões

Padrão 1: Roteamento Baseado em Tarefa

Peça ao WhichModel para recomendar um modelo com base no que você está fazendo:

recommend_model(
  task_type: "code_generation",
  complexity: "high",
  estimated_input_tokens: 4000,
  estimated_output_tokens: 2000,
  requirements: { tool_calling: true }
)

O WhichModel retorna um modelo recomendado, uma alternativa dentro do orçamento, estimativas de custo e raciocínio para a escolha.

Padrão 2: Limites de Orçamento

Defina um orçamento por chamada e deixe o WhichModel encontrar o melhor modelo dentro dele:

recommend_model(
  task_type: "summarisation",
  complexity: "low",
  budget_per_call: 0.001
)

Para uma tarefa simples de sumarização, você pode estar pagando $0.01 por chamada com o GPT-4 quando uma chamada de $0.0005 para um modelo menor lhe daria o mesmo resultado.

Padrão 3: Projeções de Custo em Volume

Antes de se comprometer com um modelo, compare os custos em escala:

compare_models(
  models: ["anthropic/claude-sonnet-4", "openai/gpt-4.1-mini", "google/gemini-2.5-flash"],
  task_type: "data_extraction",
  volume: {
    calls_per_day: 10000,
    avg_input_tokens: 1000,
    avg_output_tokens: 500
  }
)

Isso lhe dá projeções de custo diárias e mensais para cada modelo, para que você possa tomar decisões informadas antes de escalar.

Por Que Isso Importa

Com 10.000 chamadas por dia, a diferença entre um modelo de $15/M-token e um modelo de $0.60/M-token é $216/dia — mais de $6.000 por mês. Para muitas tarefas, o modelo mais barato produz resultados equivalentes.

O WhichModel ajuda seu agente a fazer essa escolha automaticamente, toda vez, com dados de preços que são atualizados a cada 4 horas.

Experimente

Ponto final remoto: https://whichmodel.dev/mcp
GitHub: Which-Model/whichmodel-mcp
Website: whichmodel.dev

O WhichModel é de código aberto (MIT). Nenhuma chave de API necessária.

Como Adicionar Seleção de Modelo Consciente de Custos ao Seu Agente de IA

Como Adicionar Seleção de Modelo Consciente de Custos ao Seu Agente de IA

O Problema

Configuração: 30 Segundos

Usando: Três Padrões

Padrão 1: Roteamento Baseado em Tarefa

Padrão 2: Limites de Orçamento

Padrão 3: Projeções de Custo em Volume

Por Que Isso Importa

Experimente

Noticias relacionadas

Testando Resend: Não é apenas POST /emails

Como desenvolver uma aplicação de agente de IA

Tutorial LingTerm MCP — Acesso Seguro ao Terminal para Assistentes de IA

Gostou do conteudo?