Como Adicionar Seleção de Modelo Consciente de Custos ao Seu Agente de IA
Como Adicionar Seleção de Modelo Consciente de Custos ao Seu Agente de IA
Todo agente de IA escolhe um modelo. A maioria escolhe o mesmo toda vez — geralmente o mais caro. Isso é um bom padrão quando você está prototipando, mas em produção significa que você está pagando demais por tarefas simples e subutilizando modelos complexos.
Este tutorial mostra como adicionar seleção de modelo dinâmica e consciente de custos a qualquer agente de IA usando o WhichModel, um servidor MCP aberto que rastreia preços e capacidades em mais de 100 modelos LLM.
O Problema
Os preços dos LLM mudam constantemente. Novos modelos são lançados semanalmente. Escolher o modelo certo para cada tarefa requer saber:
- Preços atuais entre os provedores
- Quais modelos suportam as capacidades que você precisa (chamada de ferramenta, saída JSON, visão)
- Como a qualidade do modelo se relaciona com a complexidade da tarefa
Manter isso você mesmo significa construir um banco de dados de preços, mantê-lo atualizado e escrever lógica de roteamento. Ou você pode deixar seu agente perguntar ao WhichModel.
Configuração: 30 Segundos
Adicione o WhichModel à configuração do seu cliente MCP:
{
"mcpServers": {
"whichmodel": {
"url": "https://whichmodel.dev/mcp"
}
}
}
Sem chave de API. Sem instalação. É um servidor MCP remoto — seu agente se conecta diretamente.
Para clientes baseados em stdio (Claude Desktop, Cursor):
{
"mcpServers": {
"whichmodel": {
"command": "npx",
"args": ["-y", "whichmodel-mcp"]
}
}
}
Usando: Três Padrões
Padrão 1: Roteamento Baseado em Tarefa
Peça ao WhichModel para recomendar um modelo com base no que você está fazendo:
recommend_model(
task_type: "code_generation",
complexity: "high",
estimated_input_tokens: 4000,
estimated_output_tokens: 2000,
requirements: { tool_calling: true }
)
O WhichModel retorna um modelo recomendado, uma alternativa dentro do orçamento, estimativas de custo e raciocínio para a escolha.
Padrão 2: Limites de Orçamento
Defina um orçamento por chamada e deixe o WhichModel encontrar o melhor modelo dentro dele:
recommend_model(
task_type: "summarisation",
complexity: "low",
budget_per_call: 0.001
)
Para uma tarefa simples de sumarização, você pode estar pagando $0.01 por chamada com o GPT-4 quando uma chamada de $0.0005 para um modelo menor lhe daria o mesmo resultado.
Padrão 3: Projeções de Custo em Volume
Antes de se comprometer com um modelo, compare os custos em escala:
compare_models(
models: ["anthropic/claude-sonnet-4", "openai/gpt-4.1-mini", "google/gemini-2.5-flash"],
task_type: "data_extraction",
volume: {
calls_per_day: 10000,
avg_input_tokens: 1000,
avg_output_tokens: 500
}
)
Isso lhe dá projeções de custo diárias e mensais para cada modelo, para que você possa tomar decisões informadas antes de escalar.
Por Que Isso Importa
Com 10.000 chamadas por dia, a diferença entre um modelo de $15/M-token e um modelo de $0.60/M-token é $216/dia — mais de $6.000 por mês. Para muitas tarefas, o modelo mais barato produz resultados equivalentes.
O WhichModel ajuda seu agente a fazer essa escolha automaticamente, toda vez, com dados de preços que são atualizados a cada 4 horas.
Experimente
-
Ponto final remoto:
https://whichmodel.dev/mcp - GitHub: Which-Model/whichmodel-mcp
- Website: whichmodel.dev
O WhichModel é de código aberto (MIT). Nenhuma chave de API necessária.
Empresas brasileiras podem otimizar custos ao implementar agentes de IA que escolhem modelos com base em tarefas específicas. Isso permite uma alocação mais eficiente de recursos, reduzindo despesas operacionais e melhorando a eficácia em tarefas complexas.

