Seu servidor MCP consome 55.000 tokens antes que seu agente diga uma palavra - Eu medi o custo real

A conta invisível

Eu estava depurando por que minhas sessões do Claude Code pareciam lentas após conectar alguns servidores MCP. O uso de tokens estava nas alturas -- mas eu nem havia pedido ao agente para fazer nada ainda. Reescrevi meus prompts três vezes antes de pensar em verificar para onde os tokens estavam realmente indo.

Acontece que, no momento em que você conecta um servidor MCP, toda definição de ferramenta é carregada na janela de contexto. Nomes, descrições, esquemas de parâmetros, valores de enumeração -- tudo isso, em cada turno de conversa. Não apenas quando você chama uma ferramenta. A cada turno.

Pense nisso como entrar em uma biblioteca para ler um livro, mas o bibliotecário insiste que você leia todo o catálogo primeiro. Toda vez que você entra.

A medição: 4 servidores, diferença de custo de 500x

Eu medi a sobrecarga de tokens de definição de ferramenta para quatro servidores MCP, do mínimo ao máximo:

Servidor MCP	Ferramentas	Tokens estimados	Custo mensal (10 chamadas)
PostgreSQL	1	~35	~$0.0005
Google Maps	7	~704	~$0.009
GitHub	26	~4,242	~$0.06
GitHub (completo)	93	~55,000	~$0.74

De PostgreSQL ao GitHub completo: uma diferença de 1.500x. Mesmo protocolo, mesmo rótulo de "servidor MCP", perfis de custo radicalmente diferentes.

E isso é apenas a sobrecarga de definição. As chamadas reais de ferramentas consomem tokens adicionais além disso.

Para onde vão os tokens

Uma única definição de ferramenta MCP parece inofensiva:

{
  "name": "gmail_create_draft",
  "description": "Cria um rascunho de e-mail...",
  "inputSchema": {
    "type": "object",
    "properties": {
      "to": { "type": "string", "description": "..." },
      "subject": { "type": "string", "description": "..." },
      "body": { "type": "string", "description": "..." }
    }
  }
}

Essa única ferramenta? 820 tokens. Mais do que todo o servidor PostgreSQL MCP com sua única ferramenta.

Agora multiplique. Uma API de negócios como uma plataforma de contabilidade completa pode expor mais de 270 ferramentas em faturamento, RH, folha de pagamento, rastreamento de tempo e gerenciamento de vendas. Com uma média de ~65 tokens por ferramenta, isso consome 17.500 tokens antes da sua primeira pergunta.

Conecte três serviços assim simultaneamente, e você está queimando 143.000 dos 200.000 tokens apenas em definições de esquema. 71% da sua janela de contexto se foi. Seu agente está tentando pensar dentro de um armário.

Em escala, a matemática fica desconfortável: 1.000 solicitações/dia com alta sobrecarga de MCP = aproximadamente $170/dia = $5.100/mês -- apenas para carregar esquemas de ferramentas.

O abismo da qualidade

O custo dos tokens não é nem a pior parte. A qualidade da saída do Claude visivelmente degrada após 50+ definições de ferramentas serem carregadas. O modelo começa a perseguir tangentes, referenciando ferramentas em vez de responder à sua pergunta real.

Mais ferramentas no contexto não significam mais capacidade. Após um certo limite, significa pior capacidade. Eu confirmei isso em primeira mão -- cinco servidores conectados, e meu agente começou a recomendar create_github_issue como a solução para um tempo limite de banco de dados. Muito confiante. Muito errado.

Três estratégias para cortar 95%

Estratégia 1: Exponha apenas o que você precisa

Se você está usando 270 ferramentas de uma plataforma de contabilidade, mas só precisa de 10 para seu fluxo de trabalho de declaração de impostos:

{
  "mcpServers": {
    "accounting": {
      "allowedTools": [
        "create_transaction",
        "list_transactions",
        "get_trial_balance",
        "list_account_items",
        "list_partners"
      ]
    }
  }
}

10 ferramentas em vez de 270: ~650 tokens em vez de ~17.500. Redução de 96%.

Estratégia 2: Escreva descrições mais concisas

Documentos de API fazem descrições de ferramentas terríveis. Eles são escritos para humanos que leem documentação; LLMs precisam da versão comprimida.

Seu servidor MCP consome 55.000 tokens antes que seu agente diga uma palavra - Eu medi o custo real

A conta invisível

A medição: 4 servidores, diferença de custo de 500x

Para onde vão os tokens

O abismo da qualidade

Três estratégias para cortar 95%

Estratégia 1: Exponha apenas o que você precisa

Estratégia 2: Escreva descrições mais concisas

Noticias relacionadas

OpenAI Agents SDK 0.14: Agentes Sandbox e Ferramentas de Sistema de Arquivos

Parte 3: Conectando LDX hub diretamente via MCP

Construindo um Espaço de Trabalho Local com MCP e RAG Híbrido

Gostou do conteudo?