Seus Servidores MCP Estão Queimando Tokens Antes de Você Digitar Uma Palavra

Eu os contei na semana passada: 47 ferramentas MCP conectadas em uma das minhas sessões de agente. Não chamadas — apenas carregadas. O esquema JSON completo de cada ferramenta, sentado no prompt do sistema, antes que eu digitasse um único caractere.

Eu fiz as contas. Cada esquema de ferramenta (nome, descrição, formatos de parâmetro, exemplos) tem uma média de 150-400 tokens, dependendo de quão detalhada é a descrição. 47 ferramentas resultaram em cerca de 11.000 tokens de pura sobrecarga. Esse é um contexto pelo qual eu paguei e que o modelo leu a cada turno, independentemente de eu ter usado ou não metade dessas ferramentas.

Esse é o custo silencioso que ninguém orça. Todos se preocupam com uma chamada de ferramenta que despeja um arquivo de log de 50KB no contexto. Menos pessoas notam que o menu de ferramentas já era caro antes que alguém pedisse algo.

Por que isso acontece

Os servidores MCP anunciam sua lista completa de ferramentas de forma proativa — o protocolo quer que o modelo saiba o que está disponível. Mas "disponível" e "carregado em detalhes completos" não precisam ser a mesma coisa. Uma ferramenta send_slack_message e uma ferramenta query_datadog_metrics têm seus esquemas de parâmetros completos injetados mesmo em uma sessão onde você só usa git_status.

Empilhe alguns servidores juntos — GitHub, Slack, um banco de dados, uma ferramenta de design, suas próprias internas — e você não está olhando para 10 ferramentas, está olhando para 60-100. Eu já vi sessões onde as definições de ferramentas sozinhas estavam consumindo 15-20% de todo o orçamento de contexto, e isso antes da conversa real começar.

A solução: adiar o esquema, não a ferramenta

O padrão que realmente funcionou para mim é um que eu peguei de como meu próprio sistema lida com isso: listar ferramentas por nome e uma descrição de uma linha apenas, e buscar o esquema completo sob demanda.

Concretamente, em vez de isso entrar no contexto para cada ferramenta no início da sessão:

{
  "name": "mcp__github__create_pull_request",
  "description": "Criar um pull request no GitHub com título, corpo, branches base/head...",
  "parameters": {
    "type": "object",
    "properties": {
      "owner": { "type": "string", "description": "..." },
      "repo": { "type": "string", "description": "..." },
      "title": { "type": "string", "description": "..." },
      "body": { "type": "string", "description": "..." },
      "base": { "type": "string", "description": "..." },
      "head": { "type": "string", "description": "..." },
      "draft": { "type": "boolean", "description": "..." },
      "maintainer_can_modify": { "type": "boolean", "description": "..." }
    }
  }

você obtém uma única linha:

mcp__github__create_pull_request

e uma ferramenta de busca leve fica ao lado da lista adiada:

def tool_search(query: str, max_results: int = 5) -> list[dict]:
    """Combine a consulta com nomes/descrições de ferramentas adiadas.
    Retorna esquemas JSON completos apenas para correspondências — não todo o registro."""
    candidatos = índice

Contexto Triplo Up

Empresas brasileiras que utilizam servidores MCP podem enfrentar custos elevados devido ao carregamento excessivo de esquemas de ferramentas. A otimização do uso de tokens é crucial para melhorar a eficiência e reduzir despesas operacionais. Implementar estratégias para carregar esquemas sob demanda pode resultar em economias significativas.

Ver fonte original

Seus Servidores MCP Estão Queimando Tokens Antes de Você Digitar Uma Palavra

Por que isso acontece

A solução: adiar o esquema, não a ferramenta

`Noticias relacionadas`

O Paradoxo do MCP: Como Proteger a Cadeia de Suprimentos Agentiva

Conheça o NyxID: Seus Agentes de IA Têm Acesso. Você Mantém o Controle.

Seis ferramentas MCP, um comércio: conduzindo um agente de IA de RFQ a reembolso

`Gostou do conteudo?`