
Reduzindo o Uso de Tokens em Servidores MCP em 90% — O Padrão de Estacionamento
Oi, eu sou Tsuji, CTO da airCloset.
Em meus posts anteriores, eu introduzi a imagem completa dos nossos 17 servidores MCP internos, um servidor MCP que permite que você pesquise 991 tabelas internas em linguagem natural, um Graph RAG MCP para medir o impacto de iniciativas, e o Sandbox MCP que permite que não engenheiros publiquem aplicativos construídos por IA de forma segura.
Desta vez, quero compartilhar algo que surgiu ao rodar esses servidores em produção — um pequeno truque que usamos para reduzir o consumo de tokens em servidores MCP auto-construídos.
A Irritação: MCPs Consomem Mais Tokens do Que Você Pensaria
A primeira surpresa ao estender um agente de IA com MCP é que o consumo de tokens é maior do que o esperado.
Uma chamada de ferramenta MCP é, no final das contas, JSON-RPC sobre HTTP. Tanto os argumentos que a IA envia quanto o resultado que a ferramenta retorna caem diretamente no contexto da conversa. Se você implementar as coisas de forma ingênua:
- Enviar arquivos inteiros como argumentos → milhares de linhas de código-fonte grudam no contexto
- Retornar todas as linhas de consulta do DB → uma tabela com milhares de linhas × múltiplas colunas gruda no contexto
Uma única chamada de ferramenta pode facilmente consumir dezenas de milhares de tokens, colocando a sessão do Claude Code diretamente em compactação.
É pior do que apenas ineficiência: acima de uma certa contagem de linhas, a resposta simplesmente falha em voltar porque excede o limite de tamanho de carga útil do MCP.
Quando estávamos aumentando nossa frota interna de MCP, essa pequena discrepância estava tornando a experiência da ferramenta pior.
O Padrão: Estacione as Coisas Grandes em Outro Lugar, Passe Apenas uma Chave
A solução é embaraçosamente simples:
Leve as partes que tendem a crescer e mova-as para fora do MCP. Passe apenas uma chave de referência (ou URL) através do MCP.
Tanto o lado da solicitação quanto o lado da resposta se beneficiam da mesma ideia.
| Direção | O que remover | Onde estacionar |
|---|---|---|
| Solicitação | Arquivos grandes / código-fonte | GitHub, Drive ou qualquer armazenamento de objetos |
| Resposta | Grandes dados de lista / resultados de consulta | Planilha / GCS / BigQuery |
Dois exemplos da airCloset.
Exemplo 1: Solicitações Mais Leves — Sandbox MCP × Servidor Git Auto-Hospedado
Na última vez eu escrevi sobre Sandbox MCP, a plataforma que permite que não engenheiros publiquem aplicativos construídos por IA internamente. A primeira iteração foi totalmente uploads de arquivos dirigidos por ferramentas MCP.
sandbox_write_file(app_name: "todo-app", path: "index.html", content: "<html>...")
sandbox_write_file(app_name: "todo-app", path: "app.js", content: "import ...")
sandbox_publish(app_name: "todo-app")
No momento em que os aplicativos ficaram um pouco maiores, isso desmoronou:
- Divisão constante: atingindo o limite de tamanho da carga útil, a IA passou a percorrer "primeira metade do arquivo A → segunda metade → primeira metade do arquivo B → ..."
- Tokens queimando: o código-fonte completo aterrissou no contexto da conversa — um único deploy de um aplicativo de algumas milhares de linhas poderia queimar dezenas de milhares de tokens
-
Tentativas pioraram a situação: a IA "verificava após enviar" relendo o mesmo arquivo com
sandbox_read_file. Laços de escrita → leitura → escrita
Então mudamos o contrato: o MCP apenas retorna uma URL; o conteúdo real se move através do git push.
# 1. MCP retorna uma URL git — sem carga útil envolvida
sandbox_init_repo(app_name: "todo-app")
# → https://mcp-sandbox.example.com/git/sandbox/ryan/todo-app.git
# 2. A IA executa git em segundo plano — MCP não está envolvido
git init && git add . && git commit -m "init"
git remote add sandbox <URL retornada>
git push sandbox main
# 3. Apenas o comando de deploy passa pelo MCP
sandbox_publish(app_name: "todo-app")
git push nos dá:
- Sem limite de tamanho de arquivo
- Transferência diferencial — os pushes subsequentes são rápidos
- Código-fonte nunca aterrissa no contexto da conversa do MCP
Do ponto de vista da IA, é apenas "eu recebi uma URL git; eu faço push para ela." Fundamentalmente diferente em termos econômicos de tokens.
A propósito, nós não usamos Organizações do GitHub aqui. Emitir assentos do GitHub para cada funcionário não valia o custo ou a sobrecarga operacional, e já tínhamos um Servidor Git auto-hospedado no GCE para um propósito diferente, então apenas adicionamos um repositório (sandbox-apps). O "estacionamento" não precisa ser algo que você construa do zero.
Exemplo 2: Respostas Mais Leves — DB Graph MCP × Planilha
Empresas brasileiras que utilizam servidores MCP podem se beneficiar significativamente ao implementar essa técnica, reduzindo custos com tokens e melhorando a performance de suas aplicações. A otimização do uso de tokens é crucial para a sustentabilidade de soluções baseadas em IA.

