Reduzindo o Uso de Tokens em Servidores MCP em 90% — O Padrão de Estacionamento

Oi, eu sou Tsuji, CTO da airCloset.

Em meus posts anteriores, eu introduzi a imagem completa dos nossos 17 servidores MCP internos, um servidor MCP que permite que você pesquise 991 tabelas internas em linguagem natural, um Graph RAG MCP para medir o impacto de iniciativas, e o Sandbox MCP que permite que não engenheiros publiquem aplicativos construídos por IA de forma segura.

Desta vez, quero compartilhar algo que surgiu ao rodar esses servidores em produção — um pequeno truque que usamos para reduzir o consumo de tokens em servidores MCP auto-construídos.

A Irritação: MCPs Consomem Mais Tokens do Que Você Pensaria

A primeira surpresa ao estender um agente de IA com MCP é que o consumo de tokens é maior do que o esperado.

Uma chamada de ferramenta MCP é, no final das contas, JSON-RPC sobre HTTP. Tanto os argumentos que a IA envia quanto o resultado que a ferramenta retorna caem diretamente no contexto da conversa. Se você implementar as coisas de forma ingênua:

Enviar arquivos inteiros como argumentos → milhares de linhas de código-fonte grudam no contexto
Retornar todas as linhas de consulta do DB → uma tabela com milhares de linhas × múltiplas colunas gruda no contexto

Uma única chamada de ferramenta pode facilmente consumir dezenas de milhares de tokens, colocando a sessão do Claude Code diretamente em compactação.

É pior do que apenas ineficiência: acima de uma certa contagem de linhas, a resposta simplesmente falha em voltar porque excede o limite de tamanho de carga útil do MCP.

Quando estávamos aumentando nossa frota interna de MCP, essa pequena discrepância estava tornando a experiência da ferramenta pior.

O Padrão: Estacione as Coisas Grandes em Outro Lugar, Passe Apenas uma Chave

A solução é embaraçosamente simples:

Leve as partes que tendem a crescer e mova-as para fora do MCP. Passe apenas uma chave de referência (ou URL) através do MCP.

Tanto o lado da solicitação quanto o lado da resposta se beneficiam da mesma ideia.

Direção	O que remover	Onde estacionar
Solicitação	Arquivos grandes / código-fonte	GitHub, Drive ou qualquer armazenamento de objetos
Resposta	Grandes dados de lista / resultados de consulta	Planilha / GCS / BigQuery

Dois exemplos da airCloset.

Exemplo 1: Solicitações Mais Leves — Sandbox MCP × Servidor Git Auto-Hospedado

Na última vez eu escrevi sobre Sandbox MCP, a plataforma que permite que não engenheiros publiquem aplicativos construídos por IA internamente. A primeira iteração foi totalmente uploads de arquivos dirigidos por ferramentas MCP.

sandbox_write_file(app_name: "todo-app", path: "index.html", content: "<html>...")
sandbox_write_file(app_name: "todo-app", path: "app.js", content: "import ...")
sandbox_publish(app_name: "todo-app")

No momento em que os aplicativos ficaram um pouco maiores, isso desmoronou:

Divisão constante: atingindo o limite de tamanho da carga útil, a IA passou a percorrer "primeira metade do arquivo A → segunda metade → primeira metade do arquivo B → ..."
Tokens queimando: o código-fonte completo aterrissou no contexto da conversa — um único deploy de um aplicativo de algumas milhares de linhas poderia queimar dezenas de milhares de tokens
Tentativas pioraram a situação: a IA "verificava após enviar" relendo o mesmo arquivo com sandbox_read_file. Laços de escrita → leitura → escrita

Então mudamos o contrato: o MCP apenas retorna uma URL; o conteúdo real se move através do git push.

# 1. MCP retorna uma URL git — sem carga útil envolvida
sandbox_init_repo(app_name: "todo-app")
# → https://mcp-sandbox.example.com/git/sandbox/ryan/todo-app.git

# 2. A IA executa git em segundo plano — MCP não está envolvido
git init && git add . && git commit -m "init"
git remote add sandbox <URL retornada>
git push sandbox main

# 3. Apenas o comando de deploy passa pelo MCP
sandbox_publish(app_name: "todo-app")

git push nos dá:

Sem limite de tamanho de arquivo
Transferência diferencial — os pushes subsequentes são rápidos
Código-fonte nunca aterrissa no contexto da conversa do MCP

Do ponto de vista da IA, é apenas "eu recebi uma URL git; eu faço push para ela." Fundamentalmente diferente em termos econômicos de tokens.

A propósito, nós não usamos Organizações do GitHub aqui. Emitir assentos do GitHub para cada funcionário não valia o custo ou a sobrecarga operacional, e já tínhamos um Servidor Git auto-hospedado no GCE para um propósito diferente, então apenas adicionamos um repositório (sandbox-apps). O "estacionamento" não precisa ser algo que você construa do zero.

Exemplo 2: Respostas Mais Leves — DB Graph MCP × Planilha

...

Reduzindo o Uso de Tokens em Servidores MCP em 90% — O Padrão de Estacionamento

A Irritação: MCPs Consomem Mais Tokens do Que Você Pensaria

O Padrão: Estacione as Coisas Grandes em Outro Lugar, Passe Apenas uma Chave

Exemplo 1: Solicitações Mais Leves — Sandbox MCP × Servidor Git Auto-Hospedado

Exemplo 2: Respostas Mais Leves — DB Graph MCP × Planilha

Noticias relacionadas

O CEO Escreveu Isso com MCP — Como Usei um Agente de IA para Examinar os Pontos Críticos da Indústria de Tradução

Reformulei a instalação da minha ferramenta 'git blame para IA' — seis etapas se tornaram uma

Quatro pacotes MCP, quatro maneiras como a cadeia de suprimentos mudou em duas semanas de monitoramento do npm

Gostou do conteudo?