Construa Servidores MCP que não desperdicem tokens.

Os servidores MCP de primeira geração eram ótimos. Eles davam aos agentes de IA acesso a uma tonelada de aplicativos e dados externos — Jira, Confluence, GitHub, Linear, você nomeia. Mas a maioria deles apenas envolvia APIs REST. E isso causa uma tonelada de inchaço de contexto, alucinações e queima de tokens.

Combinando algumas estratégias do ultra-mcp-toolkit, você pode reduzir esse inchaço dramaticamente — e economizar dinheiro.

Gerar um servidor MCP econômico é fácil. Basta instalar a habilidade e pronto.

Veja como "dramaticamente" se parece

Benchmark real, instância Jira ao vivo, reproduzível:

Tamanho da resposta por chamada

cenário	ingênuo	com toolkit	economia
buscar 1 ticket simples	20.3KB	1.2KB	17.5×
investigar ticket rico	270.7KB	15.5KB	17.5×
pesquisa JQL ~10 tickets	20.5KB	3.5KB	5.8×

Aquela linha de ticket rico é a que dói. 270 KB → 15.5 KB. ~67k tokens para ~3.9k tokens. O mesmo conteúdo; o payload completo ainda é armazenado em disco e o agente pode buscá-lo via um ref: apenas se realmente precisar do detalhe.

Custo da lista de ferramentas (pago a cada conversa)

abordagem	bytes	~tokens	economia
ingênuo (uma ferramenta por operação)	38.9KB	9,947	1×
ferramentas consolidadas	25.1KB	6,427	1.5×
consolidadas + filtradas	~6 KB	~1,600	5×
modo code-api	401B	100	99×

Você leu certo. As listas de ferramentas caem de ~10k tokens para ~100 tokens. Em cada. única. conversa.

Por que os servidores MCP vazam tokens

Quatro anti-padrões aparecem quase em todos os lugares:

Retornando JSON de API bruto. Um problema do Jira carrega iconUrls, URLs self aninhadas, metadados de esquema, dicas de expansão, três formas diferentes do mesmo campo de status. O agente não precisa de nada disso.
Uma ferramenta MCP por endpoint. Um CRM típico tem ~80 endpoints → 80 descrições de ferramentas na lista → ~10k tokens antes que o usuário digite qualquer coisa.
Pedir ao LLM para filtrar ou paginar. O modelo não consegue paginar de forma confiável através de estruturas enormes, e a lógica de divisão em si custa tokens. Filtragem pertence ao lado do servidor.
Sem disciplina sobre o que é mantido. O corte da lista de negação (delete result.iconUrl) quebra silenciosamente o dia em que a API adiciona um novo campo barulhento. As listas de permissão mantêm o contrato estável.

A solução, em três estratégias

1. Projeções de corte estilo lista de permissão

import { pick } from "ultra-mcp-toolkit/trim";

const issueSummary = (raw) => {
  const r = raw as { key: string; fields: Record<string, unknown> };
  return {
    key: r.key,
    ...pick(r.fields, ["summary", "status", "priority", "assignee"]),
  };
};

Registre o corte uma vez. Cada resposta passa por ele. Novos campos da API são, por padrão, descartados. O modelo vê o que precisa; a resposta completa vive no disco como um ref: que o agente pode desreferenciar sob demanda.

2. Ferramentas consolidadas (discriminadas por ação)

Em vez de 80 ferramentas, exponha ~15 — cada uma recebendo um argumento action:

{ action: "get", issueIdOrKey: "PROJ-1" }
{ action: "create", projectKey: "PROJ", summary: "..." }
{ action: "transition", issueIdOrKey: "PROJ-1", transition: "Done" }

Mesmas operações, 1/5 do custo da lista de ferramentas. O despachante do toolkit lida com a validação Zod por ação, roteamento de manifestos e um full: true escape hatch quando o modelo realmente precisa da resposta bruta.

3. Modo code-api (a alavanca 99×)

Exponha uma única ferramenta MCP que entrega ao agente um caminho para um CLI agrupado mais um endereço de socket:

node <cli-path> issue.get --issueIdOrKey=PROJ-1
# stdout: resumo cortado como JSON
# linha final: `ref: /path/to/full-response.json`

O agente controla toda a API a partir de seu shell. A lista de ferramentas permanece

Construa Servidores MCP que não desperdicem tokens.

Veja como "dramaticamente" se parece

Tamanho da resposta por chamada

Custo da lista de ferramentas (pago a cada conversa)

Por que os servidores MCP vazam tokens

A solução, em três estratégias

1. Projeções de corte estilo lista de permissão

2. Ferramentas consolidadas (discriminadas por ação)

3. Modo code-api (a alavanca 99×)

Noticias relacionadas

Liquidação Atômica é Cega a Sybil por Design - E é por Isso que um Diretório de Contrapartes Está Acima Disso

Dia 10/30: Citações Precisos

Servidor MCP para gerar códigos QR personalizados diretamente no Cursor e Claude

Gostou do conteudo?