Voltar as noticias
Construa Servidores MCP que não desperdicem tokens.
MCP ProtocolAltaEN

Construa Servidores MCP que não desperdicem tokens.

Dev.to - MCP·18 de maio de 2026

Os servidores MCP de primeira geração eram ótimos. Eles davam aos agentes de IA acesso a uma tonelada de aplicativos e dados externos — Jira, Confluence, GitHub, Linear, você nomeia. Mas a maioria deles apenas envolvia APIs REST. E isso causa uma tonelada de inchaço de contexto, alucinações e queima de tokens.

Combinando algumas estratégias do ultra-mcp-toolkit, você pode reduzir esse inchaço dramaticamente — e economizar dinheiro.

Gerar um servidor MCP econômico é fácil. Basta instalar a habilidade e pronto.

Veja como "dramaticamente" se parece

Benchmark real, instância Jira ao vivo, reproduzível:

Tamanho da resposta por chamada

cenário ingênuo com toolkit economia
buscar 1 ticket simples 20.3KB 1.2KB 17.5×
investigar ticket rico 270.7KB 15.5KB 17.5×
pesquisa JQL ~10 tickets 20.5KB 3.5KB 5.8×

Aquela linha de ticket rico é a que dói. 270 KB → 15.5 KB. ~67k tokens para ~3.9k tokens. O mesmo conteúdo; o payload completo ainda é armazenado em disco e o agente pode buscá-lo via um ref: apenas se realmente precisar do detalhe.

Custo da lista de ferramentas (pago a cada conversa)

abordagem bytes ~tokens economia
ingênuo (uma ferramenta por operação) 38.9KB 9,947
ferramentas consolidadas 25.1KB 6,427 1.5×
consolidadas + filtradas ~6 KB ~1,600
modo code-api 401B 100 99×

Você leu certo. As listas de ferramentas caem de ~10k tokens para ~100 tokens. Em cada. única. conversa.

Por que os servidores MCP vazam tokens

Quatro anti-padrões aparecem quase em todos os lugares:

  1. Retornando JSON de API bruto. Um problema do Jira carrega iconUrls, URLs self aninhadas, metadados de esquema, dicas de expansão, três formas diferentes do mesmo campo de status. O agente não precisa de nada disso.
  2. Uma ferramenta MCP por endpoint. Um CRM típico tem ~80 endpoints → 80 descrições de ferramentas na lista → ~10k tokens antes que o usuário digite qualquer coisa.
  3. Pedir ao LLM para filtrar ou paginar. O modelo não consegue paginar de forma confiável através de estruturas enormes, e a lógica de divisão em si custa tokens. Filtragem pertence ao lado do servidor.
  4. Sem disciplina sobre o que é mantido. O corte da lista de negação (delete result.iconUrl) quebra silenciosamente o dia em que a API adiciona um novo campo barulhento. As listas de permissão mantêm o contrato estável.

A solução, em três estratégias

1. Projeções de corte estilo lista de permissão

import { pick } from "ultra-mcp-toolkit/trim";

const issueSummary = (raw) => {
  const r = raw as { key: string; fields: Record<string, unknown> };
  return {
    key: r.key,
    ...pick(r.fields, ["summary", "status", "priority", "assignee"]),
  };
};

Registre o corte uma vez. Cada resposta passa por ele. Novos campos da API são, por padrão, descartados. O modelo vê o que precisa; a resposta completa vive no disco como um ref: que o agente pode desreferenciar sob demanda.

2. Ferramentas consolidadas (discriminadas por ação)

Em vez de 80 ferramentas, exponha ~15 — cada uma recebendo um argumento action:

{ action: "get", issueIdOrKey: "PROJ-1" }
{ action: "create", projectKey: "PROJ", summary: "..." }
{ action: "transition", issueIdOrKey: "PROJ-1", transition: "Done" }

Mesmas operações, 1/5 do custo da lista de ferramentas. O despachante do toolkit lida com a validação Zod por ação, roteamento de manifestos e um full: true escape hatch quando o modelo realmente precisa da resposta bruta.

3. Modo code-api (a alavanca 99×)

Exponha uma única ferramenta MCP que entrega ao agente um caminho para um CLI agrupado mais um endereço de socket:

node <cli-path> issue.get --issueIdOrKey=PROJ-1
# stdout: resumo cortado como JSON
# linha final: `ref: /path/to/full-response.json`

O agente controla toda a API a partir de seu shell. A lista de ferramentas permanece

Contexto Triplo Up

A otimização de servidores MCP pode impactar diretamente empresas brasileiras que utilizam IA, reduzindo custos operacionais e melhorando a eficiência no uso de APIs. Isso é crucial em um cenário onde cada token conta para a performance e economia.

Noticias relacionadas

Gostou do conteudo?

Receba toda semana as principais novidades sobre WebMCP.