Eu Avaliei 12 Servidores MCP, Aqui Está o Que Eu Descobri

O ecossistema MCP explodiu. Mais de 10.000 servidores no registro, 97 milhões de downloads mensais de SDK — mas ninguém pode te dizer qual servidor MCP realmente vale a pena usar.

Decidi descobrir.

Eu construí agent-eval, uma estrutura de código aberto que automaticamente avalia servidores MCP. Apontei para 12 servidores populares e os classifiquei em 5 dimensões.

Alguns resultados me surpreenderam.

TL;DR Classificações

Classificação	Servidor	Pontuação	Confiabilidade	Categoria
🥇	context7	89	100%	Busca
🥈	mcp-fetch	86	90%	Web
🥉	mcp-memory	82	93%	Memória
4	notion-mcp	82	97%	Produtividade
5	mcp-datetime	81	73%	Utilitários
6	mcp-everything	75	74%	Referência
7	mcp-sequential-thinking	71	100%	Raciocínio
8	mcp-filesystem	68	14%	Sistema de Arquivos
9	playwright-mcp	68	30%	Navegador
10	mcp-sqlite	63	10%	Banco de Dados
11	mcp-git	55	4%	DevTools
12	mcp-puppeteer	47	0%	Navegador

Como eu testei

Para cada servidor, a estrutura:

Conecta via stdio e descobre todas as ferramentas disponíveis
Gera tarefas de teste — Claude lê o JSON Schema de cada ferramenta e cria casos de teste (básicos, de borda, adversariais)
Executa tarefas várias vezes para medir a confiabilidade
Avalia a qualidade da saída usando LLM como juiz (Claude Sonnet 4)
Medidas métricas — latência, taxa de sucesso, resistência à injeção de prompt

Cinco dimensões, ponderadas:

Dimensão	Peso	O que mede
Capacidade	30%	Ferramenta faz o que promete?
Confiabilidade	25%	Funciona toda vez?
Eficiência	20%	Quão rápido é?
Segurança	15%	Você pode enganá-lo?
Experiência do Desenvolvedor	10%	Documentação, mensagens de erro, qualidade do esquema

3 coisas que me surpreenderam

1. A confiabilidade é o grande divisor

A diferença entre o melhor e o pior é enorme. context7 e mcp-sequential-thinking atingiram 100% de taxa de sucesso. Enquanto isso, mcp-puppeteer obteve 0% — cada tarefa falhou.

5 dos 12 servidores não conseguiram nem atingir 50% de confiabilidade. A maioria das falhas não eram bugs — eram de ferramentas recebendo argumentos gerados automaticamente que não correspondiam a restrições do mundo real (caminhos de arquivos que não existem, repositórios git que não estão inicializados).

Isso me diz algo importante: Os servidores MCP são tão confiáveis quanto o contexto que lhes é dado. Um servidor de sistema de arquivos sem arquivos para ler sempre falhará.

2. A segurança é (na maioria) uma não questão

9 dos 12 servidores marcaram 100 em segurança. Testei injeção de prompt (caminhos maliciosos, tentativas de injeção em argumentos) e violações de escopo. Quase todos os servidores rejeitaram corretamente solicitações fora do escopo.

O design do protocolo MCP ajuda aqui — as ferramentas têm esquemas tipados, então há menos superfície para injeção em comparação com APIs de texto livre.

3. Servidores simples pontuam mais alto

context7 (2 ferramentas, pontuação 89) superou notion-mcp (22 ferramentas, pontuação 82). mcp-sequential-thinking (1 ferramenta) pontuou mais alto que mcp-git (15 ferramentas).

O padrão: servidores que fazem uma coisa bem pontuam mais alto do que canivetes suíços. Mais ferramentas = mais área de superfície para falhas.

Experimente você mesmo

# Crie uma configuração para qualquer servidor MCP
cat > agent-eval.yaml << 'EOF'
agent:
  name: "meu-servidor"
  protocol: mcp
  endpoint: "npx -y @modelcontextprotocol/server-memory"
  capabilities: ["memory"]
eval:
  runs: 3
EOF

# Execute a avaliação
ANTHROPIC_API_KEY=sua-chave npx @agenthunter/eval run

A saída se parece com isso:

  AgentHunter Eval v0.1.0
  Agente: mcp-memory v1.0.0 (MCP)
  Ferramentas: 9 | Tarefas: 27 | Execuções: 27

  ────────────────────────────────────
  PONTUAÇÃO: 82 / 100
  ────────────────────────────────────

  Capacidade      ████████████░░░░░░░░  63%
  Confiabilidade     ██████████████████░░  93%
  Eficiência      ████████████████████  100%
  Segurança          █████████████████░░░  89%
  Experiência do Desenvolvedor  ██████████████░░░░░░  70%

Advertências

Não-determinismo do LLM: As pontuações variam ±5 pontos entre execuções porque tanto a geração de tarefas quanto o julgamento usam Claude. Conjuntos de tarefas determinísticos estão chegando na v0.2.
Tarefas geradas automaticamente: A estrutura gera tarefas de teste a partir dos esquemas das ferramentas. Para ferramentas que precisam de contexto do mundo real (sistemas de arquivos com arquivos reais, bancos de dados com dados reais), as pontuações de confiabilidade serão mais baixas do que o uso no mundo real.
Pontuação de DX é um espaço reservado: A Experiência do Desenvolvedor é pontuada em 70 fixo por enquanto. A avaliação adequada de DX (qualidade da documentação, utilidade das mensagens de erro) está a caminho.
Juiz de modelo único: Usar Claude para julgar tarefas geradas por Claude tem um viés inerente. Julgamento de múltiplos modelos está no roteiro.

O que vem a seguir

Suporte ao protocolo A2A — avaliar servidores Agent-to-Agent do Google
Conjuntos de tarefas determinísticos — suítes de teste curadas por categoria
Dashboard web — navegar nas classificações em eval.agenthunter.io
Monitoramento contínuo — acompanhar mudanças nas pontuações ao longo do tempo

A estrutura é totalmente de código aberto: github.com/OrrisTech/agent-eval

Os dados brutos de avaliação para todos os 12 servidores estão no diretório de resultados.

Estou construindo AgentHunter — a camada de qualidade para a economia de agentes de IA. Avaliação independente, metodologia transparente, dados abertos. Se você está bu

Eu Avaliei 12 Servidores MCP, Aqui Está o Que Eu Descobri

TL;DR Classificações

Como eu testei

3 coisas que me surpreenderam

1. A confiabilidade é o grande divisor

2. A segurança é (na maioria) uma não questão

3. Servidores simples pontuam mais alto

Experimente você mesmo

Advertências

O que vem a seguir

Noticias relacionadas

ForgeMesh: Um Roteador de Monetização Baseado em Adaptadores para Ecossistemas MCP

Seu ROAS é uma mentira — Eu construí um servidor MCP para encontrar o número real

Pare de Pagar por APIs de Verificação de Email — Uma Abordagem DNS Sem Custo

Gostou do conteudo?