
Eu Avaliei 12 Servidores MCP, Aqui Está o Que Eu Descobri
O ecossistema MCP explodiu. Mais de 10.000 servidores no registro, 97 milhões de downloads mensais de SDK — mas ninguém pode te dizer qual servidor MCP realmente vale a pena usar.
Decidi descobrir.
Eu construí agent-eval, uma estrutura de código aberto que automaticamente avalia servidores MCP. Apontei para 12 servidores populares e os classifiquei em 5 dimensões.
Alguns resultados me surpreenderam.
TL;DR Classificações
| Classificação | Servidor | Pontuação | Confiabilidade | Categoria |
|---|---|---|---|---|
| 🥇 | context7 | 89 | 100% | Busca |
| 🥈 | mcp-fetch | 86 | 90% | Web |
| 🥉 | mcp-memory | 82 | 93% | Memória |
| 4 | notion-mcp | 82 | 97% | Produtividade |
| 5 | mcp-datetime | 81 | 73% | Utilitários |
| 6 | mcp-everything | 75 | 74% | Referência |
| 7 | mcp-sequential-thinking | 71 | 100% | Raciocínio |
| 8 | mcp-filesystem | 68 | 14% | Sistema de Arquivos |
| 9 | playwright-mcp | 68 | 30% | Navegador |
| 10 | mcp-sqlite | 63 | 10% | Banco de Dados |
| 11 | mcp-git | 55 | 4% | DevTools |
| 12 | mcp-puppeteer | 47 | 0% | Navegador |
Como eu testei
Para cada servidor, a estrutura:
- Conecta via stdio e descobre todas as ferramentas disponíveis
- Gera tarefas de teste — Claude lê o JSON Schema de cada ferramenta e cria casos de teste (básicos, de borda, adversariais)
- Executa tarefas várias vezes para medir a confiabilidade
- Avalia a qualidade da saída usando LLM como juiz (Claude Sonnet 4)
- Medidas métricas — latência, taxa de sucesso, resistência à injeção de prompt
Cinco dimensões, ponderadas:
| Dimensão | Peso | O que mede |
|---|---|---|
| Capacidade | 30% | Ferramenta faz o que promete? |
| Confiabilidade | 25% | Funciona toda vez? |
| Eficiência | 20% | Quão rápido é? |
| Segurança | 15% | Você pode enganá-lo? |
| Experiência do Desenvolvedor | 10% | Documentação, mensagens de erro, qualidade do esquema |
3 coisas que me surpreenderam
1. A confiabilidade é o grande divisor
A diferença entre o melhor e o pior é enorme. context7 e mcp-sequential-thinking atingiram 100% de taxa de sucesso. Enquanto isso, mcp-puppeteer obteve 0% — cada tarefa falhou.
5 dos 12 servidores não conseguiram nem atingir 50% de confiabilidade. A maioria das falhas não eram bugs — eram de ferramentas recebendo argumentos gerados automaticamente que não correspondiam a restrições do mundo real (caminhos de arquivos que não existem, repositórios git que não estão inicializados).
Isso me diz algo importante: Os servidores MCP são tão confiáveis quanto o contexto que lhes é dado. Um servidor de sistema de arquivos sem arquivos para ler sempre falhará.
2. A segurança é (na maioria) uma não questão
9 dos 12 servidores marcaram 100 em segurança. Testei injeção de prompt (caminhos maliciosos, tentativas de injeção em argumentos) e violações de escopo. Quase todos os servidores rejeitaram corretamente solicitações fora do escopo.
O design do protocolo MCP ajuda aqui — as ferramentas têm esquemas tipados, então há menos superfície para injeção em comparação com APIs de texto livre.
3. Servidores simples pontuam mais alto
context7 (2 ferramentas, pontuação 89) superou notion-mcp (22 ferramentas, pontuação 82). mcp-sequential-thinking (1 ferramenta) pontuou mais alto que mcp-git (15 ferramentas).
O padrão: servidores que fazem uma coisa bem pontuam mais alto do que canivetes suíços. Mais ferramentas = mais área de superfície para falhas.
Experimente você mesmo
# Crie uma configuração para qualquer servidor MCP
cat > agent-eval.yaml << 'EOF'
agent:
name: "meu-servidor"
protocol: mcp
endpoint: "npx -y @modelcontextprotocol/server-memory"
capabilities: ["memory"]
eval:
runs: 3
EOF
# Execute a avaliação
ANTHROPIC_API_KEY=sua-chave npx @agenthunter/eval run
A saída se parece com isso:
AgentHunter Eval v0.1.0
Agente: mcp-memory v1.0.0 (MCP)
Ferramentas: 9 | Tarefas: 27 | Execuções: 27
────────────────────────────────────
PONTUAÇÃO: 82 / 100
────────────────────────────────────
Capacidade ████████████░░░░░░░░ 63%
Confiabilidade ██████████████████░░ 93%
Eficiência ████████████████████ 100%
Segurança █████████████████░░░ 89%
Experiência do Desenvolvedor ██████████████░░░░░░ 70%
Advertências
- Não-determinismo do LLM: As pontuações variam ±5 pontos entre execuções porque tanto a geração de tarefas quanto o julgamento usam Claude. Conjuntos de tarefas determinísticos estão chegando na v0.2.
- Tarefas geradas automaticamente: A estrutura gera tarefas de teste a partir dos esquemas das ferramentas. Para ferramentas que precisam de contexto do mundo real (sistemas de arquivos com arquivos reais, bancos de dados com dados reais), as pontuações de confiabilidade serão mais baixas do que o uso no mundo real.
- Pontuação de DX é um espaço reservado: A Experiência do Desenvolvedor é pontuada em 70 fixo por enquanto. A avaliação adequada de DX (qualidade da documentação, utilidade das mensagens de erro) está a caminho.
- Juiz de modelo único: Usar Claude para julgar tarefas geradas por Claude tem um viés inerente. Julgamento de múltiplos modelos está no roteiro.
O que vem a seguir
- Suporte ao protocolo A2A — avaliar servidores Agent-to-Agent do Google
- Conjuntos de tarefas determinísticos — suítes de teste curadas por categoria
- Dashboard web — navegar nas classificações em eval.agenthunter.io
- Monitoramento contínuo — acompanhar mudanças nas pontuações ao longo do tempo
A estrutura é totalmente de código aberto: github.com/OrrisTech/agent-eval
Os dados brutos de avaliação para todos os 12 servidores estão no diretório de resultados.
Estou construindo AgentHunter — a camada de qualidade para a economia de agentes de IA. Avaliação independente, metodologia transparente, dados abertos. Se você está bu
As empresas brasileiras podem se beneficiar da avaliação de servidores MCP para escolher soluções mais confiáveis e eficientes. A análise de desempenho ajuda a otimizar a integração de agentes de IA em seus processos. A escolha do servidor certo pode impactar diretamente a eficácia das operações automatizadas.

