Escaneamos 20 Principais Servidores MCP em Busca de Vulnerabilidades — Os Resultados Vão Te Chocar

Resumo: 2 servidores MCP populares têm problemas de segurança críticos com consenso multi-modelo. 3 estão completamente seguros (todos os 4 modelos concordam). GPT-4o é inútil para escaneamento de segurança. E algumas descobertas são falsos positivos específicos do modelo.

Realizamos 62 auditorias de segurança automatizadas nos servidores MCP mais populares. Aqui está o que aprendemos.

👉 Escaneie seu pacote agora: agentaudit.dev

O Problema Que Ninguém Fala

Servidores MCP (Modelo Contexto Protocolo) estão explodindo em popularidade. Milhares de desenvolvedores estão instalando-os diariamente para conectar agentes de IA a ferramentas, bancos de dados e APIs.

Mas aqui está a parte assustadora: A maioria dos servidores MCP nunca foi auditada em termos de segurança.

Esses servidores frequentemente têm acesso a:

🔐 Seus repositórios de código fonte
🗄️ Seus bancos de dados
📧 Suas ferramentas de e-mail e comunicação
☁️ Sua infraestrutura em nuvem

Um servidor MCP vulnerável = Fim de jogo para a segurança do seu agente de IA.

Então decidimos escanear os 20 principais servidores MCP nós mesmos com 4 modelos de IA diferentes. Os resultados? Alguns vão te chocar.

🚨 Pacotes de Alto Risco (Consenso Multi-Modelo)

#1: mcp-server-kubernetes — Pontuação de Risco: 80/100 (Gemini), 20/100 (Opus) 🔴

Fonte: modelcontextprotocol/servers

Consenso: ✅ ALTO RISCO — Ambos os modelos encontram problemas críticos

Este servidor permite que agentes de IA gerenciem clusters Kubernetes. Descobertas confirmadas por múltiplos modelos:

❌ Injeção de shell via padrões de exec()
❌ Validação RBAC insuficiente
❌ Potencial para comprometimento em todo o cluster

Status: Mantenedor notificado. Não use em produção até que seja corrigido.

#2: chrome-devtools-mcp — Pontuação de Risco: 45/100 (Gemini), 42/100 (Opus) 🔴

Fonte: anthropics/chrome-devtools-mcp

Consenso: ✅ ALTO RISCO — Forte concordância entre os modelos

Este servidor dá aos agentes de IA controle sobre o Chrome DevTools. Descobertas:

❌ Vectores de escape da sandbox do navegador
❌ Execução arbitrária de código via protocolo devtools
❌ Sem prompts de consentimento do usuário para ações sensíveis

Status: Em revisão pela Anthropic.

⚠️ Pacotes de Risco Médio (Descobertas Reais, Menos Críticas)

#3: notion-mcp-server — Pontuação de Risco: 50/100 (Gemini), 5/100 (Opus) 🟡

Fonte: makenotion/notion-mcp-server

Consenso: ⚠️ Misturado — Gemini encontra problemas, Opus está quase limpo

Descobertas reais:

⚠️ Preocupações com o manuseio de tokens da API (configuração BASE_URL)

Limitações: Algumas descobertas do Gemini podem ser falsos positivos relacionados a padrões de configuração, em vez de vulnerabilidades reais.

Status: Problemas relatados. Use com cautela em produção.

#4: terraform-mcp-server — Pontuação de Risco: 30/100 (Gemini), 20/100 (Opus) 🟡

Fonte: hashicorp/terraform-mcp-server

Consenso: ⚠️ Misturado — Ambos os modelos encontram problemas, mas a gravidade varia

Descobertas reais:

⚠️ Manuseio de credenciais no estado do Terraform

Falso Positivo Conhecido: O uso de hash MD5 sinalizado pelo Gemini é para operações não críticas de segurança (não segurança criptográfica).

Status: Documentado. Prioridade baixa-média para correções.

🟡 Descobertas Contestadas (Desacordo entre Modelos)

Esses pacotes mostraram desacordo significativo entre os modelos — trate com cautela:

Pacote	Gemini	Opus	GPT-4o	Haiku	Avaliação
mcp-server-qdrant	45 (3F)	0	0	—	❌ Apenas Gemini
context7 (Upstash)	35 (3F)	0	—	—	❌ Apenas Gemini
firecrawl-mcp	30 (2F)	0	0	0	❌ Apenas Gemini
git-mcp	0 (1F)	35 (3F)	0	—	❌ Apenas Opus

O que isso nos diz:

Gemini é mais agressivo (maior recall, mais falsos positivos)
Opus é mais conservador (maior precisão, pode perder problemas)
GPT-4o encontrou quase nada (não confiável para segurança)
Haiku é muito conservador (perde a maioria dos problemas)

Recomendação: Use Gemini para triagem inicial, verifique descobertas críticas com Opus.

✅ Pacotes Seguros (Todos os 4 Modelos Concordam)

Esses pacotes passaram nas verificações de segurança em TODOS os modelos — altamente confiáveis:

Pacote	Fonte	Gemini	GPT-4o	Haiku	Status
Playwright MCP	anthropics/playwright-mcp	0	0	0	✅ SEGURO
Supabase MCP	supabase/mcp	0	0	0	✅ SEGURO
Vercel AI SDK	vercel/ai	0	0	—	✅ SEGURO
Slack MCP	modelcontextprotocol/servers	1	—	—	✅ SEGURO

Esses estão prontos para produção. Instale com confiança.

🤯 Desempenho dos Modelos: A Verdade Surpreendente

Escaneamos os mesmos pacotes com 4 modelos de IA diferentes. Aqui está o que aprendemos:

Modelo	Relatórios	Descobertas	Média de Risco	~Custo/Scan	Veredicto
Gemini 2.5 Flash	20	39	20.4	~$0.02	✅ Melhor para triagem
Claude Opus 4	20	24	7.1	~$1.75	✅ Melhor para verificação
GPT-4o	15	2	0.7	~$0.10	❌ Não recomendado
Claude Haiku 4.5	8	3	0.9	~$0.01	⚠️ Muito conservador

Os Vencedores

🏆 Melhor Valor: Gemini 2.5 Flash

39 descobertas a ~$0.02/scan
Melhor para triagem inicial
Maior taxa de falsos positivos, mas captura mais problemas

🎯 Mais Preciso: Claude Opus 4

24 descobertas com a menor taxa de FP
Melhor para verificar descobertas críticas
50-100x mais caro que Gemini

Os Perdedores

❌ GPT-4o: Quase Inútil para Segurança

Apenas 2 descobertas em 15 escaneamentos
Perdeu problemas críticos no Kubernetes MCP, Chrome DevTools MCP
Rápido, mas dá uma falsa sensação de segurança
Não recomendado para segurança

Escaneamos 20 Principais Servidores MCP em Busca de Vulnerabilidades — Os Resultados Vão Chocar Você