AgentJacking: Como um Erro Falso Pode Sequestrar Código de Agentes de IA

TL;DR: Em 12 de junho de 2026, pesquisadores da Tenet Security publicaram uma nova classe de ataque chamada "AgentJacking" — uma técnica que alcança uma taxa de sucesso de 85% ao sequestrar agentes de codificação de IA, incluindo Claude Code, Cursor e Codex CLI, usando apenas uma chave DSN Sentry pública e uma única solicitação HTTP POST. O ataque explora o modelo de confiança do Protocolo de Contexto do Modelo (MCP): um relatório de erro falso contendo instruções "corretivas" disfarçadas em markdown engana o agente para executar código controlado pelo atacante na própria máquina do desenvolvedor. A Sentry reconheceu a divulgação, mas recusou a remediação da causa raiz, chamando-a de "tecnicamente indefensável" no nível da plataforma, desencadeando um debate mais amplo sobre a segurança do MCP. Na mesma semana, duas respostas de infraestrutura surgiram: Agent Beacon (uma camada de telemetria de código aberto da Asymptote Labs) e Contas Temporárias da Cloudflare (um sandbox de 60 minutos para implantações de agentes). A mensagem do ecossistema é clara: a cadeia de suprimentos de agentes agora é uma superfície de ataque de primeira classe.

Introdução: A Superfície de Ataque Que Ninguém Viu Chegar

Agentes de codificação de IA foram adotados a uma velocidade extraordinária. Claude Code ultrapassou 1 milhão de usuários ativos diários dentro de semanas após o lançamento. Cursor passou de um fork de VS Code de nicho para o editor padrão para uma geração de desenvolvedores nativos de IA. Codex CLI se tornou a resposta da OpenAI ao paradigma de agente em terminal. Coletivamente, essas ferramentas agora rodam em centenas de milhares de máquinas de desenvolvedores diariamente — com acesso ao sistema de arquivos, direitos de execução de shell e (através do MCP) conexões a serviços externos como bancos de dados, APIs e plataformas de monitoramento.

A suposição de segurança tem sido simples: esses agentes rodam localmente, atrás da pilha de segurança existente do desenvolvedor — EDR, firewall, VPN, WAF, IAM. Se nada malicioso entrar na máquina, nada malicioso acontece.

A Tenet Security acabou de provar que essa suposição está errada.

(Fonte: The Hacker News)

Como Funciona o AgentJacking: A Cadeia de Ataque

O ataque é elegante em sua simplicidade. Ele requer dois ingredientes:

Uma chave DSN Sentry pública. Essas chaves são rotineiramente expostas em JavaScript do lado do cliente, repositórios públicos e documentação. Os pesquisadores encontraram 2.388 organizações com chaves DSN publicamente acessíveis.
Uma única solicitação HTTP POST para a API de ingestão de eventos da Sentry. Nenhum exploit, nenhuma vulnerabilidade no código da Sentry — apenas a API normal fazendo exatamente o que foi projetada para fazer: aceitar eventos de erro.

Aqui está a cadeia completa, passo a passo:

Passo 1 — Reconhecimento. O atacante encontra a chave DSN da organização alvo. Isso geralmente é um exercício de 30 segundos: pesquisar no GitHub, inspecionar o pacote de um aplicativo web ou consultar o Shodan por endpoints da Sentry.

Passo 2 — Criação da carga útil. O atacante constrói um evento de erro falso da Sentry. A carga útil parece estruturalmente idêntica a um erro legítimo — mesmo envelope JSON, mesmos campos. Mas dentro da descrição do erro, uma seção "Resolução" renderizada em markdown contém uma instrução que o atacante deseja que o agente execute, tipicamente um comando npx.

Passo 3 — Injeção. O atacante envia o evento via POST https://sentry.io/api/{org_id}/store/. Nenhuma autenticação além da chave DSN é necessária — é assim que a API pública da Sentry foi projetada para funcionar.

Passo 4 — O desenvolvedor aciona o agente. O desenvolvedor, vendo um erro da Sentry em seu painel (ou tendo configurado seu agente para monitorar a Sentry), pede ao Claude Code, Cursor ou Codex: "Corrija os erros da Sentry."

Passo 5 — O MCP entrega a carga útil ao agente. O servidor MCP da Sentry recupera o evento de erro e o apresenta ao agente como contexto estruturado. O markdown é renderizado — cabeçalhos, blocos de código, a seção de resolução fabricada — tudo indistinguível de um erro real da Sentry.

Passo 6 — O agente executa o código do atacante. O agente lê as instruções disfarçadas em markdown, interpreta-as como a correção e executa o comando npx do atacante na própria máquina do desenvolvedor, com todos os privilégios do desenvolvedor. O comando pode exfiltrar chaves de API, instalar um shell reverso, modificar código-fonte ou pivotar para a infraestrutura interna.

(Fonte: The New Stack)

Por Que a Segurança Tradicional Não Vê Isso

O ataque é invisível para cada camada da pilha de segurança moderna:

EDR vê um desenvolvedor executando npx — um comando legítimo usado milhares de vezes por dia
WAF vê um POST HTTP normal para a API da Sentry — que é o que os clientes da Sentry fazem
Firewall/VPN vê tráfego de saída para sentry.io — um domínio na lista branca na maioria das organizações
IAM não está envolvido — a chave DSN é um token público, não uma credencial de usuário

Como a Tenet Security afirmou em sua divulgação: "O ataque contorna EDR, WAF, IAM, VPN, Cloudflare e firewalls — porque não há nada malicioso para detectar."

(Fonte: The Hacker News)

Os Números: 85% de Sucesso, 2.388 Organizações Expostas

A pesquisa da Tenet Security, conduzida por Ron Bobrov, Barak Sternberg e Nevo Poran, não foi teórica. Eles testaram o ataque contra mais de 100 organizações consentidoras em ambientes controlados.

Os resultados:

Métrica	Valor
Taxa de sucesso (agente executa código do atacante)	85%
Organizações com chaves DSN Sentry públicas	2.388
Agentes de codificação de IA afetados	Claude Code, Cursor, Codex CLI
Complexidade do ataque	Uma única solicitação HTTP POST
Detecção por EDR/WAF/Firewall	0%
Razão de falha de 15%	Agente pediu confirmação antes de executar `npx` desconhecido

Os 15% que resistiram não foram devido a nenhum controle de segurança — o agente simplesmente perguntou "você tem certeza de que deseja executar este comando?" e o desenvolvedor, se prestando atenção, recusou. Mas mesmo essa defesa é fraca: os agentes estão cada vez mais configurados para operar de forma autônoma com prompts de confirmação mínimos para melhorar a velocidade do desenvolvedor. A direção de todo o produto das ferramentas de codificação de IA é em direção a menos confirmações, não mais.

(Fonte: Infosecurity Magazine)

Resposta da Sentry: "Tecnicamente Não Defensável"

O elemento mais controverso da divulgação do AgentJacking é a resposta da Sentry.

A Sentry reconheceu o problema em 3 de junho de 2026 — nove dias antes da divulgação pública — mas recusou-se a implementar remediação da causa raiz. Na avaliação da Sentry, filtrar conteúdo de eventos maliciosos no nível da plataforma é "tecnicamente não defensável" — um atacante pode sempre encontrar uma carga útil que evada um filtro de conteúdo. A Sentry ativou um filtro global bloqueando uma string de carga útil específica, uma medida paliativa que trata o sintoma em vez da causa.

(Fonte:

Contexto Triplo Up

O ataque 'AgentJacking' expõe vulnerabilidades críticas em agentes de codificação de IA, afetando a segurança de empresas brasileiras que utilizam essas ferramentas. A necessidade de reforçar a segurança em ambientes de desenvolvimento é urgente, dado o aumento da adoção de agentes de IA.

AgentJacking: Como um Erro Falso Pode Sequestrar Código de Agentes de IA

Introdução: A Superfície de Ataque Que Ninguém Viu Chegar

Como Funciona o AgentJacking: A Cadeia de Ataque

Por Que a Segurança Tradicional Não Vê Isso

Os Números: 85% de Sucesso, 2.388 Organizações Expostas

Resposta da Sentry: "Tecnicamente Não Defensável"

Noticias relacionadas

AgentJacking: Como um erro Sentry pode desviar Claude Code, Cursor e Codex

Como o RustAPI Transforma Cada Endpoint em uma Ferramenta de Agente de IA

Seu agente de codificação de IA tem amnésia. Aqui está como eu consertei isso em todas as ferramentas.

Gostou do conteudo?