Onde inserir ganchos de segurança em agentes de IA: chamadas de ferramentas, resultados do MCP, logs e envios
A maioria dos conselhos de segurança para agentes de IA se resume a uma frase: "adicione barreiras de proteção."
Isso é muito vago para implementar.
Para agentes com ferramentas, a pergunta útil é: onde o scanner deve estar?
Aqui está o mapa prático que usamos para o Armorer Guard.
1. Antes da Execução da Ferramenta
Esta é a fronteira óbvia.
Se um agente está prestes a chamar um shell, navegador, banco de dados, remetente de e-mail, API de pagamento ou ferramenta MCP, escaneie os argumentos concretos antes da execução.
Você não está perguntando se a ferramenta é geralmente segura. Você está perguntando se esta invocação é segura.
Exemplos:
- comando shell contém flags destrutivas
- navegação do navegador aponta para um endpoint controlado por um atacante
- corpo do e-mail inclui um segredo
- argumentos do MCP
tools/callincluem instruções injetadas no prompt
2. Após os Resultados da Ferramenta, Antes do Contexto do Modelo
Esta é a fronteira que as equipes perdem.
A injeção de prompt muitas vezes chega através de conteúdo recuperado: páginas da web, documentos, tickets, e-mails, linhas de banco de dados ou saída de ferramentas MCP.
Se esse resultado voltar diretamente para o modelo, o atacante agora faz parte do próximo prompt.
Escaneie os resultados da ferramenta antes que eles entrem no contexto.
3. Antes de Registros e Escritas na Memória
Os rastros do agente são úteis, mas também se tornam um segundo caminho de vazamento.
Escaneie antes de escrever:
- registros de execução
- memória
- armazenamentos vetoriais
- transcrições de chat
- artefatos de depuração
É aqui que a redação de credenciais é mais importante.
4. Antes de Enviar para Externos
Algumas ações são irreversíveis.
A fronteira final de envio merece sua própria verificação:
- envio de e-mail
- postagem no Slack/Discord
- atualização de ticket
- comentário no GitHub
- pagamento/reembolso
- ação de implantação
Um plano pode parecer seguro até a última milha.
5. Ciclo de Feedback
Um scanner terá falsos positivos e falsos negativos locais.
A chave é aprender com o feedback sem mutar silenciosamente os pesos do modelo global ou enviar prompts para um serviço em nuvem.
O Ciclo de Aprendizado do Armorer Guard faz isso localmente:
armorer-guard feedback-record
armorer-guard feedback-export
armorer-guard feedback-stats
O feedback local pode adaptar a aplicação local. Exportações revisadas podem posteriormente alimentar o re-treinamento offline.
Experimente
O CLI Rust está no Cargo:
cargo install armorer-guard --locked
A demonstração no navegador está aqui:
https://huggingface.co/spaces/armorer-labs/armorer-guard-demo
Repositório:
https://github.com/ArmorerLabs/Armorer-Guard
A versão curta: não transforme barreiras de proteção em um prompt. Coloque-as nas fronteiras de execução onde dados e ações cruzam zonas de confiança.
Com o aumento do uso de agentes de IA, a segurança se torna crucial para empresas brasileiras. Implementar ganchos de segurança pode prevenir ataques e vazamentos de dados, garantindo a integridade das operações. A adoção de práticas recomendadas pode proteger informações sensíveis durante a execução de tarefas automatizadas.

