
Firewall de Segurança de IA: Sentinel Protocol
Há cerca de um ano, comecei a manter uma lista.
Toda integração de IA em produção que vi e que não tinha validação de entrada, verificação de saída ou trilha de auditoria.
A lista cresceu rapidamente.
O padrão era sempre o mesmo - SDK do OpenAI, uma chamada de API por mensagem do usuário,
retornar o resultado.
Limpo, rápido de construir, completamente desprotegido.
Então passei quase um ano construindo o Sentinel Protocol e hoje estou tornando-o open source.
O que é
Um proxy de segurança local para chamadas de API de LLM. Ele fica entre sua aplicação e
qualquer provedor de LLM - OpenAI, Anthropic, Google Gemini, Ollama, DeepSeek, Groq, etc., e executa 81 motores de segurança em cada solicitação.
Zero chamadas em nuvem para decisões de segurança. Tudo roda na sua máquina. A
trilha de auditoria é um arquivo JSONL simples que permanece local.
Começando
npx --yes --package sentinel-protocol sentinel bootstrap --profile paranoid --mode enforce --dashboard
O proxy começa em http://127.0.0.1:8787. O painel em http://127.0.0.1:8788.
Altere uma linha no seu SDK:
const openai = new OpenAI({
apiKey: process.env.OPENAI_API_KEY,
baseURL: 'http://127.0.0.1:8787/v1',
defaultHeaders: { 'x-sentinel-target': 'openai' }
});
Tudo o mais permanece idêntico. O código do seu aplicativo não muda.
O problema do PII
O mecanismo de PII lida com mais de 40 tipos de padrões com ações em níveis de severidade:
| Severidade | Exemplos | Ação |
|---|---|---|
| Crítico | SSN, Cartão de Crédito, Passaporte | Bloquear (403) — nunca chega ao modelo |
| Alto | Chaves de API, credenciais AWS, ID fiscal | Bloquear (403) |
| Médio | Email, telefone, endereço físico | Reduzir silenciosamente → espaço reservado |
| Baixo | Endereços IP | Registrar e passar |
Quando você bloqueia um SSN:
json
{
"error": "PII_DETECTED",
"reason": "pii_detected",
"pii_types": ["ssn_us"],
"correlation_id": "52360b2d-4b92-4b30-9ace-32fae427c323"
}
O PII nunca saiu da sua máquina. O log de auditoria tem o timestamp, tipo, ID de correlação e duração. Os dados dos seus usuários permaneceram locais.
O cofre de PII bidirecional vai além. Ele tokeniza o PII antes que a solicitação saia (o modelo vê um token de referência, não o valor real), e depois detokeniza o token na resposta do modelo. De ponta a ponta - o valor real nunca é transmitido.
Detecção de injeção
Três camadas, rodando simultaneamente por solicitação:
Classificador LFRL: Linguagem de regras personalizada (RULE...WHEN...THEN) mais uma função de pontuação aprendida. Confiança calibrada de 0.0–1.0. Limite de bloqueio configurável (padrão: 0.85). Cada regra é inspecionável - sem caixa preta.
Rejeição de prompt: Detecção de token canário + pontuação de perplexidade. Captura texto adversarial que é lexicamente válido, mas estatisticamente anômalo.
Scanner semântico: Embeddings locais ONNX (all-MiniLM-L6-v2) computando similaridade de cosseno contra um corpus de assinaturas de ameaça. Captura injeções semanticamente semelhantes que não correspondem a padrões lexicais conhecidos.
A camada de mesclagem de injeção combina todos os três sinais com pesos configuráveis em uma única decisão.
Segurança Agentic e MCP
Para equipes construindo com agentes que usam ferramentas e MCP:
Envenenamento MCP: Um servidor MCP malicioso pode retornar um resultado de ferramenta elaborado e redirecionar a próxima ação do agente. O detector de envenenamento MCP do Sentinel analisa os resultados das chamadas de ferramentas em busca de sinais de sequestro antes que eles influenciem o agente.
Shadow MCP: Detecta servidores MCP não autorizados se passando por legítimos.
Pinagem de certificado MCP: Validação de certificado TLS contra impressões digitais esperadas para servidores MCP conhecidos.
Protocolo Swarm: Mensagens inter-agente autenticadas por HMAC. Agentes não podem se passar por outros em configurações de múltiplos agentes.
Quebra de loop: Detecta e termina recursão infinita de agentes antes que o orçamento se esgote.
Desvio de intenção: Acompanha se o comportamento de um agente ao longo de uma sessão está se desviando de seu objetivo constitucional.
Verificação de saída: A maioria das ferramentas de segurança para por aqui. O Sentinel verifica o que vem de volta:
Tripwire de alucinação: Captura URLs fabricadas, importações de pacotes inexistentes, contradições numéricas dentro da mesma resposta e padrões de citação improváveis. Determinístico. Funciona diretamente no texto de saída sem precisar do contexto de entrada.
Detector de exfiltração Stego: Caracteres de largura zero e pontos de código Unicode invisíveis são um vetor real de exfiltração. Ferramentas podem embutir dados ocultos em o que parece ser texto limpo em linguagem natural. O Sentinel verifica isso.
Redação de streaming (SSE): Em tempo real, à medida que os chunks de SSE chegam. Não após o término do stream, mas durante. A transformação armazena frases parciais, verifica e, ou encaminha ou redige antes que o chunk chegue ao seu cliente.
Classificador de saída: Quatro categorias - toxicidade, execução de código, sinais de alucinação, divulgação não autorizada. Cada uma com limites de aviso/bloqueio configuráveis e atenuação de janela de contexto para manter a taxa de FP razoável.
Conformidade e governança: Cada evento bloqueado recebe mapeamento de categoria OWASP LLM Top 10 e atribuição de técnica MITRE ATLAS automaticamente. O mecanismo de conformidade gera relatórios de evidência SOC2, GDPR, HIPAA e Artigo 12 da Lei de IA da UE sob demanda.
O depurador forense permite que você reproduza qualquer solicitação bloqueada contra uma configuração alterada. Isso é útil quando você está ajustando limites: faça uma alteração, reproduza o bloqueio histórico, veja se a configuração atualizada ainda teria capturado.
Verificação formal: Especificação TLA+ para o pipeline de decisão de segurança, especificação Alloy para consistência de política. Estes estão no repositório. Você pode executá-los.
Os números
- 52.069 linhas de código fonte
- 81 motores de segurança
- 139 suítes de teste, 567 testes, 0 falhas
- 306 arquivos lintados, 0 avisos
- 9 dependências de tempo de execução no total
- <5ms de sobrecarga de proxy no p95
- 0 vulnerabilidades de auditoria npm
- OWASP LLM Top 10: 10/10 categorias cobertas
O que eu errei
A verificação de saída é mais difícil do que a de entrada. Verificar a saída de linguagem natural tem uma taxa de FP inerentemente mais alta do que verificar padrões de entrada estruturados. Eu tive que construir janelas de contexto e pontuação de n-gram especificamente para tornar o classificador de saída útil nos limites padrão.*
Streaming foi mais difícil do que eu esperava. Conseguir a redação de SSE em tempo real correta exigiu três reescritas. O armazenamento de frases parciais entre chunks é sutil.
MCP deveria ter estado lá desde o primeiro dia. Adicionei a maior parte da segurança agentic tarde. Agentes que usam ferramentas e integrações MCP são a superfície de ataque que mais cresce.
Sem instalação — experimente agora
npx --yes --package sentinel-protocol sentinel bootstrap --profile paranoid --mode e
O Sentinel Protocol oferece uma solução robusta para empresas brasileiras que utilizam IA, garantindo a proteção de dados sensíveis e conformidade com regulamentações. A implementação de um firewall local pode aumentar a confiança dos usuários e melhorar a segurança das aplicações.

