Firewall de Segurança de IA: Sentinel Protocol

Há cerca de um ano, comecei a manter uma lista.
Toda integração de IA em produção que vi e que não tinha validação de entrada, verificação de saída ou trilha de auditoria.
A lista cresceu rapidamente.

O padrão era sempre o mesmo - SDK do OpenAI, uma chamada de API por mensagem do usuário,
retornar o resultado.
Limpo, rápido de construir, completamente desprotegido.

Então passei quase um ano construindo o Sentinel Protocol e hoje estou tornando-o open source.

O que é

Um proxy de segurança local para chamadas de API de LLM. Ele fica entre sua aplicação e
qualquer provedor de LLM - OpenAI, Anthropic, Google Gemini, Ollama, DeepSeek, Groq, etc., e executa 81 motores de segurança em cada solicitação.

Zero chamadas em nuvem para decisões de segurança. Tudo roda na sua máquina. A
trilha de auditoria é um arquivo JSONL simples que permanece local.

Começando

npx --yes --package sentinel-protocol sentinel bootstrap --profile paranoid --mode enforce --dashboard

O proxy começa em http://127.0.0.1:8787. O painel em http://127.0.0.1:8788.

Altere uma linha no seu SDK:

const openai = new OpenAI({
  apiKey: process.env.OPENAI_API_KEY,
  baseURL: 'http://127.0.0.1:8787/v1',
  defaultHeaders: { 'x-sentinel-target': 'openai' }
});

Tudo o mais permanece idêntico. O código do seu aplicativo não muda.

O problema do PII

O mecanismo de PII lida com mais de 40 tipos de padrões com ações em níveis de severidade:

Severidade	Exemplos	Ação
Crítico	SSN, Cartão de Crédito, Passaporte	Bloquear (403) — nunca chega ao modelo
Alto	Chaves de API, credenciais AWS, ID fiscal	Bloquear (403)
Médio	Email, telefone, endereço físico	Reduzir silenciosamente → espaço reservado
Baixo	Endereços IP	Registrar e passar

Quando você bloqueia um SSN:

json
{
  "error": "PII_DETECTED",
  "reason": "pii_detected",
  "pii_types": ["ssn_us"],
  "correlation_id": "52360b2d-4b92-4b30-9ace-32fae427c323"
}

O PII nunca saiu da sua máquina. O log de auditoria tem o timestamp, tipo, ID de correlação e duração. Os dados dos seus usuários permaneceram locais.

O cofre de PII bidirecional vai além. Ele tokeniza o PII antes que a solicitação saia (o modelo vê um token de referência, não o valor real), e depois detokeniza o token na resposta do modelo. De ponta a ponta - o valor real nunca é transmitido.

Detecção de injeção

Três camadas, rodando simultaneamente por solicitação:

Classificador LFRL: Linguagem de regras personalizada (RULE...WHEN...THEN) mais uma função de pontuação aprendida. Confiança calibrada de 0.0–1.0. Limite de bloqueio configurável (padrão: 0.85). Cada regra é inspecionável - sem caixa preta.

Rejeição de prompt: Detecção de token canário + pontuação de perplexidade. Captura texto adversarial que é lexicamente válido, mas estatisticamente anômalo.

Scanner semântico: Embeddings locais ONNX (all-MiniLM-L6-v2) computando similaridade de cosseno contra um corpus de assinaturas de ameaça. Captura injeções semanticamente semelhantes que não correspondem a padrões lexicais conhecidos.

A camada de mesclagem de injeção combina todos os três sinais com pesos configuráveis em uma única decisão.

Segurança Agentic e MCP

Para equipes construindo com agentes que usam ferramentas e MCP:

Envenenamento MCP: Um servidor MCP malicioso pode retornar um resultado de ferramenta elaborado e redirecionar a próxima ação do agente. O detector de envenenamento MCP do Sentinel analisa os resultados das chamadas de ferramentas em busca de sinais de sequestro antes que eles influenciem o agente.

Shadow MCP: Detecta servidores MCP não autorizados se passando por legítimos.

Pinagem de certificado MCP: Validação de certificado TLS contra impressões digitais esperadas para servidores MCP conhecidos.

Protocolo Swarm: Mensagens inter-agente autenticadas por HMAC. Agentes não podem se passar por outros em configurações de múltiplos agentes.

Quebra de loop: Detecta e termina recursão infinita de agentes antes que o orçamento se esgote.

Desvio de intenção: Acompanha se o comportamento de um agente ao longo de uma sessão está se desviando de seu objetivo constitucional.

Verificação de saída: A maioria das ferramentas de segurança para por aqui. O Sentinel verifica o que vem de volta:

Tripwire de alucinação: Captura URLs fabricadas, importações de pacotes inexistentes, contradições numéricas dentro da mesma resposta e padrões de citação improváveis. Determinístico. Funciona diretamente no texto de saída sem precisar do contexto de entrada.

Detector de exfiltração Stego: Caracteres de largura zero e pontos de código Unicode invisíveis são um vetor real de exfiltração. Ferramentas podem embutir dados ocultos em o que parece ser texto limpo em linguagem natural. O Sentinel verifica isso.

Redação de streaming (SSE): Em tempo real, à medida que os chunks de SSE chegam. Não após o término do stream, mas durante. A transformação armazena frases parciais, verifica e, ou encaminha ou redige antes que o chunk chegue ao seu cliente.

Classificador de saída: Quatro categorias - toxicidade, execução de código, sinais de alucinação, divulgação não autorizada. Cada uma com limites de aviso/bloqueio configuráveis e atenuação de janela de contexto para manter a taxa de FP razoável.

Conformidade e governança: Cada evento bloqueado recebe mapeamento de categoria OWASP LLM Top 10 e atribuição de técnica MITRE ATLAS automaticamente. O mecanismo de conformidade gera relatórios de evidência SOC2, GDPR, HIPAA e Artigo 12 da Lei de IA da UE sob demanda.

O depurador forense permite que você reproduza qualquer solicitação bloqueada contra uma configuração alterada. Isso é útil quando você está ajustando limites: faça uma alteração, reproduza o bloqueio histórico, veja se a configuração atualizada ainda teria capturado.

Verificação formal: Especificação TLA+ para o pipeline de decisão de segurança, especificação Alloy para consistência de política. Estes estão no repositório. Você pode executá-los.

Os números

52.069 linhas de código fonte
81 motores de segurança
139 suítes de teste, 567 testes, 0 falhas
306 arquivos lintados, 0 avisos
9 dependências de tempo de execução no total
<5ms de sobrecarga de proxy no p95
0 vulnerabilidades de auditoria npm
OWASP LLM Top 10: 10/10 categorias cobertas

O que eu errei
A verificação de saída é mais difícil do que a de entrada. Verificar a saída de linguagem natural tem uma taxa de FP inerentemente mais alta do que verificar padrões de entrada estruturados. Eu tive que construir janelas de contexto e pontuação de n-gram especificamente para tornar o classificador de saída útil nos limites padrão.*

Streaming foi mais difícil do que eu esperava. Conseguir a redação de SSE em tempo real correta exigiu três reescritas. O armazenamento de frases parciais entre chunks é sutil.

MCP deveria ter estado lá desde o primeiro dia. Adicionei a maior parte da segurança agentic tarde. Agentes que usam ferramentas e integrações MCP são a superfície de ataque que mais cresce.

Sem instalação — experimente agora

npx --yes --package sentinel-protocol sentinel bootstrap --profile paranoid --mode e

Firewall de Segurança de IA: Sentinel Protocol

O que é

Começando

O problema do PII

Detecção de injeção

Segurança Agentic e MCP

Sem instalação — experimente agora

Noticias relacionadas

Um Curso Intensivo em MCP: Um Guia para Iniciantes Usando TypeScript

Construímos operações de dados colunares para agentes de IA — aqui está o porquê e como

Eu deduplicei todos os registros MCP em um único índice. Veja como 22.561 servidores realmente se parecem

Gostou do conteudo?