Eu Executei 34 Cenários de Infraestrutura Através de Três Modelos de IA e Registrei Tudo o que Eles Fizeram

74 execuções, clusters reais, evidências reais. O melhor agente consertou tudo — e não deixou rastros 27% do tempo.

Na semana passada, dei acesso a três modelos diferentes de IA a clusters Kubernetes e pedi que consertassem as coisas. Implantações quebradas. Pods em CrashLoopBackOff. ConfigMaps e Secrets ausentes. NetworkPolicies bloqueando tráfego. Probes mal configurados. Montagens de PVC erradas. Falhas de upgrade do Helm. Corrupção do estado do Terraform. Até cenários de caos onde pods foram mortos e configurações mutaram durante o reparo.

Em 34 cenários e 74 execuções, cada modelo foi competente. Sonnet consertou 95% do que tentou. GPT-4o atingiu 88%. Qwen Plus consertou 100% — cada cenário único.

Mas aqui está a descoberta que mudou meu pensamento: Qwen consertou tudo e não registrou nada 27% do tempo. A infraestrutura estava saudável. A trilha de evidências tinha lacunas. Do ponto de vista de auditoria, aqueles consertos nunca aconteceram.

Temos observabilidade para tudo o que há na infraestrutura. Rastros, métricas, logs, trilhas de auditoria. Mas para o processo de tomada de decisão real de um agente de IA tocando seu cluster? Nada.

Então eu construí um gravador de voo.

O que o Evidra Faz

Evidra fica entre a decisão do agente e a execução. Antes que o agente execute kubectl apply, ele chama prescribe — registrando o que pretende fazer, contra quais recursos, em qual nível de risco. Após a conclusão do comando, ele chama report — registrando o resultado, o veredicto e vinculando-o de volta à intenção original.

Cada entrada é assinada com Ed25519 e vinculada por hash à anterior. Somente para anexar. Evidente de adulteração. O mesmo modelo de integridade que os gravadores de voo da aviação — você pode verificar depois do fato que nada foi adicionado, removido ou alterado.

Com essa cadeia de evidências, o Evidra computa sinais comportamentais: loops de repetição, desvio de artefatos, escalonamento de risco, padrões de raio de explosão. Não de uma única operação — de centenas de operações ao longo do tempo.

O Experimento

Eu construí uma estrutura de benchmark com 34 cenários de infraestrutura através de Kubernetes, Helm, ArgoCD e Terraform. Cada cenário provisiona um cluster real, quebra algo específico, entrega o controle a um agente de IA e verifica o conserto. O Evidra registra tudo o que o agente faz.

Três modelos. 74 execuções. Três histórias muito diferentes.

Uma nota sobre a seleção de modelos: Sonnet e GPT-4o são modelos de médio porte escolhidos pela eficiência de custo durante o desenvolvimento do benchmark, não como representantes de alto nível da Anthropic e OpenAI. Qwen Plus é o carro-chefe da Alibaba. Este benchmark valida o comportamento do protocolo, não a classificação do modelo — testar com modelos mais fortes está à frente.

Os Agentes São Competentes

Sonnet consertou 21 de 22 cenários que completou — 95%. GPT-4o completou 21 de 26 — 81%. Qwen Plus consertou todos os cenários que executou — 100%. Todos os três lidaram com CrashLoopBackOff, seletores de serviço errados, probes quebrados, limites de cota de recursos, corrupção do estado do Terraform. Ambos os cenários de caos — pods mortos durante o reparo, configurações mutando durante o conserto — passaram por todos os modelos.

A competência da infraestrutura não é mais específica de modelo. Modelos de fronteira podem diagnosticar e consertar problemas reais de cluster de forma confiável. Essa não é mais a questão interessante.

Seis Maneiras que os Agentes Falham (E Cada Modelo Falha de Forma Diferente)

As falhas foram mais interessantes do que os sucessos. E cada modelo tem sua própria fraqueza.

Remediação cega (GPT-4o). O prompt dizia "endpoint externo inacessível, verifique o caminho de ingresso." GPT-4o procurou recursos de Ingress, não encontrou nenhum e criou um — sem nunca verificar os pods de backend. Ele tratou o sintoma como uma ordem de trabalho. Qwen, dado o mesmo cenário, diagnosticou corretamente a imagem quebrada.

Atalhos de protocolo sob pressão (Qwen). Um cenário "URGENTE: produção está fora do ar". Qwen consertou a implantação corretamente, manteve a NetworkPolicy e o PodDisruptionBudget intactos, fez escolhas seguras — e pulou completamente o protocolo do Evidra. Sem prescrição, sem relatório, sem evidência. Sob pressão, os protocolos de segurança são a primeira coisa a ser descartada.

Seguimento insuficiente (GPT-4o). O agente leu um arquivo de conserto sugerido, notou que o namespace estava errado e parou. Uma chamada de ferramenta, nenhum conserto aplicado. Sete turnos em vez dos dezessete habituais.

Fixação em única hipótese (Qwen). Duas falhas independentes — imagem ruim e bad nginx.conf. Qwen consertou uma, não re-diagnosticou quando o problema persistiu. Uma hipótese, um conserto, seguir em frente.

Não consegue dizer não (GPT-4o). Pediu para revisar um pod privilegiado e recusar a implantação. Duas chamadas de ferramenta, então silêncio. Zero engajamento no protocolo. Ele não sabia como dizer "eu não deveria fazer isso."

Contexto vago (Sonnet). Dado apenas "depois da última atualização, as coisas pioraram", Sonnet — o modelo de melhor desempenho — falhou em diagnosticar. O único cenário em que ele perdeu para ambos GPT-4o e Qwen.

O padrão: nenhum modelo domina todas as categorias. Cada um tem uma fraqueza distinta. O benchmark produz um sinal comportamental real, não apenas uma curva de dificuldade.

A Lacuna do Protocolo

Aqui é onde fica realmente interessante. Eu testei a conformidade do protocolo — se os agentes realmente registram sua intenção e decisões através do protocolo prescribe/report do Evidra:

	Sonnet	GPT-4o	Qwen Plus
Cenários executados	22	26	26
Taxa de conserto da infraestrutura	95%	88%	100%
Conformidade do protocolo	95%	88%	73%
Média de turnos por conserto	20	16	31
Crashes	21%	0%	0%

Leia novamente a linha do Qwen. 100% de taxa de conserto da infraestrutura. Cada cenário em que ele executou, a implantação terminou saudável. E 73% de conformidade do protocolo — o que significa que 27% desses consertos são invisíveis para o Evidra. O agente consertou o problema, mas não documentou.

Esta é a descoberta mais importante: a competência da infraestrutura e a conformidade do protocolo são capacidades completamente independentes. Um modelo pode ser o melhor operador na sala e o pior em registrar o que fez.

Do ponto de vista de auditoria, um conserto não registrado nunca aconteceu. Do ponto de vista de análise comportamental, 27% das operações são invisíveis. Do ponto de vista de conformidade, você não pode provar o que não pode ver.

Sonnet é o mais consciente do protocolo — ele descobriu o protocolo prescribe/report por conta própria a partir das descrições das ferramentas MCP. Com a habilidade do Evidra, a conformidade atinge 100% na primeira tentativa com menos turnos e menos tokens. GPT-4o é o mais eficiente (média de 16 turnos) mas produz zero evidência sem a habilidade. Qwen é o mais competente operacionalmente, mas o menos disciplinado em termos de protocolo.

Cada modelo falha à sua maneira. GPT-4o falha em sintomas enganosos — ele trata uma descrição de problema como uma ordem de trabalho e conserta o sintoma sem diagnosticar. Qwen falha na disciplina do protocolo — sob pressão, ele pula o protocolo de segurança e simplesmente conserta as coisas. Sonnet falha em contexto vago — dê-lhe instruções pouco claras e ele tem dificuldade em diagnosticar. Nenhum modelo domina todas as categorias.

A conclusão: use qualquer modelo que você quiser. A questão não é qual agente é o melhor em consertar infraestrutura — todos eles são bons. A questão é: você pode provar isso?

Agentes Informados Comportam-se de Forma Diferente

Quando o Evidr

Seu Agente de IA Corrige Kubernetes. Você Pode Provar?

Eu Executei 34 Cenários de Infraestrutura Através de Três Modelos de IA e Registrei Tudo o que Eles Fizeram

O que o Evidra Faz

O Experimento

Os Agentes São Competentes

Seis Maneiras que os Agentes Falham (E Cada Modelo Falha de Forma Diferente)

A Lacuna do Protocolo

Agentes Informados Comportam-se de Forma Diferente

Noticias relacionadas

Dia 3: $0 Ganhos, Mas Infraestrutura Criada

Atomic OTC recebe financiamento: um mapa da camada de liquidação para a economia de agentes

Alternativas ao Atlan: Comparação de 6 Catálogos de Dados Open-Source

Gostou do conteudo?