Controle de Clusters Kubernetes com Agentes de IA

Março de 2026 | Organizado a partir das experiências práticas e projetos de código aberto publicados pela comunidade

Introdução

De 2025 a 2026, o AI Agent evoluiu rapidamente de um "brinquedo experimental" para uma infraestrutura capaz de operar diretamente em ambientes de produção. Uma das aplicações mais notáveis é permitir que o AI Agent controle diretamente clusters Kubernetes on-premise — desde diagnóstico de falhas, agendamento de recursos até auto-reparo, tudo pode ser acionado por linguagem natural.

A CNCF anunciou oficialmente em fevereiro de 2026 que o KubeCon Europe 2026 terá o evento Agentics Day: MCP + Agents, marcando a transição da IA Agentic do experimento para a produção no campo nativo da nuvem. Este artigo compila experiências práticas, ferramentas de código aberto e recomendações de arquitetura publicadas recentemente pela comunidade, ajudando você a dominar rapidamente os últimos avanços nesta área.

1. Panorama das principais ferramentas de código aberto

Atualmente, existem vários projetos de código aberto importantes na comunidade, cada um abordando o problema "Agent control K8s" de diferentes ângulos:

1. kubectl-ai (Google Cloud Platform)

Estrelas no GitHub: 7.3k+ ⭐ | Linguagem: Go
Descrição: Converte linguagem natural em operações Kubernetes precisas
Capacidades principais:
- Suporte a vários LLMs, como Gemini, OpenAI, Anthropic, Azure OpenAI, Ollama
- Ferramentas integradas kubectl e bash, com extensões personalizáveis
- Modo MCP Server: permite que clientes de IA como Claude Code, Cursor operem diretamente no K8s
- Modo MCP Client: conecta-se a um MCP Server externo, encadeando múltiplos serviços com um único comando
- Suporte à persistência de sessão, mantendo o contexto entre conversas

Fonte de referência: GoogleCloudPlatform/kubectl-ai

2. k8sgpt

Estrelas no GitHub: 7.5k+ ⭐ | Linguagem: Go
Descrição: Escaneia, diagnostica e classifica clusters K8s, informando onde estão os problemas em inglês simples
Capacidades principais:
- 14+ analisadores pré-configurados integrados (Pod, PVC, Service, Ingress, Deployment, etc.)
- Suporte a OpenAI, Azure, Cohere, Amazon Bedrock, Google Gemini e modelos locais
- Modo MCP Server (v0.4.14+): fornece 12 ferramentas, 3 recursos e 3 prompts interativos de solução de problemas
- Integração com Claude Desktop para análise de cluster impulsionada por IA
- Modo Operator pode monitorar continuamente dentro do cluster

Fonte de referência: k8sgpt-ai/k8sgpt

3. HolmesGPT (Projeto CNCF Sandbox)

Estrelas no GitHub: 1.9k+ ⭐ | Linguagem: Python
Descrição: Agente SRE para investigação de eventos em ambientes de produção e análise de causas raiz
Capacidades principais:
- Usa um loop agentic para consultar dados em tempo real de várias fontes de observabilidade
- Integra mais de 20 fontes de dados, como Prometheus, Grafana, Datadog, Loki, Elasticsearch
- Integração de alertas bidirecional: puxa alertas do AlertManager / PagerDuty / OpsGenie, analisa e escreve de volta
- Modo Operator pode agendar investigações periodicamente
- Processamento de dados em nível Petabyte: filtragem do lado do servidor + travessia de árvore JSON

Fonte de referência: HolmesGPT/holmesgpt

4. Sympozium (nova obra do autor do k8sgpt)

Estrelas no GitHub: 157+ ⭐ (crescendo rapidamente) | Linguagem: Go + TypeScript
Descrição: Executa uma frota de Agentes de IA no K8s, gerenciando o próprio cluster
Princípios de arquitetura central (altamente recomendáveis):
- Cada Agente em execução = um Pod temporário (K8s Job), naturalmente isolado
- Cada estratégia = um CRD (SympoziumPolicy)
- Modo Skill Sidecar: ferramentas como kubectl, helm injetadas como contêineres sidecar, com RBAC temporário
- Gerenciamento do ciclo de vida do RBAC: o Agente cria automaticamente o Role/ClusterRole de menor privilégio ao ser executado, e o destrói ao terminar
- NetworkPolicy deny-all egress: Pods de Agente não têm acesso à rede externa por padrão
- PersonaPack CRD: pacote padrão de combinação de Agentes, ativando toda a equipe de Agentes com um clique
- Suporte à integração de canais Telegram / Slack / Discord / WhatsApp
- Observabilidade integrada com OpenTelemetry

Fonte de referência: AlexsJones/sympozium

2. Experiências práticas e modelos de arquitetura

Caso 1: Três principais cenários de uso do kubectl-ai (Compartilhamento no KubeSummit 2025 em Taiwan)

O desenvolvedor taiwanês AppleBoy (Bo-Yi Wu) compartilhou a arquitetura MCP do kubectl-ai e experiências práticas no KubeSummit 2025, apresentando três cenários principais de uso:

Cenário 1: Assistente de diagnóstico de problemas do K8s

Pergunte diretamente ao kubectl-ai em linguagem natural "Por que o Nginx não está subindo?", o Agente automaticamente:

Verifica a configuração do Deployment
Identifica tags de imagem erradas e solicitações de memória inadequadas
Fornece recomendações específicas de correção

Comparado ao uso direto do Claude Code, o kubectl-ai compreende mais profundamente o mecanismo de operação do K8s, podendo fornecer diagnósticos mais precisos.

Cenário 2: Modo MCP Server — expandindo as capacidades do LLM

Um comando para iniciar o MCP Server:

kubectl-ai --mcp-server --mcp-server-mode streamable-http --http-port 9080

Depois, conecte-se no Claude Code:

claude mcp add --transport http kubernetes http://localhost:9080/mcp

Isso permite que qualquer cliente de IA que suporte MCP opere diretamente no seu cluster K8s.

Cenário 3: Modo MCP Client — encadeando múltiplos serviços com um único comando

O método tradicional exigiria a escrita de scripts complexos. Agora, você só precisa:

kubectl-ai --mcp-client \
  "Escanear as permissões RBAC do namespace srv-gitea, identificar ServiceAccounts com permissões excessivas,
   e criar um issue no Jira do projeto GAIA, colocando os resultados da varredura na descrição"

O Agente completa automaticamente a varredura do kubectl → análise → chamada da API do Jira para criar um issue.

Fonte de referência: Blog de Bo-Yi Wu

Caso 2: Arquitetura de isolamento nativa do Kubernetes do Sympozium

O Sympozium propôs um design de isolamento de segurança extremamente rigoroso, que vale a pena para qualquer equipe que deseje executar Agentes de IA em ambientes de produção:

Princípio de design central: "Forneça ferramentas ao Agente, não confiança"

Nível	Mecanismo	Descrição
Rede	NetworkPolicy deny-all egress	O Pod do Agente só pode acessar o NATS através da ponte IPC, sem acesso externo
Sandbox de Pod	SecurityContext — runAsNonRoot, UID 1000, sistema de arquivos raiz somente leitura	Contêiner de menor privilégio
Controle de acesso	Webhook de admissão SympoziumPolicy	Funcionalidade e ferramentas são verificadas antes da criação do Pod
RBAC de Skill	Role/ClusterRole independentes para cada execução de AgentRun	Skill declara as permissões de API necessárias, o Controller provisiona automaticamente e as recupera ao término
Multi-inquilino	CRDs Namespaced + RBAC do K8s	Controle padrão do RBAC do K8s sobre quem pode criar Agentes

Diferenças chave em relação a estruturas tradicionais de Agentes

Foco	Estruturas tradicionais (como OpenClaw)	Sympozium
Execução do Agente	Memória compartilhada, único Processo	Pod temporário (K8s Job)
Isolamento de ferramentas	Todas as ferramentas no mesmo Processo	Cada Skill em contêiner Sidecar independente
Gerenciamento de estado	SQLite + arquivos locais	etcd (CRDs) + PostgreSQL + Armazenamento de Objetos
Escalabilidade	Somente escalabilidade vertical	Escalabilidade horizontal — plano de controle sem estado + HPA
Observabilidade	Logs de aplicação	kubectl logs + eventos + rastreamentos/métricas do OpenTelemetry

Caso 3: Integração prática do k8sgpt + Claude Desktop

O k8sgpt a partir da versão v0.4.14 suporta integração com o MCP Server, permitindo operações diretamente no Claude Desktop:

{
  "mcpServers": {
    "k8sgpt": {
      "command": "k8sgpt",
      "args": ["serve", "--mcp"]
    }
  }
}

Após a configuração, você pode perguntar diretamente no Claude Desktop:

"Analise meu cluster Kubernetes"
"Quais problemas existem no namespace padrão?"
"Como está a saúde do cluster?"