
Controle de Clusters Kubernetes com Agentes de IA
Março de 2026 | Organizado a partir das experiências práticas e projetos de código aberto publicados pela comunidade
Introdução
De 2025 a 2026, o AI Agent evoluiu rapidamente de um "brinquedo experimental" para uma infraestrutura capaz de operar diretamente em ambientes de produção. Uma das aplicações mais notáveis é permitir que o AI Agent controle diretamente clusters Kubernetes on-premise — desde diagnóstico de falhas, agendamento de recursos até auto-reparo, tudo pode ser acionado por linguagem natural.
A CNCF anunciou oficialmente em fevereiro de 2026 que o KubeCon Europe 2026 terá o evento Agentics Day: MCP + Agents, marcando a transição da IA Agentic do experimento para a produção no campo nativo da nuvem. Este artigo compila experiências práticas, ferramentas de código aberto e recomendações de arquitetura publicadas recentemente pela comunidade, ajudando você a dominar rapidamente os últimos avanços nesta área.
1. Panorama das principais ferramentas de código aberto
Atualmente, existem vários projetos de código aberto importantes na comunidade, cada um abordando o problema "Agent control K8s" de diferentes ângulos:
1. kubectl-ai (Google Cloud Platform)
- Estrelas no GitHub: 7.3k+ ⭐ | Linguagem: Go
- Descrição: Converte linguagem natural em operações Kubernetes precisas
-
Capacidades principais:
- Suporte a vários LLMs, como Gemini, OpenAI, Anthropic, Azure OpenAI, Ollama
- Ferramentas integradas
kubectlebash, com extensões personalizáveis - Modo MCP Server: permite que clientes de IA como Claude Code, Cursor operem diretamente no K8s
- Modo MCP Client: conecta-se a um MCP Server externo, encadeando múltiplos serviços com um único comando
- Suporte à persistência de sessão, mantendo o contexto entre conversas
Fonte de referência: GoogleCloudPlatform/kubectl-ai
2. k8sgpt
- Estrelas no GitHub: 7.5k+ ⭐ | Linguagem: Go
- Descrição: Escaneia, diagnostica e classifica clusters K8s, informando onde estão os problemas em inglês simples
-
Capacidades principais:
- 14+ analisadores pré-configurados integrados (Pod, PVC, Service, Ingress, Deployment, etc.)
- Suporte a OpenAI, Azure, Cohere, Amazon Bedrock, Google Gemini e modelos locais
- Modo MCP Server (v0.4.14+): fornece 12 ferramentas, 3 recursos e 3 prompts interativos de solução de problemas
- Integração com Claude Desktop para análise de cluster impulsionada por IA
- Modo Operator pode monitorar continuamente dentro do cluster
Fonte de referência: k8sgpt-ai/k8sgpt
3. HolmesGPT (Projeto CNCF Sandbox)
- Estrelas no GitHub: 1.9k+ ⭐ | Linguagem: Python
- Descrição: Agente SRE para investigação de eventos em ambientes de produção e análise de causas raiz
-
Capacidades principais:
- Usa um loop agentic para consultar dados em tempo real de várias fontes de observabilidade
- Integra mais de 20 fontes de dados, como Prometheus, Grafana, Datadog, Loki, Elasticsearch
- Integração de alertas bidirecional: puxa alertas do AlertManager / PagerDuty / OpsGenie, analisa e escreve de volta
- Modo Operator pode agendar investigações periodicamente
- Processamento de dados em nível Petabyte: filtragem do lado do servidor + travessia de árvore JSON
Fonte de referência: HolmesGPT/holmesgpt
4. Sympozium (nova obra do autor do k8sgpt)
- Estrelas no GitHub: 157+ ⭐ (crescendo rapidamente) | Linguagem: Go + TypeScript
- Descrição: Executa uma frota de Agentes de IA no K8s, gerenciando o próprio cluster
-
Princípios de arquitetura central (altamente recomendáveis):
- Cada Agente em execução = um Pod temporário (K8s Job), naturalmente isolado
- Cada estratégia = um CRD (SympoziumPolicy)
- Modo Skill Sidecar: ferramentas como kubectl, helm injetadas como contêineres sidecar, com RBAC temporário
- Gerenciamento do ciclo de vida do RBAC: o Agente cria automaticamente o Role/ClusterRole de menor privilégio ao ser executado, e o destrói ao terminar
- NetworkPolicy deny-all egress: Pods de Agente não têm acesso à rede externa por padrão
- PersonaPack CRD: pacote padrão de combinação de Agentes, ativando toda a equipe de Agentes com um clique
- Suporte à integração de canais Telegram / Slack / Discord / WhatsApp
- Observabilidade integrada com OpenTelemetry
Fonte de referência: AlexsJones/sympozium
2. Experiências práticas e modelos de arquitetura
Caso 1: Três principais cenários de uso do kubectl-ai (Compartilhamento no KubeSummit 2025 em Taiwan)
O desenvolvedor taiwanês AppleBoy (Bo-Yi Wu) compartilhou a arquitetura MCP do kubectl-ai e experiências práticas no KubeSummit 2025, apresentando três cenários principais de uso:
Cenário 1: Assistente de diagnóstico de problemas do K8s
Pergunte diretamente ao kubectl-ai em linguagem natural "Por que o Nginx não está subindo?", o Agente automaticamente:
- Verifica a configuração do Deployment
- Identifica tags de imagem erradas e solicitações de memória inadequadas
- Fornece recomendações específicas de correção
Comparado ao uso direto do Claude Code, o kubectl-ai compreende mais profundamente o mecanismo de operação do K8s, podendo fornecer diagnósticos mais precisos.
Cenário 2: Modo MCP Server — expandindo as capacidades do LLM
Um comando para iniciar o MCP Server:
kubectl-ai --mcp-server --mcp-server-mode streamable-http --http-port 9080
Depois, conecte-se no Claude Code:
claude mcp add --transport http kubernetes http://localhost:9080/mcp
Isso permite que qualquer cliente de IA que suporte MCP opere diretamente no seu cluster K8s.
Cenário 3: Modo MCP Client — encadeando múltiplos serviços com um único comando
O método tradicional exigiria a escrita de scripts complexos. Agora, você só precisa:
kubectl-ai --mcp-client \
"Escanear as permissões RBAC do namespace srv-gitea, identificar ServiceAccounts com permissões excessivas,
e criar um issue no Jira do projeto GAIA, colocando os resultados da varredura na descrição"
O Agente completa automaticamente a varredura do kubectl → análise → chamada da API do Jira para criar um issue.
Fonte de referência: Blog de Bo-Yi Wu
Caso 2: Arquitetura de isolamento nativa do Kubernetes do Sympozium
O Sympozium propôs um design de isolamento de segurança extremamente rigoroso, que vale a pena para qualquer equipe que deseje executar Agentes de IA em ambientes de produção:
Princípio de design central: "Forneça ferramentas ao Agente, não confiança"
| Nível | Mecanismo | Descrição |
|---|---|---|
| Rede | NetworkPolicy deny-all egress | O Pod do Agente só pode acessar o NATS através da ponte IPC, sem acesso externo |
| Sandbox de Pod | SecurityContext — runAsNonRoot, UID 1000, sistema de arquivos raiz somente leitura | Contêiner de menor privilégio |
| Controle de acesso | Webhook de admissão SympoziumPolicy | Funcionalidade e ferramentas são verificadas antes da criação do Pod |
| RBAC de Skill | Role/ClusterRole independentes para cada execução de AgentRun | Skill declara as permissões de API necessárias, o Controller provisiona automaticamente e as recupera ao término |
| Multi-inquilino | CRDs Namespaced + RBAC do K8s | Controle padrão do RBAC do K8s sobre quem pode criar Agentes |
Diferenças chave em relação a estruturas tradicionais de Agentes
| Foco | Estruturas tradicionais (como OpenClaw) | Sympozium |
|---|---|---|
| Execução do Agente | Memória compartilhada, único Processo | Pod temporário (K8s Job) |
| Isolamento de ferramentas | Todas as ferramentas no mesmo Processo | Cada Skill em contêiner Sidecar independente |
| Gerenciamento de estado | SQLite + arquivos locais | etcd (CRDs) + PostgreSQL + Armazenamento de Objetos |
| Escalabilidade | Somente escalabilidade vertical | Escalabilidade horizontal — plano de controle sem estado + HPA |
| Observabilidade | Logs de aplicação | kubectl logs + eventos + rastreamentos/métricas do OpenTelemetry |
Caso 3: Integração prática do k8sgpt + Claude Desktop
O k8sgpt a partir da versão v0.4.14 suporta integração com o MCP Server, permitindo operações diretamente no Claude Desktop:
{
"mcpServers": {
"k8sgpt": {
"command": "k8sgpt",
"args": ["serve", "--mcp"]
}
}
}
Após a configuração, você pode perguntar diretamente no Claude Desktop:
- "Analise meu cluster Kubernetes"
- "Quais problemas existem no namespace padrão?"
- "Como está a saúde do cluster?"
k
As empresas brasileiras podem se beneficiar da automação e controle de infraestrutura com agentes de IA, melhorando a eficiência operacional. A adoção dessas tecnologias pode reduzir custos e aumentar a agilidade na resolução de problemas em ambientes de produção.


