Engenharia de Plataforma Nativa de IA: Como OpenChoreo Integra MCP e um Agente SRE à Sua Infraestrutura

Assistentes de IA se tornaram uma parte padrão de como os desenvolvedores escrevem código. A próxima fronteira é se eles podem ser participantes confiáveis em como esse código é implantado, operado e depurado.

OpenChoreo, uma IDP de código aberto que recentemente entrou no Sandbox da CNCF, assume uma posição clara sobre isso. A IA não é um plugin ou uma reflexão tardia. É uma construção de plataforma de primeira classe com o mesmo modelo de autorização, as mesmas diretrizes e a mesma observabilidade que qualquer outra parte do sistema.

Eu contribuo para o projeto e, neste post, quero passar por duas capacidades específicas: a integração do servidor MCP que conecta assistentes de IA à sua plataforma e o Agente RCA embutido que investiga incidentes de produção de forma autônoma.

Por que a IA na Camada da Plataforma é Diferente

Há uma diferença significativa entre a IA que ajuda você a escrever código e a IA que interage com sua infraestrutura em execução.

Uma sugestão de código que dá errado custa um ciclo de revisão. Uma ação de implantação que dá errado custa um incidente. Os riscos são diferentes e o design deve refletir isso.

A abordagem do OpenChoreo é expor interfaces de IA que seguem as mesmas políticas de autorização que os usuários humanos. Quando seu assistente de IA se conecta à plataforma via MCP, ele se autentica com OAuth2/OIDC e está sujeito às mesmas políticas RBAC e ABAC que um operador humano. Ele só pode fazer o que um humano com o mesmo papel poderia fazer. Sem permissões elevadas, sem portas laterais.

A Arquitetura do Servidor MCP

OpenChoreo expõe dois servidores MCP.

O servidor MCP do Plano de Controle dá ao seu assistente de IA acesso a operações de gerenciamento da plataforma. O servidor MCP do Plano de Observabilidade dá acesso direto a logs, métricas, rastreamentos e alertas sem passar pelo plano de controle.

O design de dois servidores é intencional. Os dados de observabilidade nunca fluem pelo plano de controle a caminho de um assistente de IA. Em implantações multi-regionais ou multi-inquilinos, isso é importante para a privacidade dos dados e conformidade. Cada servidor é independentemente seguro e consultável.

O que seu assistente de IA pode realmente fazer

Uma vez conectado, seu assistente de IA se torna um participante ativo nas operações da plataforma em cinco categorias:

Gerenciamento de recursos

Listar namespaces, projetos, componentes e ambientes
Inspecionar pipelines de implantação e vinculações de lançamento
Verificar o status dos componentes em diferentes ambientes

Operações de construção e fluxo de trabalho

Acionar execuções de fluxo de trabalho
Inspecionar o status e o histórico de construção
Consultar logs de fluxo de trabalho
Comparar construções bem-sucedidas e falhadas

Consultas de observabilidade

Buscar logs distribuídos com filtragem consciente do domínio por namespace, projeto e componente
Consultar métricas e verificar a utilização de recursos
Rastrear solicitações através de limites de serviço com query_traces e query_trace_spans
Inspecionar alertas e incidentes ativos

Implantação e promoção

Atualizar vinculações de lançamento para promover componentes entre ambientes
Aplicar alterações de configuração a implantações em execução
Reverter apontando uma vinculação para um lançamento anterior

Otimização de recursos

Consultar métricas de recursos em relação à alocação real
Obter recomendações de redimensionamento
Aplicar configurações otimizadas diretamente

Assistentes de IA suportados

Claude Code, Cursor, Codex CLI, Gemini CLI, OpenCode CLI e VS Code com GitHub Copilot funcionam imediatamente. Tanto OAuth baseado em navegador (código de autorização com PKCE) quanto fluxos de credenciais de cliente são suportados, dependendo da sua configuração.

Cenários Reais: Como Isso Funciona na Prática

A documentação vem com cinco cenários práticos de MCP que mostram exatamente como isso funciona. Aqui estão os que valem a pena entender em detalhes.

Depurando uma falha em cascata

Este cenário usa a Demonstração de Microserviços do GCP (Loja Online). Você quebra intencionalmente o serviço de catálogo de produtos escalando-o para zero réplicas. Em seguida, você usa seu assistente de IA para diagnosticar a falha através das fronteiras de serviço.

O assistente trabalha na investigação usando:

list_components          → encontrar serviços afetados
query_component_logs     → identificar padrões de erro nos logs
query_traces             → seguir o caminho da solicitação através dos serviços
query_trace_spans        → localizar exatamente onde a falha se propaga
get_release_binding      → inspecionar o estado atual da implantação
update_release_binding   → aplicar a correção

A investigação e a remediação acontecem de forma conversacional, sem sair do seu editor. O assistente tem o contexto completo de observabilidade, não apenas um despejo de logs.

Diagnosticando uma falha de construção

Você aciona uma construção com um caminho de Dockerfile mal configurado em um serviço Go. O assistente:

list_workflow_runs        → encontrar a execução falhada
get_workflow_run          → inspecionar os detalhes da falha
query_workflow_logs       → identificar o erro exato
create_workflow_run       → acionar uma nova construção após a correção

Comparar com a construção anterior bem-sucedida para identificar o que mudou é um passo conversacional natural. O assistente tem o histórico.

Otimização de recursos

Você aloca CPU e memória excessivas a vários serviços em uma implantação de demonstração. O assistente:

list_components           → enumerar serviços em execução
list_release_bindings     → obter configurações atuais
query_resource_metrics    → comparar alocação vs uso real
update_release_binding    → aplicar configurações redimensionadas

Este é um fluxo de trabalho operacional genuinamente útil. O redimensionamento com base em dados de uso real, em vez de suposições educadas, aplicado diretamente sem uma troca de contexto de ferramenta separada.

O Agente RCA: Investigação Autônoma de Incidentes

Além da integração interativa do MCP, o OpenChoreo vem com um Agente RCA embutido. Este é um modelo diferente. Em vez de você pedir ao assistente de IA para investigar algo, o Agente RCA reage de forma autônoma quando os alertas são acionados.

Como funciona

O Agente RCA é configurado no nível do alerta. Quando você define uma regra de alerta, pode definir triggerAiRca: true. Quando esse alerta é acionado em produção, o agente imediatamente puxa logs, métricas e rastreamentos das implantações afetadas e gera um relatório de análise de causa raiz.

O fluxo de trabalho é:

Alerta acionado
    ↓
Agente RCA é acionado automaticamente
    ↓
Agente puxa logs, métricas, rastreamentos do plano de observabilidade
    ↓
LLM analisa os sinais correlacionados
    ↓
Relatório de análise de causa raiz gerado
    ↓
Relatório disponível no portal OpenChoreo e via interface de chat RCA

Nenhum engenheiro precisa ser o primeiro a passar pelos painéis. Quando alguém pega o incidente, já há uma análise estruturada esperando por eles.

A interface de chat RCA

Além de relatórios automáticos, o OpenChoreo oferece uma interface de chat RCA interativa. Você pode consultar incidentes passados de forma conversacional, fazer perguntas de acompanhamento sobre um relatório específico e aprofundar-se no raciocínio por trás de uma conclusão de causa raiz.

Esta é a principal diferença de design em relação a apenas obter um muro de relatórios.