Voltar as noticias
Como Fiz Claude Code e GPT-5.4 Revisarem o Código Um do Outro
MCP ProtocolAltaEN

Como Fiz Claude Code e GPT-5.4 Revisarem o Código Um do Outro

Dev.to - MCP·31 de março de 2026

O Problema: Mesmo Modelo Escreve e Avalia

Quando Claude Code escreve código e Claude o avalia, você obtém o equivalente de IA a corrigir seu próprio dever de casa. Pontos cegos sobrevivem.

Eu queria que o GPT-5.4 revisasse o código do Claude a partir de uma perspectiva genuinamente diferente. Então, eu construí helix-codex — um servidor MCP que conecta Claude Code (Opus 4.6) ao Codex CLI (GPT-5.4).

O Que o Torna Diferente

Existem mais de 6 pontes Codex MCP no GitHub. Todas fazem a mesma coisa: chamam codex exec, retornam texto bruto. Claude não tem ideia do que aconteceu por dentro.

helix-codex analisa o fluxo de eventos JSONL completo e retorna um relatório estruturado:

[Codex gpt-5.4] Concluído

⏱ Tempo de execução: 8.3s
🧵 Thread: 019d436e-4c39-...

📦 Ferramentas usadas (3):
  ✅ read_file — src/auth.py
  ✅ edit_file — src/auth.py
  ✅ shell — python -m pytest tests/

📁 Arquivos tocados (1):
  • src/auth.py

━━━ Resposta do Codex ━━━
Corrigido a lógica de autenticação.

O Experimento de Autoavaliação

O teste mais interessante: eu fiz o GPT-5.4 revisar o próprio código fonte do helix-codex. Ele encontrou 3 problemas críticos:

  1. Erro na lógica do código de retornoreturncode != 0 com saída parcial foi tratado como sucesso
  2. Vulnerabilidade de injeção de terminal — Sem sanitização de escape ANSI/OSC na saída
  3. Aplicação dupla de caminhocwd passado tanto para a flag -C quanto para cwd= do subprocesso

Claude (o modelo que escreveu o código) perdeu todos os três. Modelo diferente, pontos cegos diferentes.

Números de Desempenho Reais

Ferramenta Tempo O Que Faz
explain 5.4s Explicação completa do código
review 15.7s Avaliação classificada como CRÍTICA/AVISO/INFO
execute 2.8s Delegação de tarefas com rastreamento estruturado
parallel_execute Até 6 tarefas simultâneas

Comparação Entre Modelos

Eu executei Claude Agent e Codex em paralelo na mesma pergunta: "Melhor padrão singleton seguro para threads em Python?"

  • Claude: Metaclass + Lock, variável de módulo, __new__
  • Codex: Variável de módulo, lru_cache, Lock + classmethod

A abordagem lru_cache foi única para o Codex — Claude não a considerou. Dois modelos realmente produzem soluções diferentes.

Recursos Principais

  • Análise completa de rastreamento JSONL — ferramentas, arquivos, tempo, erros
  • Execução paralela — até 6 tarefas via asyncio.gather
  • Gerenciamento de sessão — persistência de threadId
  • Ciclo de Revisão Adversarial — GPT-5.4 desafia o código do Claude
  • Segurança em Sandbox — política de 3 camadas + prevenção de injeção de terminal
  • 56 testes — cobertura abrangente
  • Arquivo único — ~820 linhas, zero dependências externas além do FastMCP

Comece (3 Minutos)

npm install -g @openai/codex && codex login
git clone https://github.com/tsunamayo7/helix-codex.git
cd helix-codex && uv sync

Adicione a ~/.claude/settings.json e você está pronto.

O Que Eu Aprendi

  1. Modelos diferentes têm pontos cegos diferentes. A revisão entre modelos captura coisas que a autoavaliação perde.
  2. Rastreamentos estruturados mudam tudo. Texto bruto é inútil para decisões programáticas.
  3. A execução paralela é subestimada. Analisar 6 arquivos simultaneamente economiza tempo real.

GitHub: tsunamayo7/helix-codex — licença MIT, 56 testes, Python 3.12+.

Dê uma estrela se for útil! Feedback é bem-vindo.

Contexto Triplo Up

A implementação de servidores MCP como o helix-codex pode ajudar empresas brasileiras a melhorar a qualidade do código e a segurança de suas aplicações. A revisão cruzada entre modelos de IA pode revelar vulnerabilidades e erros que passam despercebidos. Isso é crucial para garantir a robustez e a eficiência em um ambiente digital cada vez mais competitivo.

Noticias relacionadas

Gostou do conteudo?

Receba toda semana as principais novidades sobre WebMCP.