Como Fiz Claude Code e GPT-5.4 Revisarem o Código Um do Outro

O Problema: Mesmo Modelo Escreve e Avalia

Quando Claude Code escreve código e Claude o avalia, você obtém o equivalente de IA a corrigir seu próprio dever de casa. Pontos cegos sobrevivem.

Eu queria que o GPT-5.4 revisasse o código do Claude a partir de uma perspectiva genuinamente diferente. Então, eu construí helix-codex — um servidor MCP que conecta Claude Code (Opus 4.6) ao Codex CLI (GPT-5.4).

O Que o Torna Diferente

Existem mais de 6 pontes Codex MCP no GitHub. Todas fazem a mesma coisa: chamam codex exec, retornam texto bruto. Claude não tem ideia do que aconteceu por dentro.

helix-codex analisa o fluxo de eventos JSONL completo e retorna um relatório estruturado:

[Codex gpt-5.4] Concluído

⏱ Tempo de execução: 8.3s
🧵 Thread: 019d436e-4c39-...

📦 Ferramentas usadas (3):
  ✅ read_file — src/auth.py
  ✅ edit_file — src/auth.py
  ✅ shell — python -m pytest tests/

📁 Arquivos tocados (1):
  • src/auth.py

━━━ Resposta do Codex ━━━
Corrigido a lógica de autenticação.

O Experimento de Autoavaliação

O teste mais interessante: eu fiz o GPT-5.4 revisar o próprio código fonte do helix-codex. Ele encontrou 3 problemas críticos:

Erro na lógica do código de retorno — returncode != 0 com saída parcial foi tratado como sucesso
Vulnerabilidade de injeção de terminal — Sem sanitização de escape ANSI/OSC na saída
Aplicação dupla de caminho — cwd passado tanto para a flag -C quanto para cwd= do subprocesso

Claude (o modelo que escreveu o código) perdeu todos os três. Modelo diferente, pontos cegos diferentes.

Números de Desempenho Reais

Ferramenta	Tempo	O Que Faz
`explain`	5.4s	Explicação completa do código
`review`	15.7s	Avaliação classificada como CRÍTICA/AVISO/INFO
`execute`	2.8s	Delegação de tarefas com rastreamento estruturado
`parallel_execute`	—	Até 6 tarefas simultâneas

Comparação Entre Modelos

Eu executei Claude Agent e Codex em paralelo na mesma pergunta: "Melhor padrão singleton seguro para threads em Python?"

Claude: Metaclass + Lock, variável de módulo, __new__
Codex: Variável de módulo, lru_cache, Lock + classmethod

A abordagem lru_cache foi única para o Codex — Claude não a considerou. Dois modelos realmente produzem soluções diferentes.

Recursos Principais

Análise completa de rastreamento JSONL — ferramentas, arquivos, tempo, erros
Execução paralela — até 6 tarefas via asyncio.gather
Gerenciamento de sessão — persistência de threadId
Ciclo de Revisão Adversarial — GPT-5.4 desafia o código do Claude
Segurança em Sandbox — política de 3 camadas + prevenção de injeção de terminal
56 testes — cobertura abrangente
Arquivo único — ~820 linhas, zero dependências externas além do FastMCP

Comece (3 Minutos)

npm install -g @openai/codex && codex login
git clone https://github.com/tsunamayo7/helix-codex.git
cd helix-codex && uv sync

Adicione a ~/.claude/settings.json e você está pronto.

O Que Eu Aprendi

Modelos diferentes têm pontos cegos diferentes. A revisão entre modelos captura coisas que a autoavaliação perde.
Rastreamentos estruturados mudam tudo. Texto bruto é inútil para decisões programáticas.
A execução paralela é subestimada. Analisar 6 arquivos simultaneamente economiza tempo real.

GitHub: tsunamayo7/helix-codex — licença MIT, 56 testes, Python 3.12+.

Dê uma estrela se for útil! Feedback é bem-vindo.