
Como Fiz Claude Code e GPT-5.4 Revisarem o Código Um do Outro
O Problema: Mesmo Modelo Escreve e Avalia
Quando Claude Code escreve código e Claude o avalia, você obtém o equivalente de IA a corrigir seu próprio dever de casa. Pontos cegos sobrevivem.
Eu queria que o GPT-5.4 revisasse o código do Claude a partir de uma perspectiva genuinamente diferente. Então, eu construí helix-codex — um servidor MCP que conecta Claude Code (Opus 4.6) ao Codex CLI (GPT-5.4).
O Que o Torna Diferente
Existem mais de 6 pontes Codex MCP no GitHub. Todas fazem a mesma coisa: chamam codex exec, retornam texto bruto. Claude não tem ideia do que aconteceu por dentro.
helix-codex analisa o fluxo de eventos JSONL completo e retorna um relatório estruturado:
[Codex gpt-5.4] Concluído
⏱ Tempo de execução: 8.3s
🧵 Thread: 019d436e-4c39-...
📦 Ferramentas usadas (3):
✅ read_file — src/auth.py
✅ edit_file — src/auth.py
✅ shell — python -m pytest tests/
📁 Arquivos tocados (1):
• src/auth.py
━━━ Resposta do Codex ━━━
Corrigido a lógica de autenticação.
O Experimento de Autoavaliação
O teste mais interessante: eu fiz o GPT-5.4 revisar o próprio código fonte do helix-codex. Ele encontrou 3 problemas críticos:
-
Erro na lógica do código de retorno —
returncode != 0com saída parcial foi tratado como sucesso - Vulnerabilidade de injeção de terminal — Sem sanitização de escape ANSI/OSC na saída
-
Aplicação dupla de caminho —
cwdpassado tanto para a flag-Cquanto paracwd=do subprocesso
Claude (o modelo que escreveu o código) perdeu todos os três. Modelo diferente, pontos cegos diferentes.
Números de Desempenho Reais
| Ferramenta | Tempo | O Que Faz |
|---|---|---|
explain |
5.4s | Explicação completa do código |
review |
15.7s | Avaliação classificada como CRÍTICA/AVISO/INFO |
execute |
2.8s | Delegação de tarefas com rastreamento estruturado |
parallel_execute |
— | Até 6 tarefas simultâneas |
Comparação Entre Modelos
Eu executei Claude Agent e Codex em paralelo na mesma pergunta: "Melhor padrão singleton seguro para threads em Python?"
-
Claude: Metaclass + Lock, variável de módulo,
__new__ -
Codex: Variável de módulo,
lru_cache, Lock + classmethod
A abordagem lru_cache foi única para o Codex — Claude não a considerou. Dois modelos realmente produzem soluções diferentes.
Recursos Principais
- Análise completa de rastreamento JSONL — ferramentas, arquivos, tempo, erros
- Execução paralela — até 6 tarefas via asyncio.gather
- Gerenciamento de sessão — persistência de threadId
- Ciclo de Revisão Adversarial — GPT-5.4 desafia o código do Claude
- Segurança em Sandbox — política de 3 camadas + prevenção de injeção de terminal
- 56 testes — cobertura abrangente
- Arquivo único — ~820 linhas, zero dependências externas além do FastMCP
Comece (3 Minutos)
npm install -g @openai/codex && codex login
git clone https://github.com/tsunamayo7/helix-codex.git
cd helix-codex && uv sync
Adicione a ~/.claude/settings.json e você está pronto.
O Que Eu Aprendi
- Modelos diferentes têm pontos cegos diferentes. A revisão entre modelos captura coisas que a autoavaliação perde.
- Rastreamentos estruturados mudam tudo. Texto bruto é inútil para decisões programáticas.
- A execução paralela é subestimada. Analisar 6 arquivos simultaneamente economiza tempo real.
GitHub: tsunamayo7/helix-codex — licença MIT, 56 testes, Python 3.12+.
Dê uma estrela se for útil! Feedback é bem-vindo.
A implementação de servidores MCP como o helix-codex pode ajudar empresas brasileiras a melhorar a qualidade do código e a segurança de suas aplicações. A revisão cruzada entre modelos de IA pode revelar vulnerabilidades e erros que passam despercebidos. Isso é crucial para garantir a robustez e a eficiência em um ambiente digital cada vez mais competitivo.

