Modelos Melhores: Ferramentas Piores

Modelos Melhores: Ferramentas Piores

Armin relata um problema estranho que encontrou enquanto trabalhava no Pi:

A versão curta é que modelos mais novos do Claude às vezes chamam a ferramenta de edição do Pi com campos extras e inventados no array aninhado edits[]. E não é Haiku ou algum modelo pequeno: Opus 4.8. A edição em si geralmente está correta, mas os argumentos não correspondem ao esquema, pois o modelo inventa chaves fictícias e o Pi, portanto, rejeita a chamada da ferramenta e pede para tentar novamente.

Isso por si só não é muito surpreendente, já que os modelos emitem chamadas de ferramentas malformadas às vezes. Particularmente os menores. O que me surpreendeu é que isso está piorando com os modelos mais novos da Anthropic, já que tanto o Opus 4.8 quanto o Sonnet 5 apresentam isso, mas nenhum dos modelos mais antigos. Em outras palavras, os modelos SOTA da família são piores nesse esquema específico de ferramenta do que seus irmãos mais velhos.

Armin teoriza que isso se deve ao fato de que os modelos mais recentes da Anthropic foram especificamente treinados (presumivelmente por meio de Aprendizado por Reforço) para usar melhor as ferramentas de edição que estão incorporadas no Claude Code. Isso tem o efeito infeliz de que outros harnesses de codificação, como o Pi, podem descobrir que suas próprias ferramentas de edição personalizadas são mais propensas a serem usadas incorretamente.

A ferramenta de edição do Claude usa busca e substituição. O Codex da OpenAI usa um mecanismo de apply_patch em vez disso, e a OpenAI já falou no passado sobre como seus modelos são treinados para usar essa ferramenta de forma eficaz.

Isso significa que harnesses de codificação de terceiros, como o Pi, deveriam implementar várias ferramentas de edição apenas para que possam usar a que tiver o melhor desempenho para o modelo subjacente que o usuário selecionou?

Tags: armin-ronacher, ai, openai, generative-ai, llms, anthropic, llm-tool-use, coding-agents, pi

Modelos Melhores: Ferramentas Piores

Noticias relacionadas

Regras de Crawlers de IA da Cloudflare Podem Bloquear Googlebot

Devo Bloquear Crawlers de IA ou Medir Seu Valor Primeiro?

81,8% do meu tráfego de 'Assistente de IA' era falso. O número do Googlebot foi pior

Gostou do conteudo?