Voltar as noticias
Gemini 3.5 Flash para Codificação Agentiva: Um Guia para Usuários do Claude
Agentic SEOMediaEN

Gemini 3.5 Flash para Codificação Agentiva: Um Guia para Usuários do Claude

Dev.to - MCP·1 de junho de 2026

Este artigo foi publicado originalmente em avinashsangle.com.

Gemini 3.5 Flash é o novo modelo de codificação de nível Flash do Google, geralmente disponível desde 19 de maio de 2026. Ele pontua 76,2% no Terminal-Bench 2.1 e 83,6% no MCP Atlas, superando o Gemini 3.1 Pro em 11 dos 15 benchmarks. O preço é de $1,50 por entrada e $9 por saída a cada 1M de tokens. Para usuários do Claude Code, é o modelo certo para loops de agentes pesados em ferramentas, não um substituto para edições de código de produção.

TL;DR

  • O que é: Gemini 3.5 Flash (GA 19 de maio de 2026) é um modelo de nível Flash que supera o Gemini 3.1 Pro em benchmarks agenticos enquanto custa 25% menos por token do que o nível Pro.
  • Realidade de preços: $1,50/$9 por 1M de tokens parece barato, mas é 3x o preço do Gemini 3 Flash Preview e custa cerca de 5,5x mais caro por conjunto completo de benchmarks, de acordo com a Análise Artificial.
  • A armadilha do nível de pensamento: o padrão caiu de alto para médio. Código copiado e colado do gemini-3-flash-preview produz silenciosamente saídas mais fracas. Para codificação agentica, defina thinking_level: "baixo" explicitamente.
  • Onde o Flash vence: orquestração de ferramentas MCP (83,6% MCP Atlas, supera o Claude Opus 4.7 por 4,5 pontos), chamadas de função paralelas, loops de agentes iterativos rápidos.
  • Onde o Claude Code ainda vence: edição de base de código de produção (Sonnet 4.6 lidera o SWE-Bench Verified), código defensivo, recuperação de longo contexto além de 128k tokens.
  • Regra de roteamento: mantenha o Claude Code para tarefas de Editar e Escrever; direcione o planejamento pesado em MCP e a dispersão de ferramentas para o Gemini 3.5 Flash via OpenRouter ou um servidor MCP personalizado fino.

O que é Gemini 3.5 Flash e o que mudou em 19 de maio de 2026

Gemini 3.5 Flash é um modelo Gemini de nível Flash que o Google anunciou na I/O 2026 e lançou diretamente para GA no mesmo dia. É o primeiro modelo de nível Flash a superar o nível Pro anterior em benchmarks reais de codificação agentica. O lançamento está disponível no blog oficial do Google e os detalhes técnicos no cartão de modelo do Google DeepMind.

O modelo está disponível na API Gemini, AI Studio, Antigravity CLI (o sucessor do Gemini CLI), Vertex AI, no aplicativo Gemini, Modo AI na Pesquisa e agora no GitHub Copilot, conforme o changelog de 19 de maio. A janela de contexto é de 1.048.576 tokens de entrada com um limite de 65.536 de saída.

Por que isso é importante para um usuário do Claude Code: o modelo barato agora é inteligente o suficiente para lidar com loops de agentes de produção. Isso muda a matemática de roteamento, não a lealdade. Se você já executa o Sonnet 4.6 ou Opus 4.7 dentro do Claude Code, você não descarta a pilha. Você pergunta quais subtarefas agora pertencem a uma chamada Gemini mais barata e rápida.

Benchmarks do Gemini 3.5 Flash: onde ele supera o Gemini 3.1 Pro

Gemini 3.5 Flash vence 11 dos 15 benchmarks publicados contra o Gemini 3.1 Pro, incluindo os que mais importam para a codificação agentica. Os números principais do cartão de modelo do Google DeepMind e do resumo do WaveSpeed estão abaixo.

Benchmark Gemini 3.5 Flash Gemini 3.1 Pro Claude Opus 4.7 GPT-5.5
Terminal-Bench 2.1 76,2% 70,3% n/a 78,2%
MCP Atlas 83,6% 78,2% 79,1% 75,3%
GDPval-AA (Elo) 1656 1314 n/a 1769
SWE-Bench Pro 55,1% n/a 64,3% n/a
ARC-AGI-2 72,1% ~77% n/a 84,6%
128k retrieval -7,6 pts vs 3.1 Pro baseline strong strong

O número mais importante daquela tabela para usuários do Claude Code é a pontuação de 83,6% no MCP Atlas. O MCP Atlas mede quão confiavelmente um modelo encadeia chamadas de ferramentas em múltiplas etapas sem travar em uma chamada malformada ou fora de ordem. Para quem executa uma pilha pesada em MCP, essa pontuação prevê a taxa de conclusão de tarefas de forma mais direta do que o SWE-bench. A pontuação atual do Flash supera o Claude Opus 4.7 por 4,5 pontos e o GPT-5.5 por 8,3 pontos.

A outra face honesta: o Gemini 3.5 Flash regrediu 7,6 pontos na recuperação de 128k tokens em comparação com o Gemini 3.1 Pro e cedeu 5 pontos no ARC-AGI-2 em relação ao nível Pro anterior (12,5 pontos para o GPT-5.5). Se você tem uma refatoração de contexto de um milhão de tokens ou um problema que se parece com raciocínio abstrato no estilo ARC, o Flash é a resposta errada.

Preços do Gemini 3.5 Flash: barato por token, caro por tarefa

Gemini 3.5 Flash custa $1,50 por 1M de tokens de entrada, $9 por 1M de tokens de saída e $0,15 por 1M de tokens de entrada em cache (veja OpenRouter para preços ao vivo). À primeira vista, o nível Flash parece barato. Por tarefa, não é.

A análise de Simon Willison de 19 de maio de 2026 cita os custos do conjunto de benchmarks da Análise Artificial: executar sua avaliação completa custou $1.551,60 no Gemini 3.5 Flash em comparação com $892,28 no Gemini 3.1 Pro. Mais barato por token, mais caro por carga de trabalho, porque os tokens de pensamento persistem entre as turnos e os loops de agentes consomem mais tokens de saída. O NxCode relata um multiplicador semelhante: aproximadamente 9x o custo do gemini-3-flash em trabalhos de avaliação equivalentes ($1.552 vs $278).

A comparação de preços que importa para roteamento:

Modelo Entrada ($/1M) Saída ($/1M) Entrada em cache ($/1M)
Gemini 3.5 Flash $1,50 $9,00 $0,15
Gemini 3.1 Pro $2,50 $15,00 -
Gemini 3 Flash Preview (obsoleto) $0,50 $3,00 -
Claude Sonnet 4.6 $3,00 $15,00 $0,30
Claude Opus 4.7 $5,00 $25,00 $0,50
GPT-5.5 $1,25 $10,00 -

Uma armadilha a ser destacada antes da próxima seção. O GitHub Copilot lançou o Gemini 3.5 Flash com um multiplicador de solicitação premium de 14x (GitHub Changelog, 19 de maio de 2026). Uma cota de 300 solicitações do Copilot Pro se torna cerca de 21 chamadas Flash antes de exceder. Se você já possui o Claude Code e uma chave da API do OpenRouter ou AI Studio, chamar o Flash diretamente a cerca de $0,015 por chamada é quase sempre mais barato do que queimar a cota do Copilot.

A armadilha do padrão de nível de pensamento que quebra o código copiado e colado

O Google substituiu o parâmetro inteiro thinking_budget por um enum de string thinking_level e silenciosamente reduziu o padrão de alto para médio.

Contexto Triplo Up

O lançamento do Gemini 3.5 Flash pode impactar empresas brasileiras que utilizam codificação agentiva, permitindo uma redução de custos em tarefas de programação. A nova arquitetura pode otimizar processos e aumentar a eficiência em projetos que dependem de chamadas de ferramentas múltiplas.

Noticias relacionadas

Gostou do conteudo?

Receba toda semana as principais novidades sobre WebMCP.