As visões gerais da IA do Google estão corretas nove em cada dez vezes, revela estudo

Abr 7, 2026

Nano Banana Pro solicitado pelo THE DECODER

Pontos Chave

A startup de IA Oumi analisou 4.326 buscas no Google em nome do New York Times e descobriu que as visões gerais da IA do Google responderam corretamente 85% das vezes com o Gemini 2 e 91% com o Gemini 3.
Na escala do Google, mesmo uma taxa de erro de nove por cento se traduz em milhões de respostas erradas por hora. O Google afirma que o estudo tem "lacunas sérias."
Apesar da precisão melhorada, a verificabilidade piorou: com o Gemini 3, 56% das respostas corretas não puderam ser verificadas através das fontes vinculadas, um aumento em relação a 37% com o Gemini 2.

O Google coloca um aviso sob cada resposta gerada por IA: "As respostas da IA podem incluir erros." Mas quão frequentemente esses erros realmente acontecem permaneceu em grande parte sem estudo.

Em nome do New York Times, a startup de IA Oumi examinou 4.326 buscas no Google usando o benchmark padrão da indústria SimpleQA. Os testes foram realizados em duas rodadas: uma em outubro com o Gemini 2 alimentando a IA, e novamente em fevereiro após a atualização para o Gemini 3.

As descobertas: com o Gemini 2, as visões gerais da IA estavam corretas 85 por cento das vezes. Com o Gemini 3, esse número subiu para 91 por cento. Isso soa impressionante, mas na escala do Google, ainda significa milhões de respostas erradas a cada hora.

O que o estudo não aborda é se os usuários teriam obtido melhores respostas através dos resultados de busca tradicionais ou outras fontes. Nem tudo em sites é automaticamente correto também. A verdadeira questão é se os usuários acabam com mais informações corretas no geral do que teriam sem as visões gerais da IA do Google.

A precisão aumentou, mas a verificabilidade diminuiu

Outra descoberta chave: enquanto a precisão melhorou com o Gemini 3, a verificabilidade na verdade piorou. A Oumi verificou se as fontes que o Google vinculou realmente apoiavam as respostas que deu. Com o Gemini 2, 37 por cento das respostas corretas eram "sem fundamento", significando que os sites vinculados não respaldavam totalmente a informação. Com o Gemini 3, esse número saltou para 56 por cento. Muitas vezes, simplesmente não há como verificar uma resposta com base na fonte que o Google fornece.

A qualidade dessas fontes também é questionável. De 5.380 fontes que o Google citou, Facebook e Reddit ficaram em segundo e quarto lugares como as mais comuns. O Facebook apareceu como uma fonte em cinco por cento das respostas corretas e sete por cento das incorretas. O Google pode ter um incentivo para favorecer fontes que são menos propensas a processar judicialmente por uso de conteúdo.

O New York Times destaca vários exemplos de como as coisas podem dar errado mesmo quando o sistema localiza a fonte correta. Em uma pergunta sobre o Hall da Fama da Música Clássica, o Google identificou o site correto que lista Yo-Yo Ma como membro, mas ainda assim afirmou que não havia registro de sua indução.

Quando perguntado sobre o rio a oeste de Goldsboro, Carolina do Norte, o Google encontrou o site de turismo correto, mas leu mal a informação, nomeando o Rio Neuse em vez do verdadeiro Rio Little a oeste.

E para uma pergunta sobre o Museu Bob Marley, a visão geral da IA do Google deu o ano de abertura errado—1987 em vez de 1986—extraindo informações de um post do Facebook, um blog de viagens e uma página da Wikipedia com informações conflitantes.

Google contesta os métodos do estudo

Para verificar respostas em grande escala, a Oumi usou seu próprio modelo de verificação de IA, HallOumi. Essa é a única maneira prática de verificar milhares de respostas, mas vem com uma fraqueza óbvia: a IA que faz a verificação também pode cometer erros. Além disso, as visões gerais da IA podem gerar respostas diferentes para buscas idênticas, mesmo quando as consultas são apenas segundos de diferença.

O porta-voz do Google, Ned Adriance, chamou o estudo de falho, dizendo que tem "lacunas sérias." O benchmark SimpleQA em si contém informações incorretas e não reflete o que as pessoas realmente buscam no Google, disse ele.

Apesar do nome, SimpleQA, desenvolvido pela OpenAI, é construído em torno de perguntas particularmente complicadas, aquelas em que pelo menos um modelo de IA falhou durante um processo de pré-seleção. Isso significa que a taxa de falhas é naturalmente mais alta. O benchmark também é projetado para cenários sem acesso à internet.

No Índice de Análise de Inteligência Artificial, o modelo mais recente do Google, Gemini 3.1 Pro, mostra uma queda de 38 pontos percentuais na taxa de alucinação em comparação com o anterior Gemini 3, que provavelmente estava rodando como uma versão Flash menos capaz na busca do Google na época do teste. O Google afirma que os resultados com busca na web são mais precisos do que aqueles baseados puramente no conhecimento do modelo.

A verdadeira questão é o que as respostas da IA estão fazendo com a web aberta

O debate maior em torno das visões gerais da IA do Google é sobre o que elas estão fazendo com a internet. Ao fornecer respostas diretas em vez de enviar usuários para sites externos, o Google está cortando o tráfego para editores e minando sua base econômica.

A web aberta está perdendo seu papel como uma rede de informações livremente vinculadas, sendo cada vez mais substituída por uma interface de IA centralizada sob o controle do Google. Uma taxa de precisão de 90 por cento é provavelmente mais do que suficiente para a maioria dos usuários e a maioria das buscas para pular o clique no site subjacente completamente.

Estudos mostram que as visões gerais da IA prejudicam o tráfego da web tem sido consistentemente negados pelo Google, que ainda não compartilhou nenhum número próprio. Até mesmo a OpenAI foi mais franca quando lançou pela primeira vez recursos da web para o ChatGPT, afirmando que "apreciamos que este é um novo método de interação com a web e damos boas-vindas ao feedback sobre maneiras adicionais de direcionar o tráfego de volta para as fontes e adicionar à saúde geral do ecossistema," embora essa preocupação tenha desaparecido silenciosamente à medida que seu lançamento de busca progrediu.

Notícias de IA Sem o Hype – Curadas por Humanos

Assine o THE DECODER para leitura sem anúncios, um boletim semanal de IA, nosso exclusivo relatório de fronteira "AI Radar" seis vezes por ano, acesso completo ao arquivo e acesso à nossa seção de comentários.

Fonte: The New York Times

As Visões de IA do Google estão corretas nove em cada dez vezes, diz estudo

As visões gerais da IA do Google estão corretas nove em cada dez vezes, revela estudo

Pontos Chave

A precisão aumentou, mas a verificabilidade diminuiu

Google contesta os métodos do estudo

A verdadeira questão é o que as respostas da IA estão fazendo com a web aberta

Notícias de IA Sem o Hype – Curadas por Humanos

Noticias relacionadas

Agentes de busca de IA frequentemente confirmam o que já sabem em vez de realmente pesquisar na web

Google AI Overviews e Modo AI ganham fontes preferidas e novo carrossel de perspectivas

A busca de IA do Google está tão quebrada que pode 'desconsiderar' o que você está procurando

Gostou do conteudo?