As visões gerais da IA do Google estão corretas nove em cada dez vezes, revela estudo
Pontos Chave
- A startup de IA Oumi analisou 4.326 buscas no Google em nome do New York Times e descobriu que as visões gerais da IA do Google responderam corretamente 85% das vezes com o Gemini 2 e 91% com o Gemini 3.
- Na escala do Google, mesmo uma taxa de erro de nove por cento se traduz em milhões de respostas erradas por hora. O Google afirma que o estudo tem "lacunas sérias."
- Apesar da precisão melhorada, a verificabilidade piorou: com o Gemini 3, 56% das respostas corretas não puderam ser verificadas através das fontes vinculadas, um aumento em relação a 37% com o Gemini 2.
O Google coloca um aviso sob cada resposta gerada por IA: "As respostas da IA podem incluir erros." Mas quão frequentemente esses erros realmente acontecem permaneceu em grande parte sem estudo.
Em nome do New York Times, a startup de IA Oumi examinou 4.326 buscas no Google usando o benchmark padrão da indústria SimpleQA. Os testes foram realizados em duas rodadas: uma em outubro com o Gemini 2 alimentando a IA, e novamente em fevereiro após a atualização para o Gemini 3.
As descobertas: com o Gemini 2, as visões gerais da IA estavam corretas 85 por cento das vezes. Com o Gemini 3, esse número subiu para 91 por cento. Isso soa impressionante, mas na escala do Google, ainda significa milhões de respostas erradas a cada hora.
O que o estudo não aborda é se os usuários teriam obtido melhores respostas através dos resultados de busca tradicionais ou outras fontes. Nem tudo em sites é automaticamente correto também. A verdadeira questão é se os usuários acabam com mais informações corretas no geral do que teriam sem as visões gerais da IA do Google.
A precisão aumentou, mas a verificabilidade diminuiu
Outra descoberta chave: enquanto a precisão melhorou com o Gemini 3, a verificabilidade na verdade piorou. A Oumi verificou se as fontes que o Google vinculou realmente apoiavam as respostas que deu. Com o Gemini 2, 37 por cento das respostas corretas eram "sem fundamento", significando que os sites vinculados não respaldavam totalmente a informação. Com o Gemini 3, esse número saltou para 56 por cento. Muitas vezes, simplesmente não há como verificar uma resposta com base na fonte que o Google fornece.
A qualidade dessas fontes também é questionável. De 5.380 fontes que o Google citou, Facebook e Reddit ficaram em segundo e quarto lugares como as mais comuns. O Facebook apareceu como uma fonte em cinco por cento das respostas corretas e sete por cento das incorretas. O Google pode ter um incentivo para favorecer fontes que são menos propensas a processar judicialmente por uso de conteúdo.
O New York Times destaca vários exemplos de como as coisas podem dar errado mesmo quando o sistema localiza a fonte correta. Em uma pergunta sobre o Hall da Fama da Música Clássica, o Google identificou o site correto que lista Yo-Yo Ma como membro, mas ainda assim afirmou que não havia registro de sua indução.
Quando perguntado sobre o rio a oeste de Goldsboro, Carolina do Norte, o Google encontrou o site de turismo correto, mas leu mal a informação, nomeando o Rio Neuse em vez do verdadeiro Rio Little a oeste.
E para uma pergunta sobre o Museu Bob Marley, a visão geral da IA do Google deu o ano de abertura errado—1987 em vez de 1986—extraindo informações de um post do Facebook, um blog de viagens e uma página da Wikipedia com informações conflitantes.
Google contesta os métodos do estudo
Para verificar respostas em grande escala, a Oumi usou seu próprio modelo de verificação de IA, HallOumi. Essa é a única maneira prática de verificar milhares de respostas, mas vem com uma fraqueza óbvia: a IA que faz a verificação também pode cometer erros. Além disso, as visões gerais da IA podem gerar respostas diferentes para buscas idênticas, mesmo quando as consultas são apenas segundos de diferença.
O porta-voz do Google, Ned Adriance, chamou o estudo de falho, dizendo que tem "lacunas sérias." O benchmark SimpleQA em si contém informações incorretas e não reflete o que as pessoas realmente buscam no Google, disse ele.
Apesar do nome, SimpleQA, desenvolvido pela OpenAI, é construído em torno de perguntas particularmente complicadas, aquelas em que pelo menos um modelo de IA falhou durante um processo de pré-seleção. Isso significa que a taxa de falhas é naturalmente mais alta. O benchmark também é projetado para cenários sem acesso à internet.
No Índice de Análise de Inteligência Artificial, o modelo mais recente do Google, Gemini 3.1 Pro, mostra uma queda de 38 pontos percentuais na taxa de alucinação em comparação com o anterior Gemini 3, que provavelmente estava rodando como uma versão Flash menos capaz na busca do Google na época do teste. O Google afirma que os resultados com busca na web são mais precisos do que aqueles baseados puramente no conhecimento do modelo.
A verdadeira questão é o que as respostas da IA estão fazendo com a web aberta
O debate maior em torno das visões gerais da IA do Google é sobre o que elas estão fazendo com a internet. Ao fornecer respostas diretas em vez de enviar usuários para sites externos, o Google está cortando o tráfego para editores e minando sua base econômica.
A web aberta está perdendo seu papel como uma rede de informações livremente vinculadas, sendo cada vez mais substituída por uma interface de IA centralizada sob o controle do Google. Uma taxa de precisão de 90 por cento é provavelmente mais do que suficiente para a maioria dos usuários e a maioria das buscas para pular o clique no site subjacente completamente.
Estudos mostram que as visões gerais da IA prejudicam o tráfego da web tem sido consistentemente negados pelo Google, que ainda não compartilhou nenhum número próprio. Até mesmo a OpenAI foi mais franca quando lançou pela primeira vez recursos da web para o ChatGPT, afirmando que "apreciamos que este é um novo método de interação com a web e damos boas-vindas ao feedback sobre maneiras adicionais de direcionar o tráfego de volta para as fontes e adicionar à saúde geral do ecossistema," embora essa preocupação tenha desaparecido silenciosamente à medida que seu lançamento de busca progrediu.
Notícias de IA Sem o Hype – Curadas por Humanos
Assine o THE DECODER para leitura sem anúncios, um boletim semanal de IA, nosso exclusivo relatório de fronteira "AI Radar" seis vezes por ano, acesso completo ao arquivo e acesso à nossa seção de comentários.


