Mueller do Google Diz que llms.txt Não Ajuda LLMs a Diferenciar Sites

Google’s Mueller Says llms.txt Can’t Help LLMs Differentiate Sites

John Mueller, do Google, argumentou que sistemas LLM não podem usar arquivos como llms.txt para decidir quais sites exibir para uma determinada consulta.

Ele fez os comentários em um episódio recente do Search Off the Record, o podcast da equipe de Relações de Busca do Google.

Seu comentário aponta para um problema de sinal mais amplo, não apenas jogos intencionais. Mesmo um arquivo llms.txt bem escrito ainda é uma informação auto-relatada do site que deseja ser escolhido.

Para descoberta, Mueller voltou a páginas HTML normais e links internos.

O Que Mueller Disse

A conversa começou com uma pergunta sobre se os editores deveriam converter sites para Markdown para LLMs. Mueller e o co-apresentador Martin Splitt concordaram que HTML ainda é a base para rastreamento e descoberta.

A discussão ficou específica quando Mueller se voltou para llms.txt. Ele descreveu o caso de uso de descoberta como um beco sem saída:

“Basicamente, você está dizendo a esses sistemas, tipo, eu tenho o melhor site de todos. E aqui estão todas as páginas que todos devem visitar. E você deve comprar todos os meus produtos ou o que quer que você coloque lá. Então, em um sistema LLM, basicamente, por design, não pode confiar no que está aqui como uma forma de diferenciar entre diferentes sites.”

Seu argumento se resume a diferenciar. Se os sites usam llms.txt para se promover, os arquivos podem fazer reivindicações semelhantes. Um LLM decidindo qual site melhor responde a uma consulta ainda precisa de outra forma de diferenciá-los.

O Que 'Por Design' Pode Significar

“Por design” pode significar duas coisas diferentes, e Mueller não esclareceu qual.

Uma interpretação é arquitetônica. Sistemas LLM avaliam o conteúdo da web e não podem usar arquivos auto-relatados ao escolher fontes.

A outra interpretação trata como um problema de sinal. Sinais auto-relatados perdem valor quando todos os fornecem. Meta palavras-chave pararam de funcionar pelo mesmo motivo. Todos os sites as preenchiam, e os motores de busca não conseguiam extrair um sinal de classificação útil.

Ambas as interpretações chegam à mesma conclusão sobre descoberta. Mas implicam coisas diferentes sobre se a limitação poderia mudar ao longo do tempo.

Onde Mueller Vê um Papel

Mueller não rejeitou todos os usos de llms.txt. Ele delineou um caso onde poderia ajudar:

“Se alguém já está no seu site, talvez algum tipo de sistema automatizado seja útil.”

Ele usou o exemplo de um agente tentando comprar uma fotografia de um site específico. O LLM visitaria o site e procuraria instruções sobre como concluir a compra.

O argumento separa descoberta de navegação. llms.txt não pode ajudar um LLM a escolher qual site visitar. Mas poderia ajudar uma vez que o agente já esteja lá, como um diretório de loja para alguém que já entrou.

Além do Argumento de Jogo

Mueller já chamou a construção de páginas Markdown para bots de “uma ideia estúpida”. Ele também comparou llms.txt à meta tag de palavras-chave.

Roger Montti, do SEJ, escreveu que llms.txt é “inherentemente não confiável” porque nada impede os proprietários de sites de adicionar conteúdo auto-beneficioso. A análise da SE Ranking de 300.000 domínios não encontrou nenhuma ligação entre a adoção de llms.txt e a frequência de citação nas respostas de LLM.

Esses argumentos se concentraram no que acontece quando as pessoas manipulam os arquivos. O comentário do podcast de Mueller adiciona a nuance de que não há um mecanismo dentro dos arquivos para ajudar um LLM a escolher um site em detrimento de outro.

Por Que Isso Importa

O argumento de jogo contra llms.txt sempre teve um contra-argumento disponível. As plataformas poderiam aprender a penalizar manipulação, da mesma forma que os motores de busca lidaram com dados estruturados spam.

O argumento de diferenciação deixa um problema mais difícil. Penalizar manipulação pode abordar abusos, mas não explica como arquivos auto-relatados ajudam um LLM a escolher um site em detrimento de outro. Seu arquivo llms.txt mais preciso ainda não pode dizer a um LLM para escolher seu site em vez do de um concorrente.

Olhando para o Futuro

Padrões sobre como agentes navegam em sites ainda não foram definidos, reconheceu Mueller. Ele mencionou WebMCP ao lado de outros tipos de arquivos em discussão.

Nenhum se tornou um padrão. Segundo sua estimativa, pode levar de seis meses a um ano, ou mais, para que sistemas agentes se estabeleçam em um formato. A camada de descoberta, onde HTML e links internos já funcionam, não faz parte dessa discussão.

Categoria Notícias IA Generativa

Mueller do Google Diz que llms.txt Não Ajuda LLMs a Diferenciar Sites

O Que Mueller Disse

O Que 'Por Design' Pode Significar

Onde Mueller Vê um Papel

Além do Argumento de Jogo

Por Que Isso Importa

Olhando para o Futuro

Noticias relacionadas

Google afirma que arquivos LLMS.txt não afetam rankings de busca

Mais Sites de Notícias Bloqueiam Crawlers de IA por Padrão

Agentes de busca de IA frequentemente confirmam o que já sabem em vez de realmente pesquisar na web

Gostou do conteudo?