Mais Sites de Notícias Bloqueiam Crawlers de IA por Padrão

Mais Sites de Notícias Padrão Para Bloquear Crawlers de IA

A Reuters e a Time agora bloqueiam por padrão bots de IA, permitindo apenas crawlers aprovados através de listas de permissão, relata a Digiday.

Ambos os editores tomaram a decisão em maio, juntando-se à People Inc. e à The Atlantic, que adotaram configurações semelhantes no último ano.

A Reuters afirma que a mudança não custou tráfego, enquanto reduz o que gasta servindo bots. Executivos creditam a fricção adicional por ajudar a empurrar empresas de IA para conversas de licenciamento.

Por Que Listas de Bloqueio Não Foram Suficientes

O robots.txt funciona apenas quando os crawlers escolhem honrá-lo. A Digiday citou um relatório da Tollbit que descobriu que 30% de todos os scrapes de bots de IA não cumpriram as permissões explícitas do robots.txt.

Bloquear em outros níveis ainda tem efeito, dizem os executivos. Scrapers que contornam bloqueios pagam por soluções alternativas, e esse custo é o ponto.

Uma lista de bloqueio captura apenas os bots que um editor pode nomear. A People Inc. aprendeu que mudar para uma lista de permissão aumentou o número de agentes de usuário que bloqueou de cerca de 2.100 para mais de 30.000. Lindsay Van Kirk, vice-presidente de inovação, compartilhou os números em um evento do IAB Tech Lab no final de maio.

Essa escala corresponde ao que os dados do robots.txt mostraram por meses. Uma análise da BuzzStream que cobrimos em janeiro descobriu que 79% dos principais editores de notícias bloqueiam pelo menos um bot de treinamento de IA. A documentação do crawler da Anthropic agora alerta os editores sobre o custo de visibilidade de bloquear seu bot de busca. No Reino Unido, um novo requisito de conduta exige que o Google permita que os sites optem por não participar das funcionalidades de busca de IA.

Como os Editores Decidem Quais Bots Permitir

Bloquear por padrão, uma configuração às vezes chamada de negação padrão, muda a decisão de quais bots bloquear para quais bots deixar entrar.

A Reuters aprova um bot quando ele oferece uma "troca de valor justa", disse Josh London, chefe da Reuters Professional, à Digiday. Essa troca cobre quatro tipos de valor. Um bot pode pagar por conteúdo através de licenciamento, enviar tráfego de volta, manter o site funcionando ou apoiar a monetização.

O resultado é visível no arquivo robots.txt ao vivo da Reuters. Ele lista crawlers aprovados da Amazon, Google, Bing/Microsoft, Yahoo e OpenAI, e então proíbe outros bots da maior parte do site.

Por Que Isso Importa

O acesso de crawlers funcionou da mesma forma desde que o robots.txt foi criado. Todo bot entra, a menos que um editor o nomeie e o bloqueie.

Agora a Reuters e a Time estão revertendo esse padrão, e os números da People Inc. mostram por quê. Você não pode bloquear um bot que nunca ouviu falar.

Bloquear tem custos, no entanto. Bloqueie um crawler e você perde o que ele estava enviando de volta, como visibilidade de busca de IA ou tráfego de referência. É por isso que ambos os editores perguntam o que cada bot lhes oferece antes de deixá-lo entrar. É uma pergunta que vale a pena fazer sobre seu próprio robots.txt.

Olhando Para o Futuro

Os editores estão apostando que há força em números. Um site bloqueando bots de IA é fácil de ignorar. A SPUR Coalition está construindo padrões compartilhados para licenciamento e uso de conteúdo. Ela cresceu para 36 organizações este mês após adicionar 30 membros. Trinta e seis editores bloqueando juntos é mais difícil de ignorar do que um.

O que é menos claro é para quem isso funciona. A Reuters chegou à mesa com um negócio de notícias e contratos de licenciamento já assinados. Editores menores enfrentam a mesma escolha sem essa alavancagem. Eles podem bloquear, mas bloquear custa visibilidade de IA e não garante que alguém apareça para negociar.

Em uma análise aprofundada que escrevi há alguns meses, descobri que os fundos de pagamento permanecem pequenos em relação à receita de busca tradicional. Se os acordos só chegarem para os maiores nomes, a negação padrão pode continuar sendo uma ferramenta de grandes editores.

Imagem em Destaque: Grenar/Shutterstock

Categoria Notícias IA Generativa

Mais Sites de Notícias Bloqueiam Crawlers de IA por Padrão

Por Que Listas de Bloqueio Não Foram Suficientes

Como os Editores Decidem Quais Bots Permitir

Por Que Isso Importa

Olhando Para o Futuro

Noticias relacionadas

Agentes de busca de IA frequentemente confirmam o que já sabem em vez de realmente pesquisar na web

Google AI Overviews e Modo AI ganham fontes preferidas e novo carrossel de perspectivas

A busca de IA do Google está tão quebrada que pode 'desconsiderar' o que você está procurando

Gostou do conteudo?