Regras de Crawlers de IA da Cloudflare Podem Bloquear Googlebot

As Regras do Crawler de IA da Cloudflare Podem Bloquear o Googlebot

A Cloudflare está atualizando seu método de identificação e bloqueio de crawlers de IA, o que pode resultar no bloqueio do Googlebot em sites que impedem o treinamento de IA. A empresa anunciou a atualização como parte de seu segundo Dia da Independência de Conteúdo.

Os novos controles permitem que os sites gerenciem o tráfego automatizado com base em três comportamentos, em vez de um único botão de "bloquear bots de IA". Eles já estão ativos para todos os clientes, incluindo o nível gratuito. Um conjunto separado de mudanças padrão entrará em vigor em 15 de setembro.

Três Maneiras de Classificar Crawlers de IA

A Cloudflare agora classifica os crawlers pelo que eles fazem em um site, em vez de se contam como "IA". A empresa divide os casos de uso de IA em três categorias:

Pesquisa indexa um site para responder perguntas mais tarde, e a Cloudflare vincula esse comportamento ao tráfego de referência.
Agente, bots em tempo real agindo por uma pessoa, como ChatGPT-User ou agentes de navegador como Gemini ou Claude operando no Chrome.
Treinamento, crawling que puxa conteúdo para treinar ou ajustar um modelo.

A Cloudflare diz que os operadores de bots devem executar crawlers separados para cada comportamento, para que os sites possam ver por que um bot está visitando e decidir se permitem ou bloqueiam.

Quais Mudanças em 15 de Setembro

Duas mudanças padrão entram em vigor em 15 de setembro. Para novos clientes e novos sites para clientes existentes, crawlers de Treinamento e Agente serão bloqueados por padrão em páginas que exibem anúncios, enquanto a Pesquisa permanece permitida. O comunicado de imprensa da Cloudflare também diz que clientes gratuitos existentes que não mudarem suas configurações até 15 de setembro serão movidos para esses padrões.

A segunda mudança vai ainda mais longe. A Cloudflare começará a tratar crawlers de múltiplos propósitos com base em seu comportamento geral, aplicando a regra mais rigorosa que se aplica. Por exemplo, um crawler que realiza tanto Pesquisa quanto Treinamento será bloqueado se um site bloquear Treinamento. A Cloudflare usa Googlebot, Applebot e Bingbot como exemplos, uma vez que cada um crawla tanto para pesquisa quanto para treinamento de IA. Se um site já habilitou a configuração mais antiga de "Bloquear bots de IA", ela será coberta por essa nova regra.

Se você deseja manter esses crawlers, pode revisar ou alterar essas configurações no seu painel da Cloudflare a qualquer momento antes de 15 de setembro. A Cloudflare diz que continuará a notificar os clientes antes da data.

Novos Sinais de Como Bots Usam Conteúdo

A Cloudflare também está testando um sinal de uso de conteúdo que estende Sinais de Conteúdo no robots.txt. Ele carrega três valores, do mais restritivo ao menos restritivo: imediato, que não armazena nada; referência, que indexa e vincula de volta e é o novo padrão; e completo, que resume e reproduz. A Cloudflare diz que esses estados expressam uma preferência e não bloqueiam por si só.

A empresa revisou a definição de "Verificado" para bots. Agora, um bot verificado não é automaticamente permitido em todos os lugares; em vez disso, seu acesso depende de sua categoria. Além disso, bots que replicam conteúdo em sua totalidade não são elegíveis para verificação. A Cloudflare introduziu um diretório pesquisável, BotBase, para usuários de Gerenciamento de Bots Empresariais, que exibe a classificação de cada bot rastreado e um ID de detecção copiável para regras de segurança.

O Relatório por Trás das Mudanças

A atualização chegou com um relatório da Cloudflare marcando o primeiro aniversário do primeiro Dia da Independência de Conteúdo. De acordo com o relatório, o treinamento de IA agora representa a maioria dos pedidos de crawlers em sua rede, um aumento de cerca de 20% na primavera de 2025. Também observa que os pedidos diários de agentes de IA aumentaram em mais de 1.700% ao longo do ano. Essas estatísticas são baseadas no tráfego da rede da Cloudflare e não representam toda a web.

Por Que Isso Importa

A regra de 15 de setembro vincula os bloqueios de treinamento de IA ao crawling de pesquisa na rede da Cloudflare. Se um site bloquear o Treinamento para proteger seu conteúdo de modelos de IA, pode também bloquear inadvertidamente o Googlebot, uma vez que um bloqueio da Cloudflare opera em nível de rede, tornando mais difícil de contornar do que uma simples linha de robots.txt que o Google pode ignorar, uma vez que um bloqueio da Cloudflare opera em nível de rede, já que o robots.txt é uma instrução consultiva para crawlers. Perder o acesso do Googlebot significa que o site não será rastreado de forma tão eficaz, o que pode eventualmente impactar sua visibilidade nos resultados de pesquisa.

Eu acompanhei publicações mudando para configurações padrão de negação e bloqueando tanto recuperação quanto treinamento bots ao longo do último ano. A exposição é a mesma toda vez. Bloquear a camada de treinamento também pode bloquear a camada de pesquisa que mantém um site encontrável.

Olhando Para o Futuro

Sites que usam Cloudflare devem revisar suas configurações de bloqueio de IA até 15 de setembro, decidir se desejam manter os crawlers de Pesquisa habilitados. A regra de crawler combinado afeta principalmente aqueles que ativaram "Bloquear bots de IA" anteriormente e não ajustaram suas configurações desde então. Usuários gratuitos que não mudarem suas configurações terão suas atualizações para os novos padrões nessa data.

A Cloudflare deseja que operadores de crawlers de múltiplos propósitos separem esses bots por comportamento ao longo do próximo ano. Se grandes operadores diferenciarem seus bots por comportamento, isso determinará se isso se torna uma escolha real, em vez de um compromisso entre bloquear o treinamento de IA e manter a visibilidade na pesquisa.

Imagem em Destaque: jackpress/Shutterstock

Categoria Notícias Desenvolvimento Web SEO

Regras de Crawlers de IA da Cloudflare Podem Bloquear Googlebot

Três Maneiras de Classificar Crawlers de IA

Quais Mudanças em 15 de Setembro

Novos Sinais de Como Bots Usam Conteúdo

O Relatório por Trás das Mudanças

Por Que Isso Importa

Olhando Para o Futuro

Noticias relacionadas

Devo Bloquear Crawlers de IA ou Medir Seu Valor Primeiro?

81,8% do meu tráfego de 'Assistente de IA' era falso. O número do Googlebot foi pior

Mueller do Google Explica Como Impressões de Busca com IA São Contadas

Gostou do conteudo?