Skip to content
AEO

Allowlist de crawlers de IA em 2026: quais bots deixar entrar, bloquear ou ignorar

GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider — em 2026 mais de 28 crawlers de IA querem seu conteúdo. Um allowlist prático em robots.txt + Cloudflare que protege a receita sem cortar citações.


Mikhail Savchenko·10 de maio de 2026·7 min de leitura
AEOAI VisibilityCrawlersRobots.txtCloudflare

Em 2026 todo assistente de IA sério rastreia a web aberta. Cada um tem um crawler, cada um se identifica num user-agent e cada um faz um papel: treino, indexação, navegação dentro da sessão ou citação. Tratá-los como um balde único de "AI scrapers" — que é o que faz o block-um-clique do Cloudflare por padrão — deixa receita de citações na mesa e ensina scrapers sérios a ignorar o robots.txt de vez.

Este é o cheat sheet de 2026: uma tabela de identidade com 28 bots, o framework de três políticas (allow / training-only / block) e uma configuração funcional de robots.txt + Cloudflare que protege seus dados sem cortar o tráfego de IA.

As quatro tarefas de um crawler

Antes de liberar ou bloquear, entenda qual tarefa o bot está fazendo. Um único fornecedor frequentemente opera 2-4 crawlers separados para finalidades diferentes.

TarefaO que fazBloqueio significa
TreinoBusca páginas para treinar modelos futurosNenhum LLM seguinte "conhece" seu domínio
Índice de buscaConstrói um índice que o LLM consulta na inferênciaNão cita em respostas, ponto
Navegação na sessãoBusca um URL que o usuário acabou de pedirO modelo não consegue resumir sua página ao vivo
Embed / RAGJoga seu conteúdo num armazenamento de embeddings de terceirosMenos controle de como repackageiam seu material

O erro mais comum: bloquear as quatro "para proteger o conteúdo" — apagando os papéis de índice e navegação na sessão. Esses dois respondem por 80% do tráfego de respostas citadas.

Tabela de identidade dos 28 bots (maio de 2026)

User-agentFornecedorTarefaPolítica 2026
GPTBotOpenAITreino + índiceApenas treino (Allow se quiser estar no treino)
OAI-SearchBotOpenAIÍndice de buscaAllow
ChatGPT-UserOpenAINavegação na sessãoAllow (ignora robots.txt mesmo)
ClaudeBotAnthropicTreinoApenas treino
Claude-SearchBotAnthropicÍndice de buscaAllow
Claude-UserAnthropicNavegação na sessãoAllow
anthropic-aiAnthropic (legado)TreinoBlock (aposentado mas ainda aparece)
Google-ExtendedGoogleTreino + AIOAllow (AIO é 60% do Google)
GooglebotGoogleBusca clássicaAllow (o original)
PerplexityBotPerplexityÍndice + citaçãoAllow (espinha dorsal das citações)
Perplexity-UserPerplexityNavegação na sessãoAllow
Applebot-ExtendedAppleTreino Apple IntelligenceAllow
BingbotMicrosoftBusca + índice CopilotAllow
bingbot-ExtendedMicrosoftTreino CopilotApenas treino
BytespiderByteDanceTreinoBlock (sem retorno em citação, carga alta)
Meta-ExternalAgentMetaTreinoBlock
FacebookBotMetaEmbed para IABlock
AmazonbotAmazonTreino Alexa AIBlock
cohere-aiCohereTreinoBlock (sem produto de consumidor)
DiffbotDiffbotScraping comercialBlock se não pagar
OmgilibotWebz.ioScraping comercialBlock
MistralAI-UserMistralNavegação na sessãoAllow
KagibotKagiÍndice premiumAllow (pequeno mas valioso)
Webzio-ExtendedWebz.ioScraping comercialBlock
Brave-SearchBotBraveÍndice de buscaAllow
xAI-Bot / Grok-BotxAITreino + índice GrokAllow
YouBotYou.comÍndice de buscaAllow
IcebergFerramenta LLM internaVariávelBlock por padrão para não identificados

Um robots.txt que funciona

Para um site B2B que quer máxima elegibilidade a citações e zero contribuição para treino:

# Citação — tudo liberado
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: Claude-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: MistralAI-User
Allow: /

User-agent: Kagibot
Allow: /

User-agent: Brave-SearchBot
Allow: /

User-agent: xAI-Bot
Allow: /

User-agent: YouBot
Allow: /

# Apenas treino — bloquear
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: bingbot-Extended
Disallow: /

# Hostis / sem retorno em citação
User-agent: anthropic-ai
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: Omgilibot
Disallow: /

User-agent: Webzio-Extended
Disallow: /

# Todos os outros
User-agent: *
Allow: /

Sitemap: https://seudominio.com/sitemap.xml

Inverta GPTBot / ClaudeBot para Allow se quiser entrar no treino dos modelos da próxima geração (a maioria das marcas B2B se beneficia — o modelo aprende sua terminologia). Mantenha Disallow só se publicou pesquisa proprietária que não quer ver absorvida.

Aplicação no Cloudflare

robots.txt é respeitado pelos bots compatíveis. Bytespider, vendors de scrape-as-a-service e scrapers via proxy residencial ignoram. A camada de aplicação em 2026 é o painel AI Bots do Cloudflare (Security → Bots → AI Bots, disponível no plano Free desde 2025):

  1. Desabilite o toggle "Block AI Scrapers" — é o martelo cego que custa 70% do tráfego de citações.
  2. Ative regras por bot com:
    • PerplexityBot, OAI-SearchBot, Claude-SearchBot, Google-Extended, Applebot-Extended: Allow.
    • GPTBot, ClaudeBot: Allow ou Managed Challenge conforme sua política de treino.
    • Bytespider, Amazonbot, Meta-ExternalAgent, FacebookBot: Block.
  3. Adicione uma regra customizada de WAF com (cf.client.bot eq false) and (http.user_agent contains "ai" or http.user_agent contains "bot") e ação Managed Challenge para pegar imitadores com user-agent "AI-style" que não estão na lista verificada.
  4. Coloque um honeypot em /disallow-honeypot/ linkado apenas do llms.txt, com rate-limit por IP em 1, ação Block 24h. Pega scrapers que ignoram robots.txt — nenhum crawler legítimo de IA acessaria esse caminho.

Verificação

Depois de subir a política, valide semanalmente:

  • tail -f /var/log/nginx/access.log | grep -E "PerplexityBot|OAI-SearchBot|Claude-SearchBot" — confirma que os bots de citação continuam batendo.
  • Cloudflare Analytics → Security → Bot traffic — gráfico Allowed/Challenged/Blocked. Espere queda de 30-50% no tráfego AI bloqueado depois da subida; é o scraper indesejado indo embora.
  • Participação em citações no Perplexity (consultas que deveriam citar você) — deve subir 2-4 semanas após permitir o PerplexityBot, se antes estava em zero.
  • Google Search Console → AI Overview impressions (lançando ao longo de 2026) — não deve despencar.

Se o PerplexityBot parar de bater depois da subida, a ordem das regras no Cloudflare está errada (um Block mais amplo casa antes). Mova os Allow por bot para o topo.

Por que o bloqueio padrão está errado

Três das quatro tarefas de crawlers fazem algo que te interessa: indexar para te citar, navegar a página viva quando o usuário pede, treinar modelos futuros para que conheçam sua marca. Só uma — scrapers puros como o Bytespider — não retorna nada útil.

O padrão de 2024 ("bloquear toda IA") fazia sentido quando o mecanismo de citação não existia e os crawlers só levavam embora. Em 2026 os mecanismos existem: citações do PerplexityBot já geram referral mensurável, o Google AI Overview cita com atribuição, o ChatGPT-User puxa dados ao vivo. A assimetria virou: agora bloquear é a opção cara.

12 linhas de robots.txt e 4 regras no Cloudflare são a diferença entre ser citado nas respostas que seus clientes pedem à IA e ficar invisível. A configuração leva uma hora; o ganho se acumula por anos.

Perguntas frequentes
  • 01Bloquear o GPTBot impede o ChatGPT de citar meu site?+

    Parcialmente. O GPTBot é o crawler de treino/indexação da OpenAI — bloqueá-lo impede seu conteúdo de entrar nos próximos conjuntos de treino e no índice de busca da OpenAI. Mas o ChatGPT-User (navegação dentro da conversa) e o OAI-SearchBot (índice de busca usado para citações) são separados. Bloqueie o GPTBot para sair do treino; deixe OAI-SearchBot e ChatGPT-User permitidos para preservar elegibilidade a citações.

  • 02Devo bloquear por padrão a categoria 'AI Scrapers' do Cloudflare?+

    Não. A categoria padrão bloqueia PerplexityBot, OAI-SearchBot e ClaudeBot — exatamente os três por onde passa a maior parte do tráfego com citações. Use os toggles granulares por bot, permita os bots de citação e bloqueie apenas os que só fazem treino sem retorno.

  • 03Qual a diferença entre Google-Extended e Googlebot?+

    O Googlebot indexa para a busca clássica. O Google-Extended é o sinal separado que controla se seu conteúdo pode treinar Bard/Gemini e alimentar o Google AI Overview. Desabilite Google-Extended apenas se aceitar sumir do AI Overview — esse bloco está em 60% das consultas Google em abril de 2026.

  • 04Como bloquear bots que ignoram o robots.txt?+

    Três camadas: (1) regras WAF / Bot Fight Mode no Cloudflare com regex no user-agent; (2) regras em reverse-proxy (nginx, Caddy) na borda; (3) honeypot-URLs no llms.txt que nenhum bot legítimo seguiria — qualquer IP que entrar é bloqueado por 24h. Bytespider e scrapers de proxy residencial precisam das três camadas; só user-agent não pega.

  • 05Preciso de regras separadas para ClaudeBot e Claude-SearchBot?+

    Sim. ClaudeBot é o crawler de treino da Anthropic (papel parecido com o GPTBot). Claude-SearchBot atende o acesso web no chat e as citações. anthropic-ai é o user-agent legado aposentado em 2025 — mantenha Disallow nele por segurança, mas permita os dois novos se quiser que Claude Sonnet/Opus te cite.

Continue lendo