
Allowlist de crawlers de IA em 2026: quais bots deixar entrar, bloquear ou ignorar
GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider — em 2026 mais de 28 crawlers de IA querem seu conteúdo. Um allowlist prático em robots.txt + Cloudflare que protege a receita sem cortar citações.
Em 2026 todo assistente de IA sério rastreia a web aberta. Cada um tem um crawler, cada um se identifica num user-agent e cada um faz um papel: treino, indexação, navegação dentro da sessão ou citação. Tratá-los como um balde único de "AI scrapers" — que é o que faz o block-um-clique do Cloudflare por padrão — deixa receita de citações na mesa e ensina scrapers sérios a ignorar o robots.txt de vez.
Este é o cheat sheet de 2026: uma tabela de identidade com 28 bots, o framework de três políticas (allow / training-only / block) e uma configuração funcional de robots.txt + Cloudflare que protege seus dados sem cortar o tráfego de IA.
As quatro tarefas de um crawler
Antes de liberar ou bloquear, entenda qual tarefa o bot está fazendo. Um único fornecedor frequentemente opera 2-4 crawlers separados para finalidades diferentes.
| Tarefa | O que faz | Bloqueio significa |
|---|---|---|
| Treino | Busca páginas para treinar modelos futuros | Nenhum LLM seguinte "conhece" seu domínio |
| Índice de busca | Constrói um índice que o LLM consulta na inferência | Não cita em respostas, ponto |
| Navegação na sessão | Busca um URL que o usuário acabou de pedir | O modelo não consegue resumir sua página ao vivo |
| Embed / RAG | Joga seu conteúdo num armazenamento de embeddings de terceiros | Menos controle de como repackageiam seu material |
O erro mais comum: bloquear as quatro "para proteger o conteúdo" — apagando os papéis de índice e navegação na sessão. Esses dois respondem por 80% do tráfego de respostas citadas.
Tabela de identidade dos 28 bots (maio de 2026)
| User-agent | Fornecedor | Tarefa | Política 2026 |
|---|---|---|---|
GPTBot | OpenAI | Treino + índice | Apenas treino (Allow se quiser estar no treino) |
OAI-SearchBot | OpenAI | Índice de busca | Allow |
ChatGPT-User | OpenAI | Navegação na sessão | Allow (ignora robots.txt mesmo) |
ClaudeBot | Anthropic | Treino | Apenas treino |
Claude-SearchBot | Anthropic | Índice de busca | Allow |
Claude-User | Anthropic | Navegação na sessão | Allow |
anthropic-ai | Anthropic (legado) | Treino | Block (aposentado mas ainda aparece) |
Google-Extended | Treino + AIO | Allow (AIO é 60% do Google) | |
Googlebot | Busca clássica | Allow (o original) | |
PerplexityBot | Perplexity | Índice + citação | Allow (espinha dorsal das citações) |
Perplexity-User | Perplexity | Navegação na sessão | Allow |
Applebot-Extended | Apple | Treino Apple Intelligence | Allow |
Bingbot | Microsoft | Busca + índice Copilot | Allow |
bingbot-Extended | Microsoft | Treino Copilot | Apenas treino |
Bytespider | ByteDance | Treino | Block (sem retorno em citação, carga alta) |
Meta-ExternalAgent | Meta | Treino | Block |
FacebookBot | Meta | Embed para IA | Block |
Amazonbot | Amazon | Treino Alexa AI | Block |
cohere-ai | Cohere | Treino | Block (sem produto de consumidor) |
Diffbot | Diffbot | Scraping comercial | Block se não pagar |
Omgilibot | Webz.io | Scraping comercial | Block |
MistralAI-User | Mistral | Navegação na sessão | Allow |
Kagibot | Kagi | Índice premium | Allow (pequeno mas valioso) |
Webzio-Extended | Webz.io | Scraping comercial | Block |
Brave-SearchBot | Brave | Índice de busca | Allow |
xAI-Bot / Grok-Bot | xAI | Treino + índice Grok | Allow |
YouBot | You.com | Índice de busca | Allow |
Iceberg | Ferramenta LLM interna | Variável | Block por padrão para não identificados |
Um robots.txt que funciona
Para um site B2B que quer máxima elegibilidade a citações e zero contribuição para treino:
# Citação — tudo liberado
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Applebot-Extended
Allow: /
User-agent: MistralAI-User
Allow: /
User-agent: Kagibot
Allow: /
User-agent: Brave-SearchBot
Allow: /
User-agent: xAI-Bot
Allow: /
User-agent: YouBot
Allow: /
# Apenas treino — bloquear
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: bingbot-Extended
Disallow: /
# Hostis / sem retorno em citação
User-agent: anthropic-ai
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
User-agent: FacebookBot
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: Diffbot
Disallow: /
User-agent: Omgilibot
Disallow: /
User-agent: Webzio-Extended
Disallow: /
# Todos os outros
User-agent: *
Allow: /
Sitemap: https://seudominio.com/sitemap.xml
Inverta GPTBot / ClaudeBot para Allow se quiser entrar no treino dos modelos da próxima geração (a maioria das marcas B2B se beneficia — o modelo aprende sua terminologia). Mantenha Disallow só se publicou pesquisa proprietária que não quer ver absorvida.
Aplicação no Cloudflare
robots.txt é respeitado pelos bots compatíveis. Bytespider, vendors de scrape-as-a-service e scrapers via proxy residencial ignoram. A camada de aplicação em 2026 é o painel AI Bots do Cloudflare (Security → Bots → AI Bots, disponível no plano Free desde 2025):
- Desabilite o toggle "Block AI Scrapers" — é o martelo cego que custa 70% do tráfego de citações.
- Ative regras por bot com:
- PerplexityBot, OAI-SearchBot, Claude-SearchBot, Google-Extended, Applebot-Extended: Allow.
- GPTBot, ClaudeBot: Allow ou Managed Challenge conforme sua política de treino.
- Bytespider, Amazonbot, Meta-ExternalAgent, FacebookBot: Block.
- Adicione uma regra customizada de WAF com
(cf.client.bot eq false) and (http.user_agent contains "ai" or http.user_agent contains "bot")e ação Managed Challenge para pegar imitadores com user-agent "AI-style" que não estão na lista verificada. - Coloque um honeypot em
/disallow-honeypot/linkado apenas dollms.txt, com rate-limit por IP em 1, ação Block 24h. Pega scrapers que ignoram robots.txt — nenhum crawler legítimo de IA acessaria esse caminho.
Verificação
Depois de subir a política, valide semanalmente:
tail -f /var/log/nginx/access.log | grep -E "PerplexityBot|OAI-SearchBot|Claude-SearchBot"— confirma que os bots de citação continuam batendo.- Cloudflare Analytics → Security → Bot traffic — gráfico Allowed/Challenged/Blocked. Espere queda de 30-50% no tráfego AI bloqueado depois da subida; é o scraper indesejado indo embora.
- Participação em citações no Perplexity (consultas que deveriam citar você) — deve subir 2-4 semanas após permitir o PerplexityBot, se antes estava em zero.
- Google Search Console → AI Overview impressions (lançando ao longo de 2026) — não deve despencar.
Se o PerplexityBot parar de bater depois da subida, a ordem das regras no Cloudflare está errada (um Block mais amplo casa antes). Mova os Allow por bot para o topo.
Por que o bloqueio padrão está errado
Três das quatro tarefas de crawlers fazem algo que te interessa: indexar para te citar, navegar a página viva quando o usuário pede, treinar modelos futuros para que conheçam sua marca. Só uma — scrapers puros como o Bytespider — não retorna nada útil.
O padrão de 2024 ("bloquear toda IA") fazia sentido quando o mecanismo de citação não existia e os crawlers só levavam embora. Em 2026 os mecanismos existem: citações do PerplexityBot já geram referral mensurável, o Google AI Overview cita com atribuição, o ChatGPT-User puxa dados ao vivo. A assimetria virou: agora bloquear é a opção cara.
12 linhas de robots.txt e 4 regras no Cloudflare são a diferença entre ser citado nas respostas que seus clientes pedem à IA e ficar invisível. A configuração leva uma hora; o ganho se acumula por anos.
01Bloquear o GPTBot impede o ChatGPT de citar meu site?+
Parcialmente. O GPTBot é o crawler de treino/indexação da OpenAI — bloqueá-lo impede seu conteúdo de entrar nos próximos conjuntos de treino e no índice de busca da OpenAI. Mas o ChatGPT-User (navegação dentro da conversa) e o OAI-SearchBot (índice de busca usado para citações) são separados. Bloqueie o GPTBot para sair do treino; deixe OAI-SearchBot e ChatGPT-User permitidos para preservar elegibilidade a citações.
02Devo bloquear por padrão a categoria 'AI Scrapers' do Cloudflare?+
Não. A categoria padrão bloqueia PerplexityBot, OAI-SearchBot e ClaudeBot — exatamente os três por onde passa a maior parte do tráfego com citações. Use os toggles granulares por bot, permita os bots de citação e bloqueie apenas os que só fazem treino sem retorno.
03Qual a diferença entre Google-Extended e Googlebot?+
O Googlebot indexa para a busca clássica. O Google-Extended é o sinal separado que controla se seu conteúdo pode treinar Bard/Gemini e alimentar o Google AI Overview. Desabilite Google-Extended apenas se aceitar sumir do AI Overview — esse bloco está em 60% das consultas Google em abril de 2026.
04Como bloquear bots que ignoram o robots.txt?+
Três camadas: (1) regras WAF / Bot Fight Mode no Cloudflare com regex no user-agent; (2) regras em reverse-proxy (nginx, Caddy) na borda; (3) honeypot-URLs no llms.txt que nenhum bot legítimo seguiria — qualquer IP que entrar é bloqueado por 24h. Bytespider e scrapers de proxy residencial precisam das três camadas; só user-agent não pega.
05Preciso de regras separadas para ClaudeBot e Claude-SearchBot?+
Sim. ClaudeBot é o crawler de treino da Anthropic (papel parecido com o GPTBot). Claude-SearchBot atende o acesso web no chat e as citações. anthropic-ai é o user-agent legado aposentado em 2025 — mantenha Disallow nele por segurança, mas permita os dois novos se quiser que Claude Sonnet/Opus te cite.

Guia Completo de AEO 2026: Como Ser Citado pelo ChatGPT, Perplexity e Google AI Overview

llms.txt está morto em 2026? O que o estudo de 300K domínios da SE Ranking realmente encontrou - e o que move a taxa de citação
