
Allowlist de crawlers de IA en 2026: qué bots dejar pasar, bloquear o ignorar
GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider — en 2026 hay 28 crawlers de IA que quieren tu contenido. Un allowlist práctico en robots.txt + Cloudflare que protege ingresos sin cortar citaciones.
En 2026 todos los asistentes de IA serios rastrean la web abierta. Cada uno tiene su crawler, cada uno se identifica con un user-agent y cada uno cumple un papel: entrenamiento, indexación, navegación dentro de la sesión o citación. Tratarlos como un solo balde indiferenciado de "AI scrapers" — que es lo que hace el botón "bloquear todo" de Cloudflare por defecto — deja sobre la mesa ingresos por citaciones y entrena a los scrapers serios a ignorar robots.txt por completo.
Este es el cheat sheet 2026: una tabla de identidad con 28 bots, el marco de tres políticas (allow / training-only / block) y una configuración funcional de robots.txt + Cloudflare que protege tus datos sin cortar tráfico de IA.
Las cuatro tareas de un crawler
Antes de permitir o bloquear, entiende qué tarea realiza el bot. Un mismo proveedor a menudo opera 2-4 crawlers separados para fines distintos.
| Tarea | Qué hace | Bloquear significa |
|---|---|---|
| Entrenamiento | Trae páginas para entrenar modelos futuros | Ningún LLM siguiente "conoce" tu dominio |
| Índice de búsqueda | Construye un índice que el LLM consulta en inferencia | No se te cita en respuestas, punto |
| Navegación en sesión | Trae un URL que el usuario acaba de pedir | El modelo no puede resumir tu página en vivo |
| Embed / RAG | Carga el contenido a un almacén de embeddings de terceros | Menos control sobre cómo reempaquetan tu material |
El error más común: bloquear las cuatro "para proteger el contenido" — borrando al mismo tiempo el índice y la navegación en sesión. Esos dos suman el 80% del tráfico con citaciones.
Tabla de identidad de 28 bots (mayo 2026)
| User-agent | Proveedor | Tarea | Política 2026 |
|---|---|---|---|
GPTBot | OpenAI | Entrenamiento + índice | Solo entrenamiento (Allow si quieres entrar) |
OAI-SearchBot | OpenAI | Índice | Allow |
ChatGPT-User | OpenAI | Navegación en sesión | Allow (igual ignora robots.txt) |
ClaudeBot | Anthropic | Entrenamiento | Solo entrenamiento |
Claude-SearchBot | Anthropic | Índice | Allow |
Claude-User | Anthropic | Navegación en sesión | Allow |
anthropic-ai | Anthropic (legado) | Entrenamiento | Block (retirado pero aún aparece) |
Google-Extended | Entrenamiento + AIO | Allow (AIO ya es 60% de Google) | |
Googlebot | Búsqueda clásica | Allow (el original) | |
PerplexityBot | Perplexity | Índice + citación | Allow (columna vertebral de citaciones) |
Perplexity-User | Perplexity | Navegación en sesión | Allow |
Applebot-Extended | Apple | Entrenamiento Apple Intelligence | Allow |
Bingbot | Microsoft | Búsqueda + índice Copilot | Allow |
bingbot-Extended | Microsoft | Entrenamiento Copilot | Solo entrenamiento |
Bytespider | ByteDance | Entrenamiento | Block (sin retorno en citaciones, carga alta) |
Meta-ExternalAgent | Meta | Entrenamiento | Block |
FacebookBot | Meta | Embed para IA | Block |
Amazonbot | Amazon | Entrenamiento Alexa AI | Block |
cohere-ai | Cohere | Entrenamiento | Block (sin superficie de consumidor) |
Diffbot | Diffbot | Scraping comercial | Block si no paga |
Omgilibot | Webz.io | Scraping comercial | Block |
MistralAI-User | Mistral | Navegación en sesión | Allow |
Kagibot | Kagi | Índice premium | Allow (pequeño pero valioso) |
Webzio-Extended | Webz.io | Scraping comercial | Block |
Brave-SearchBot | Brave | Índice | Allow |
xAI-Bot / Grok-Bot | xAI | Entrenamiento + índice Grok | Allow |
YouBot | You.com | Índice | Allow |
Iceberg | Herramienta LLM interna | Varios | Block por defecto para no identificados |
Un robots.txt que funciona
Para un sitio B2B que quiere máxima elegibilidad de citaciones y cero contribución al entrenamiento:
# Citación — todo permitido
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Applebot-Extended
Allow: /
User-agent: MistralAI-User
Allow: /
User-agent: Kagibot
Allow: /
User-agent: Brave-SearchBot
Allow: /
User-agent: xAI-Bot
Allow: /
User-agent: YouBot
Allow: /
# Solo entrenamiento — bloquear
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: bingbot-Extended
Disallow: /
# Hostiles / sin retorno en citaciones
User-agent: anthropic-ai
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
User-agent: FacebookBot
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: Diffbot
Disallow: /
User-agent: Omgilibot
Disallow: /
User-agent: Webzio-Extended
Disallow: /
# Todos los demás
User-agent: *
Allow: /
Sitemap: https://tudominio.com/sitemap.xml
Cambia GPTBot / ClaudeBot a Allow si quieres entrar en el entrenamiento de la próxima generación de modelos (la mayoría de marcas B2B se beneficia — el modelo aprende tu terminología). Mantén Disallow solo si publicaste investigación propietaria que no quieres ver absorbida.
Aplicación en Cloudflare
robots.txt lo respetan los bots compatibles. Bytespider, vendors de scrape-as-a-service y scrapers vía proxy residencial lo ignoran. La capa de aplicación en 2026 es el panel AI Bots de Cloudflare (Security → Bots → AI Bots, disponible en plan Free desde 2025):
- Desactiva el toggle "Block AI Scrapers" — es el martillo ciego que cuesta 70% del tráfico de citaciones.
- Activa reglas por bot con:
- PerplexityBot, OAI-SearchBot, Claude-SearchBot, Google-Extended, Applebot-Extended: Allow.
- GPTBot, ClaudeBot: Allow o Managed Challenge según tu política de entrenamiento.
- Bytespider, Amazonbot, Meta-ExternalAgent, FacebookBot: Block.
- Agrega una regla WAF custom con
(cf.client.bot eq false) and (http.user_agent contains "ai" or http.user_agent contains "bot")y acción Managed Challenge para atrapar impostores con user-agent "AI-style" que no están en la lista verificada. - Coloca un honeypot en
/disallow-honeypot/referenciado solo desdellms.txt, con rate-limit por IP en 1 y acción Block 24h. Atrapa scrapers que ignoran robots.txt — por diseño ningún crawler legítimo de IA va a esa ruta.
Verificación
Tras desplegar la política, verifica semanalmente:
tail -f /var/log/nginx/access.log | grep -E "PerplexityBot|OAI-SearchBot|Claude-SearchBot"— confirma que los bots de citación siguen entrando.- Cloudflare Analytics → Security → Bot traffic — gráfica Allowed/Challenged/Blocked en el tiempo. Espera una caída de 30-50% en tráfego AI bloqueado tras el rollout; son los scrapers de entrenamiento yéndose.
- Participación de citaciones en Perplexity (consultas que deberían citarte) — debería subir 2-4 semanas después de permitir PerplexityBot, si antes era nula.
- Google Search Console → AI Overview impressions (rollout a lo largo de 2026) — no debe desplomarse.
Si PerplexityBot deja de entrar tras el rollout, el orden de tus reglas en Cloudflare está mal (un Block más amplio coincide antes). Reordena para que los Allow por bot vayan primero.
Por qué el bloqueo por defecto es el error
Tres de cada cuatro crawlers de IA hacen algo que te conviene: indexar tu contenido para que sea citado, navegar tu página viva cuando un usuario pregunta, entrenar modelos futuros para que conozcan tu marca. Solo uno — scrapers puros como Bytespider — no aporta nada útil.
El default de 2024 ("bloquear toda IA") fue correcto cuando no existían rutas de citación y los crawlers se llevaban contenido sin retorno. En 2026 las rutas existen (las citaciones de PerplexityBot ya generan tráfico referido medible; Google AI Overview cita con atribución; ChatGPT-User trae datos en vivo a las respuestas) y la asimetría se invirtió: bloquear es la opción cara.
12 líneas de robots.txt y 4 reglas de Cloudflare son la diferencia entre ser citado en las respuestas que tus clientes preguntan a las herramientas de IA y ser invisible. El trabajo lleva una hora; el efecto se acumula durante años.
01¿Bloquear GPTBot evita que ChatGPT cite mi sitio?+
Parcialmente. GPTBot es el crawler de entrenamiento/indexación de OpenAI — bloquearlo impide que tu contenido entre en futuros conjuntos de entrenamiento y en el índice de búsqueda de OpenAI. Pero ChatGPT-User (navegación dentro de la conversación) y OAI-SearchBot (índice usado para citaciones) son separados. Bloquea GPTBot si quieres salir del entrenamiento; deja OAI-SearchBot y ChatGPT-User permitidos para conservar elegibilidad de citación.
02¿Debo bloquear por defecto la categoría 'AI Scrapers' de Cloudflare?+
No. La categoría bloquea PerplexityBot, OAI-SearchBot y ClaudeBot — los tres que concentran la mayoría del tráfico citado por IA. Usa los toggles granulares por bot, permite los de citación y bloquea solo los de entrenamiento sin retorno.
03¿Cuál es la diferencia entre Google-Extended y Googlebot?+
Googlebot indexa la búsqueda clásica. Google-Extended es la señal separada que controla si tu contenido puede entrenar Bard/Gemini y poblar Google AI Overview. Desactiva Google-Extended SOLO si aceptas estar ausente del AI Overview — ese tráfico llega al 60% de las búsquedas de Google en abril 2026.
04¿Cómo bloqueo bots que ignoran robots.txt?+
Tres capas: (1) reglas WAF / Bot Fight Mode en Cloudflare con regex sobre user-agent; (2) reglas en reverse-proxy (nginx, Caddy) en el borde; (3) honeypot URLs en tu llms.txt que ningún bot legítimo pisaría — cualquier IP que entre queda bloqueada 24h. Bytespider y scrapers vía proxy residencial necesitan las tres capas; solo user-agent no alcanza.
05¿Necesito reglas separadas para ClaudeBot y Claude-SearchBot?+
Sí. ClaudeBot es el crawler de entrenamiento de Anthropic (similar a GPTBot). Claude-SearchBot impulsa el acceso web del chat y las citaciones. anthropic-ai es el user-agent legado retirado en 2025 — déjale Disallow por seguridad, pero permite los dos nuevos si quieres que Claude Sonnet/Opus te cite.

Guía Completa de AEO 2026: Cómo Ser Citado por ChatGPT, Perplexity y Google AI Overview

¿llms.txt está muerto en 2026? Lo que el estudio de 300K dominios de SE Ranking realmente encontró - y qué mueve la aguja de la citación
