Skip to content
AEO

Allowlist de crawlers de IA en 2026: qué bots dejar pasar, bloquear o ignorar

GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider — en 2026 hay 28 crawlers de IA que quieren tu contenido. Un allowlist práctico en robots.txt + Cloudflare que protege ingresos sin cortar citaciones.


Mikhail Savchenko·10 de mayo de 2026·7 min de lectura
AEOAI VisibilityCrawlersRobots.txtCloudflare

En 2026 todos los asistentes de IA serios rastrean la web abierta. Cada uno tiene su crawler, cada uno se identifica con un user-agent y cada uno cumple un papel: entrenamiento, indexación, navegación dentro de la sesión o citación. Tratarlos como un solo balde indiferenciado de "AI scrapers" — que es lo que hace el botón "bloquear todo" de Cloudflare por defecto — deja sobre la mesa ingresos por citaciones y entrena a los scrapers serios a ignorar robots.txt por completo.

Este es el cheat sheet 2026: una tabla de identidad con 28 bots, el marco de tres políticas (allow / training-only / block) y una configuración funcional de robots.txt + Cloudflare que protege tus datos sin cortar tráfico de IA.

Las cuatro tareas de un crawler

Antes de permitir o bloquear, entiende qué tarea realiza el bot. Un mismo proveedor a menudo opera 2-4 crawlers separados para fines distintos.

TareaQué haceBloquear significa
EntrenamientoTrae páginas para entrenar modelos futurosNingún LLM siguiente "conoce" tu dominio
Índice de búsquedaConstruye un índice que el LLM consulta en inferenciaNo se te cita en respuestas, punto
Navegación en sesiónTrae un URL que el usuario acaba de pedirEl modelo no puede resumir tu página en vivo
Embed / RAGCarga el contenido a un almacén de embeddings de tercerosMenos control sobre cómo reempaquetan tu material

El error más común: bloquear las cuatro "para proteger el contenido" — borrando al mismo tiempo el índice y la navegación en sesión. Esos dos suman el 80% del tráfico con citaciones.

Tabla de identidad de 28 bots (mayo 2026)

User-agentProveedorTareaPolítica 2026
GPTBotOpenAIEntrenamiento + índiceSolo entrenamiento (Allow si quieres entrar)
OAI-SearchBotOpenAIÍndiceAllow
ChatGPT-UserOpenAINavegación en sesiónAllow (igual ignora robots.txt)
ClaudeBotAnthropicEntrenamientoSolo entrenamiento
Claude-SearchBotAnthropicÍndiceAllow
Claude-UserAnthropicNavegación en sesiónAllow
anthropic-aiAnthropic (legado)EntrenamientoBlock (retirado pero aún aparece)
Google-ExtendedGoogleEntrenamiento + AIOAllow (AIO ya es 60% de Google)
GooglebotGoogleBúsqueda clásicaAllow (el original)
PerplexityBotPerplexityÍndice + citaciónAllow (columna vertebral de citaciones)
Perplexity-UserPerplexityNavegación en sesiónAllow
Applebot-ExtendedAppleEntrenamiento Apple IntelligenceAllow
BingbotMicrosoftBúsqueda + índice CopilotAllow
bingbot-ExtendedMicrosoftEntrenamiento CopilotSolo entrenamiento
BytespiderByteDanceEntrenamientoBlock (sin retorno en citaciones, carga alta)
Meta-ExternalAgentMetaEntrenamientoBlock
FacebookBotMetaEmbed para IABlock
AmazonbotAmazonEntrenamiento Alexa AIBlock
cohere-aiCohereEntrenamientoBlock (sin superficie de consumidor)
DiffbotDiffbotScraping comercialBlock si no paga
OmgilibotWebz.ioScraping comercialBlock
MistralAI-UserMistralNavegación en sesiónAllow
KagibotKagiÍndice premiumAllow (pequeño pero valioso)
Webzio-ExtendedWebz.ioScraping comercialBlock
Brave-SearchBotBraveÍndiceAllow
xAI-Bot / Grok-BotxAIEntrenamiento + índice GrokAllow
YouBotYou.comÍndiceAllow
IcebergHerramienta LLM internaVariosBlock por defecto para no identificados

Un robots.txt que funciona

Para un sitio B2B que quiere máxima elegibilidad de citaciones y cero contribución al entrenamiento:

# Citación — todo permitido
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: Claude-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: MistralAI-User
Allow: /

User-agent: Kagibot
Allow: /

User-agent: Brave-SearchBot
Allow: /

User-agent: xAI-Bot
Allow: /

User-agent: YouBot
Allow: /

# Solo entrenamiento — bloquear
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: bingbot-Extended
Disallow: /

# Hostiles / sin retorno en citaciones
User-agent: anthropic-ai
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: Omgilibot
Disallow: /

User-agent: Webzio-Extended
Disallow: /

# Todos los demás
User-agent: *
Allow: /

Sitemap: https://tudominio.com/sitemap.xml

Cambia GPTBot / ClaudeBot a Allow si quieres entrar en el entrenamiento de la próxima generación de modelos (la mayoría de marcas B2B se beneficia — el modelo aprende tu terminología). Mantén Disallow solo si publicaste investigación propietaria que no quieres ver absorbida.

Aplicación en Cloudflare

robots.txt lo respetan los bots compatibles. Bytespider, vendors de scrape-as-a-service y scrapers vía proxy residencial lo ignoran. La capa de aplicación en 2026 es el panel AI Bots de Cloudflare (Security → Bots → AI Bots, disponible en plan Free desde 2025):

  1. Desactiva el toggle "Block AI Scrapers" — es el martillo ciego que cuesta 70% del tráfico de citaciones.
  2. Activa reglas por bot con:
    • PerplexityBot, OAI-SearchBot, Claude-SearchBot, Google-Extended, Applebot-Extended: Allow.
    • GPTBot, ClaudeBot: Allow o Managed Challenge según tu política de entrenamiento.
    • Bytespider, Amazonbot, Meta-ExternalAgent, FacebookBot: Block.
  3. Agrega una regla WAF custom con (cf.client.bot eq false) and (http.user_agent contains "ai" or http.user_agent contains "bot") y acción Managed Challenge para atrapar impostores con user-agent "AI-style" que no están en la lista verificada.
  4. Coloca un honeypot en /disallow-honeypot/ referenciado solo desde llms.txt, con rate-limit por IP en 1 y acción Block 24h. Atrapa scrapers que ignoran robots.txt — por diseño ningún crawler legítimo de IA va a esa ruta.

Verificación

Tras desplegar la política, verifica semanalmente:

  • tail -f /var/log/nginx/access.log | grep -E "PerplexityBot|OAI-SearchBot|Claude-SearchBot" — confirma que los bots de citación siguen entrando.
  • Cloudflare Analytics → Security → Bot traffic — gráfica Allowed/Challenged/Blocked en el tiempo. Espera una caída de 30-50% en tráfego AI bloqueado tras el rollout; son los scrapers de entrenamiento yéndose.
  • Participación de citaciones en Perplexity (consultas que deberían citarte) — debería subir 2-4 semanas después de permitir PerplexityBot, si antes era nula.
  • Google Search Console → AI Overview impressions (rollout a lo largo de 2026) — no debe desplomarse.

Si PerplexityBot deja de entrar tras el rollout, el orden de tus reglas en Cloudflare está mal (un Block más amplio coincide antes). Reordena para que los Allow por bot vayan primero.

Por qué el bloqueo por defecto es el error

Tres de cada cuatro crawlers de IA hacen algo que te conviene: indexar tu contenido para que sea citado, navegar tu página viva cuando un usuario pregunta, entrenar modelos futuros para que conozcan tu marca. Solo uno — scrapers puros como Bytespider — no aporta nada útil.

El default de 2024 ("bloquear toda IA") fue correcto cuando no existían rutas de citación y los crawlers se llevaban contenido sin retorno. En 2026 las rutas existen (las citaciones de PerplexityBot ya generan tráfico referido medible; Google AI Overview cita con atribución; ChatGPT-User trae datos en vivo a las respuestas) y la asimetría se invirtió: bloquear es la opción cara.

12 líneas de robots.txt y 4 reglas de Cloudflare son la diferencia entre ser citado en las respuestas que tus clientes preguntan a las herramientas de IA y ser invisible. El trabajo lleva una hora; el efecto se acumula durante años.

Preguntas frecuentes
  • 01¿Bloquear GPTBot evita que ChatGPT cite mi sitio?+

    Parcialmente. GPTBot es el crawler de entrenamiento/indexación de OpenAI — bloquearlo impide que tu contenido entre en futuros conjuntos de entrenamiento y en el índice de búsqueda de OpenAI. Pero ChatGPT-User (navegación dentro de la conversación) y OAI-SearchBot (índice usado para citaciones) son separados. Bloquea GPTBot si quieres salir del entrenamiento; deja OAI-SearchBot y ChatGPT-User permitidos para conservar elegibilidad de citación.

  • 02¿Debo bloquear por defecto la categoría 'AI Scrapers' de Cloudflare?+

    No. La categoría bloquea PerplexityBot, OAI-SearchBot y ClaudeBot — los tres que concentran la mayoría del tráfico citado por IA. Usa los toggles granulares por bot, permite los de citación y bloquea solo los de entrenamiento sin retorno.

  • 03¿Cuál es la diferencia entre Google-Extended y Googlebot?+

    Googlebot indexa la búsqueda clásica. Google-Extended es la señal separada que controla si tu contenido puede entrenar Bard/Gemini y poblar Google AI Overview. Desactiva Google-Extended SOLO si aceptas estar ausente del AI Overview — ese tráfico llega al 60% de las búsquedas de Google en abril 2026.

  • 04¿Cómo bloqueo bots que ignoran robots.txt?+

    Tres capas: (1) reglas WAF / Bot Fight Mode en Cloudflare con regex sobre user-agent; (2) reglas en reverse-proxy (nginx, Caddy) en el borde; (3) honeypot URLs en tu llms.txt que ningún bot legítimo pisaría — cualquier IP que entre queda bloqueada 24h. Bytespider y scrapers vía proxy residencial necesitan las tres capas; solo user-agent no alcanza.

  • 05¿Necesito reglas separadas para ClaudeBot y Claude-SearchBot?+

    Sí. ClaudeBot es el crawler de entrenamiento de Anthropic (similar a GPTBot). Claude-SearchBot impulsa el acceso web del chat y las citaciones. anthropic-ai es el user-agent legado retirado en 2025 — déjale Disallow por seguridad, pero permite los dos nuevos si quieres que Claude Sonnet/Opus te cite.

Seguir leyendo