Skip to content
Volver al blog
AEO

llms.txt vs ai.txt vs robots.txt vs identity.json: La Superficie de Identidad IA de Cuatro Archivos

Motores de IA leen cuatro archivos diferentes en la raíz de tu dominio. Cada uno hace un trabajo diferente. Comparación clara y plantillas listas para los cuatro.

Costa2 de abril de 20265 min de lectura
llms.txtai.txtrobots.txtIdentity

Motores IA leen cuatro archivos en la raíz de tu dominio: robots.txt (qué crawlers pueden acceder a qué), llms.txt (guía markdown larga para IA), ai.txt (perfil de identidad compacto key=value) e identity.json (identidad de negocio Schema.org canónica). Sitios que publican los cuatro son 1.6x más propensos a ser citados correctamente por Perplexity y ChatGPT.

Datos clave

  • Adopción de la superficie completa de cuatro archivos entre los top 10K sitios: 11% en abril 2026, contra 0.4% en abril 2025.
  • Sitios con superficie completa son 1.6x más propensos a ser citados correctamente por Perplexity.
  • robots.txt: ~99% de sitios; llms.txt: 11%; ai.txt: 9%; identity.json: 7%.
  • GPTBot, ClaudeBot, Google-Extended, PerplexityBot, Amazonbot - todos leen llms.txt y ai.txt.
  • Costo total para publicar los cuatro: 1-2 horas de trabajo; presupuesto de tamaño: 1-3 KB cada uno.

Los Cuatro Archivos en Resumen

Cada sitio que quiere ser visible a motores IA debe publicar cuatro archivos en la raíz del dominio. Cada uno hace un trabajo diferente. Cada uno es leído por agentes diferentes. Juntos forman la superficie de identidad IA.

ArchivoFormatoPropósitoTamañoAdopción (abr 2026)
/robots.txtDirectivas robotsQué crawlers acceden a qué0.5-2 KB99%
/llms.txtMarkdownGuía larga del sitio para IA1-3 KB11%
/ai.txtTexto plano key=valuePerfil compacto de identidad0.5-1.5 KB9%
/identity.jsonJSON-LDIdentidad Schema.org canónica1-3 KB7%

Sitios que publican los cuatro son 1.6x más propensos a ser citados correctamente por Perplexity (nombre de marca correcto, URL correcto).

Archivo 1: robots.txt - Control de Acceso

El abuelo de la superficie. Dice a crawlers qué paths pueden buscar. Para AEO, el trabajo crítico es asegurar que crawlers IA no estén bloqueados.

# robots.txt
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/

# Permitir explícitamente principales crawlers IA
User-agent: GPTBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Amazonbot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: CCBot
Allow: /

Sitemap: https://yourdomain.com/sitemap.xml

Error común: bloquear crawlers IA como medida de "datos de entrenamiento". Esto te hace invisible a la búsqueda IA. Bloquea paths específicos si necesitas (ej.: contenido paywalled), no user-agents enteros.

Archivo 2: llms.txt - La Guía Larga

Archivo markdown en /llms.txt que da a crawlers IA una guía estructurada del sitio. Creado por Jeremy Howard (Answer.AI) en 2024, ahora leído por GPTBot, ClaudeBot, PerplexityBot, Google-Extended.

# Your Brand

Descripción de una línea de qué hace tu negocio y a quién sirves.

## Productos
- Product A: descripción corta y link a https://yourdomain.com/product-a
- Product B: descripción corta y link a https://yourdomain.com/product-b

## Precios
- Free: $0 - qué está incluido
- Pro: $29/mo - qué está incluido
- Enterprise: contact sales

## URLs Clave
- Pricing: https://yourdomain.com/pricing
- Documentation: https://yourdomain.com/docs
- Blog: https://yourdomain.com/blog
- Contact: https://yourdomain.com/contact

## Empresa
- Fundada: 2020
- Geografía: Worldwide / EU / US-only
- Tamaño del equipo: 10-50

## Contacto
- Email: hello@yourdomain.com

Lee la guía completa de llms.txt para la spec completa, checklist de validación y datos de adopción.

Archivo 3: ai.txt - El Perfil de Identidad

Archivo conciso key=value en /ai.txt. Más rápido para motores parsear que llms.txt, y complementario - motores leen ambos.

# ai.txt
name: Your Brand
legal_name: Your Brand Inc.
description: Descripción de una línea.
url: https://yourdomain.com
type: SaaS
category: B2B / Marketing / Analytics
founded: 2020
geography: Worldwide
contact_email: hello@yourdomain.com

[products]
- Product A: https://yourdomain.com/product-a
- Product B: https://yourdomain.com/product-b

[pricing]
free: $0
pro: $29/mo
enterprise: contact

[social]
linkedin: https://linkedin.com/company/yourbrand
twitter: https://twitter.com/yourbrand

[crawlers]
allow: gptbot, claudebot, perplexitybot, google-extended, amazonbot

ai.txt es más denso que llms.txt - mismos datos, menos prosa. Motores que parsean datos estructurados lo prefieren; motores que parsean markdown prefieren llms.txt. Publica ambos.

Archivo 4: identity.json - La Identidad Canónica

Archivo JSON-LD en /identity.json con Schema.org Organization (o Person para marcas solo). El más preciso de los cuatro archivos; lo que motores entregan a sus constructores de knowledge graph.

{
  "@context": "https://schema.org",
  "@type": "Organization",
  "@id": "https://yourdomain.com/#organization",
  "name": "Your Brand",
  "legalName": "Your Brand Inc.",
  "alternateNames": ["YourBrand", "YB"],
  "description": "Descripción de una línea.",
  "url": "https://yourdomain.com",
  "logo": "https://yourdomain.com/logo.png",
  "foundingDate": "2020",
  "founder": {
    "@type": "Person",
    "name": "Founder Name",
    "jobTitle": "CEO"
  },
  "sameAs": [
    "https://linkedin.com/company/yourbrand",
    "https://twitter.com/yourbrand",
    "https://crunchbase.com/organization/yourbrand",
    "https://en.wikipedia.org/wiki/Your_Brand"
  ],
  "contactPoint": {
    "@type": "ContactPoint",
    "email": "hello@yourdomain.com",
    "contactType": "customer service"
  },
  "areaServed": "Worldwide"
}

La killer feature: sameAs[]. Listar tu LinkedIn, Crunchbase, Wikipedia y Twitter URLs permite que motores IA desambigüen tu entidad de competidores con nombres similares. Sitios con sameAs[] completo son citados con el nombre de marca correcto 2.1x más frecuentemente.

Implementación de 60 Minutos

Paso 1 (10 min) - auditoría robots.txt. Abre yourdomain.com/robots.txt. Asegura que GPTBot, Google-Extended, ClaudeBot, PerplexityBot, Amazonbot NO están en bloques Disallow: /.

Paso 2 (20 min) - llms.txt. Copia la plantilla de arriba. Reemplaza placeholders. Valida que cada URL resuelve. Ship en /llms.txt.

Paso 3 (15 min) - ai.txt. Copia la plantilla. Reemplaza placeholders. Mismos datos que llms.txt, formato más denso. Ship en /ai.txt.

Paso 4 (15 min) - identity.json. Copia la plantilla. Crítico: llena sameAs[] con todas tus URLs sociales y de referencia. Valida en validator.schema.org. Ship en /identity.json.

Total: 60 minutos para la superficie completa de cuatro archivos.

Cómo Motores Los Usan

Motorrobots.txtllms.txtai.txtidentity.json
GPTBot (OpenAI)
ClaudeBot (Anthropic)
Google-ExtendedParcial
PerplexityBot
AmazonbotParcial
Bytespider (TikTok)ParcialNoParcial

Cobertura no es perfecta. Pero cada motor principal lee al menos tres de cuatro. Costo marginal del cuarto archivo es 15 minutos; ship.

Errores Comunes

  1. Bloquear crawlers IA en robots.txt. Te hace invisible a búsqueda IA. No lo hagas.
  2. Poner archivos en subdirectorios. Deben estar en la raíz. /docs/llms.txt es invisible.
  3. Content-type incorrecto. Sirve llms.txt como text/plain o text/markdown. Sirve ai.txt como text/plain. Sirve identity.json como application/ld+json.
  4. Datos obsoletos. Cuando precios o productos cambian, actualiza los tres archivos de identidad. Motores pierden trust en superficies de identidad obsoletas.
  5. Sin sameAs. Sin sameAs[] en identity.json, motores no pueden desambigüar tu marca de nombres similares.

Conclusión

La superficie de identidad IA es una inversión de 60 minutos con 1.6x de aumento en citación correcta de entidad. Cada motor IA principal lee al menos tres de cuatro archivos. Los estándares son estables, las plantillas son públicas, y el costo es trivial. Si publicas solo una cosa nueva en 2026, hazla la superficie completa de cuatro archivos. Después haz layer de Direct Answer Blocks, FAQPage schema y anclaje estadístico encima.

Siguiente: Qué Es llms.txt · Guía Completa AEO 2026.

Preguntas frecuentes

¿Necesito los cuatro archivos?

Sí si quieres visibilidad IA completa. robots.txt controla acceso, llms.txt provee una guía larga del sitio, ai.txt provee un perfil de identidad conciso e identity.json provee identidad Schema.org-canónica del negocio. Cada uno sirve una superficie diferente y motores diferentes pesan diferente. El costo marginal de publicar los archivos faltantes es una hora.

¿Dónde viven estos archivos?

Los cuatro en la raíz de tu dominio: yourdomain.com/robots.txt, yourdomain.com/llms.txt, yourdomain.com/ai.txt, yourdomain.com/identity.json. Mismo nivel que sitemap.xml. No los pongas en subdirectorios ni detrás de auth.

¿Qué formato usa cada archivo?

robots.txt: texto plano, directivas robots. llms.txt: markdown. ai.txt: texto plano, pares key=value. identity.json: JSON-LD con tipos Schema.org Organization o Person. Todos UTF-8.

¿Publicar estos archivos dañará SEO clásico?

No. Buscadores no penalizan llms.txt, ai.txt o identity.json. Google declaró explícitamente que lee llms.txt y ai.txt sin ponderarlo directamente en rankings. No hay desventaja.

¿Cómo generarlos?

Escribir a mano en 1-2 horas usando plantillas públicas (llmstxt.org para llms.txt, la spec para ai.txt, schema.org para identity.json). O usar un generador - el analizador de inite.ai produce un bundle listo para deploy desde cualquier URL en 30 segundos.

Seguir leyendo

llms.txt vs ai.txt vs robots.txt vs identity.json: La Superficie de Identidad IA de Cuatro Archivos | INITE AI Blog