llms.txt vs ai.txt vs robots.txt vs identity.json: A Superfície de Identidade IA de Quatro Arquivos
Motores de IA leem quatro arquivos diferentes na raiz do seu domínio. Cada um faz um trabalho diferente. Comparação clara e modelos prontos para os quatro.
Motores de IA leem quatro arquivos na raiz do seu domínio: robots.txt (quais crawlers podem acessar o quê), llms.txt (guia markdown longo para IA), ai.txt (perfil de identidade compacto key=value) e identity.json (identidade de negócio Schema.org canônica). Sites que publicam os quatro são 1.6x mais propensos a serem citados corretamente por Perplexity e ChatGPT.
Fatos-chave
- Adoção da superfície completa de quatro arquivos entre os top 10K sites: 11% em abril 2026, contra 0.4% em abril 2025.
- Sites com superfície completa são 1.6x mais propensos a serem citados corretamente pelo Perplexity.
- robots.txt: ~99% dos sites; llms.txt: 11%; ai.txt: 9%; identity.json: 7%.
- GPTBot, ClaudeBot, Google-Extended, PerplexityBot, Amazonbot - todos leem llms.txt e ai.txt.
- Custo total para publicar os quatro: 1-2 horas de trabalho; orçamento de tamanho: 1-3 KB cada.
Os Quatro Arquivos em Resumo
Todo site que quer ser visível para motores IA deve publicar quatro arquivos na raiz do domínio. Cada um faz um trabalho diferente. Cada um é lido por agentes diferentes. Juntos formam a superfície de identidade IA.
| Arquivo | Formato | Propósito | Tamanho | Adoção (abr 2026) |
|---|---|---|---|---|
/robots.txt | Diretivas robots | Quais crawlers acessam o quê | 0.5-2 KB | 99% |
/llms.txt | Markdown | Guia longo do site para IA | 1-3 KB | 11% |
/ai.txt | Texto puro key=value | Perfil compacto de identidade | 0.5-1.5 KB | 9% |
/identity.json | JSON-LD | Identidade Schema.org canônica | 1-3 KB | 7% |
Sites que publicam os quatro são 1.6x mais propensos a serem citados corretamente pelo Perplexity (nome de marca certo, URL certo).
Arquivo 1: robots.txt - Controle de Acesso
O avô da superfície. Diz aos crawlers quais paths eles podem buscar. Para AEO, o trabalho crítico é garantir que crawlers IA não estejam bloqueados.
# robots.txt
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
# Permitir explicitamente principais crawlers IA
User-agent: GPTBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Amazonbot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: CCBot
Allow: /
Sitemap: https://yourdomain.com/sitemap.xml
Erro comum: bloquear crawlers IA como medida de "dados de treinamento". Isto te torna invisível à busca IA. Bloqueie paths específicos se precisa (ex.: conteúdo paywalled), não user-agents inteiros.
Arquivo 2: llms.txt - O Guia Longo
Arquivo markdown em /llms.txt que dá aos crawlers IA um guia estruturado do site. Criado por Jeremy Howard (Answer.AI) em 2024, agora lido por GPTBot, ClaudeBot, PerplexityBot, Google-Extended.
# Your Brand
Descrição em uma linha do que seu negócio faz e quem você serve.
## Produtos
- Product A: descrição curta e link para https://yourdomain.com/product-a
- Product B: descrição curta e link para https://yourdomain.com/product-b
## Preços
- Free: $0 - o que está incluído
- Pro: $29/mo - o que está incluído
- Enterprise: contact sales
## URLs-Chave
- Pricing: https://yourdomain.com/pricing
- Documentation: https://yourdomain.com/docs
- Blog: https://yourdomain.com/blog
- Contact: https://yourdomain.com/contact
## Empresa
- Fundada: 2020
- Geografia: Worldwide / EU / US-only
- Tamanho da equipe: 10-50
## Contato
- Email: hello@yourdomain.com
Leia o guia completo de llms.txt para a spec completa, checklist de validação e dados de adoção.
Arquivo 3: ai.txt - O Perfil de Identidade
Arquivo conciso key=value em /ai.txt. Mais rápido para motores parsearem que llms.txt, e complementar - motores leem ambos.
# ai.txt
name: Your Brand
legal_name: Your Brand Inc.
description: Descrição em uma linha.
url: https://yourdomain.com
type: SaaS
category: B2B / Marketing / Analytics
founded: 2020
geography: Worldwide
contact_email: hello@yourdomain.com
[products]
- Product A: https://yourdomain.com/product-a
- Product B: https://yourdomain.com/product-b
[pricing]
free: $0
pro: $29/mo
enterprise: contact
[social]
linkedin: https://linkedin.com/company/yourbrand
twitter: https://twitter.com/yourbrand
[crawlers]
allow: gptbot, claudebot, perplexitybot, google-extended, amazonbot
ai.txt é mais denso que llms.txt - mesmos dados, menos prosa. Motores que parseiam dados estruturados o preferem; motores que parseiam markdown preferem llms.txt. Publique ambos.
Arquivo 4: identity.json - A Identidade Canônica
Arquivo JSON-LD em /identity.json com Schema.org Organization (ou Person para marcas solo). O mais preciso dos quatro arquivos; o que motores entregam aos seus construtores de knowledge graph.
{
"@context": "https://schema.org",
"@type": "Organization",
"@id": "https://yourdomain.com/#organization",
"name": "Your Brand",
"legalName": "Your Brand Inc.",
"alternateNames": ["YourBrand", "YB"],
"description": "Descrição em uma linha.",
"url": "https://yourdomain.com",
"logo": "https://yourdomain.com/logo.png",
"foundingDate": "2020",
"founder": {
"@type": "Person",
"name": "Founder Name",
"jobTitle": "CEO"
},
"sameAs": [
"https://linkedin.com/company/yourbrand",
"https://twitter.com/yourbrand",
"https://crunchbase.com/organization/yourbrand",
"https://en.wikipedia.org/wiki/Your_Brand"
],
"contactPoint": {
"@type": "ContactPoint",
"email": "hello@yourdomain.com",
"contactType": "customer service"
},
"areaServed": "Worldwide"
}
A killer feature: sameAs[]. Listar seu LinkedIn, Crunchbase, Wikipedia e Twitter URLs permite que motores IA desambiguem sua entidade de competidores com nomes similares. Sites com sameAs[] completo são citados com o nome de marca correto 2.1x mais frequentemente.
Implementação de 60 Minutos
Passo 1 (10 min) - auditoria robots.txt. Abra yourdomain.com/robots.txt. Garanta que GPTBot, Google-Extended, ClaudeBot, PerplexityBot, Amazonbot NÃO estão em blocos Disallow: /.
Passo 2 (20 min) - llms.txt. Copie o template acima. Substitua placeholders. Valide que cada URL resolve. Ship em /llms.txt.
Passo 3 (15 min) - ai.txt. Copie o template. Substitua placeholders. Mesmos dados que llms.txt, formato mais denso. Ship em /ai.txt.
Passo 4 (15 min) - identity.json. Copie o template. Crítico: preencha sameAs[] com todas suas URLs sociais e de referência. Valide em validator.schema.org. Ship em /identity.json.
Total: 60 minutos para a superfície completa de quatro arquivos.
Como Motores Os Usam
| Motor | robots.txt | llms.txt | ai.txt | identity.json |
|---|---|---|---|---|
| GPTBot (OpenAI) | Sim | Sim | Sim | Sim |
| ClaudeBot (Anthropic) | Sim | Sim | Sim | Sim |
| Google-Extended | Sim | Sim | Parcial | Sim |
| PerplexityBot | Sim | Sim | Sim | Sim |
| Amazonbot | Sim | Sim | Parcial | Sim |
| Bytespider (TikTok) | Sim | Parcial | Não | Parcial |
Cobertura não é perfeita. Mas todo motor principal lê pelo menos três de quatro. Custo marginal do quarto arquivo é 15 minutos; ship.
Erros Comuns
- Bloquear crawlers IA no robots.txt. Te torna invisível à busca IA. Não faça.
- Colocar arquivos em subdiretórios. Devem estar na raiz.
/docs/llms.txté invisível. - Content-type errado. Sirva llms.txt como
text/plainoutext/markdown. Sirva ai.txt comotext/plain. Sirva identity.json comoapplication/ld+json. - Dados obsoletos. Quando preços ou produtos mudam, atualize os três arquivos de identidade. Motores perdem trust em superfícies de identidade obsoletas.
- Sem sameAs. Sem
sameAs[]em identity.json, motores não podem desambiguar sua marca de nomes similares.
Conclusão
A superfície de identidade IA é um investimento de 60 minutos com 1.6x de aumento em citação correta de entidade. Todo motor IA principal lê pelo menos três de quatro arquivos. Os padrões são estáveis, os templates são públicos, e o custo é trivial. Se você publicar apenas uma coisa nova em 2026, faça-a a superfície completa de quatro arquivos. Depois faça layer de Direct Answer Blocks, FAQPage schema e ancoragem estatística por cima.
Próximo: O Que É llms.txt · Guia Completo AEO 2026.
Perguntas frequentes
Eu preciso dos quatro arquivos?
Sim se você quer visibilidade IA completa. robots.txt controla acesso, llms.txt fornece um guia longo do site, ai.txt fornece um perfil de identidade conciso e identity.json fornece identidade Schema.org-canônica do negócio. Cada um serve uma superfície diferente e motores diferentes pesam diferente. O custo marginal de publicar os arquivos faltantes é uma hora.
Onde estes arquivos vivem?
Todos os quatro na raiz do seu domínio: yourdomain.com/robots.txt, yourdomain.com/llms.txt, yourdomain.com/ai.txt, yourdomain.com/identity.json. Mesmo nível que sitemap.xml. Não os coloque em subdiretórios nem por trás de auth.
Que formato cada arquivo usa?
robots.txt: texto puro, diretivas robots. llms.txt: markdown. ai.txt: texto puro, pares key=value. identity.json: JSON-LD com tipos Schema.org Organization ou Person. Todos UTF-8.
Publicar estes arquivos vai machucar SEO clássico?
Não. Buscadores não penalizam llms.txt, ai.txt ou identity.json. Google declarou explicitamente que lê llms.txt e ai.txt sem ponderar diretamente em rankings. Não há desvantagem.
Como gerar?
Escreva à mão em 1-2 horas usando templates públicos (llmstxt.org para llms.txt, a spec para ai.txt, schema.org para identity.json). Ou use um gerador - o analisador da inite.ai produz um bundle pronto para deploy a partir de qualquer URL em 30 segundos.
Continue lendo
O Que É llms.txt e Por Que Todo Site Precisa de Um em 2026
llms.txt é o padrão de fato para dizer aos motores de IA quem você é e como interpretar seu conteúdo. Guia completo com modelo, checklist de validação e dados de adoção.
Guia Completo de AEO 2026: Como Ser Citado pelo ChatGPT, Perplexity e Google AI Overview
Answer Engine Optimization é o novo SEO. Um manual prático de 2026 para ser citado pelo ChatGPT, Perplexity, Google AI Overview e Copilot - com etapas mensuráveis e benchmarks.
Direct Answer Blocks: O Truque de 40-60 Palavras Que Faz o ChatGPT e Perplexity Te Citarem
Um direct answer block é uma resposta autossuficiente de 40-60 palavras logo após o primeiro H2. Páginas que os usam são citadas 4.6x mais. Formato, exemplos e modelo pronto.