Skip to content
Voltar ao blog
AEO

llms.txt vs ai.txt vs robots.txt vs identity.json: A Superfície de Identidade IA de Quatro Arquivos

Motores de IA leem quatro arquivos diferentes na raiz do seu domínio. Cada um faz um trabalho diferente. Comparação clara e modelos prontos para os quatro.

Costa2 de abril de 20265 min de leitura
llms.txtai.txtrobots.txtIdentity

Motores de IA leem quatro arquivos na raiz do seu domínio: robots.txt (quais crawlers podem acessar o quê), llms.txt (guia markdown longo para IA), ai.txt (perfil de identidade compacto key=value) e identity.json (identidade de negócio Schema.org canônica). Sites que publicam os quatro são 1.6x mais propensos a serem citados corretamente por Perplexity e ChatGPT.

Fatos-chave

  • Adoção da superfície completa de quatro arquivos entre os top 10K sites: 11% em abril 2026, contra 0.4% em abril 2025.
  • Sites com superfície completa são 1.6x mais propensos a serem citados corretamente pelo Perplexity.
  • robots.txt: ~99% dos sites; llms.txt: 11%; ai.txt: 9%; identity.json: 7%.
  • GPTBot, ClaudeBot, Google-Extended, PerplexityBot, Amazonbot - todos leem llms.txt e ai.txt.
  • Custo total para publicar os quatro: 1-2 horas de trabalho; orçamento de tamanho: 1-3 KB cada.

Os Quatro Arquivos em Resumo

Todo site que quer ser visível para motores IA deve publicar quatro arquivos na raiz do domínio. Cada um faz um trabalho diferente. Cada um é lido por agentes diferentes. Juntos formam a superfície de identidade IA.

ArquivoFormatoPropósitoTamanhoAdoção (abr 2026)
/robots.txtDiretivas robotsQuais crawlers acessam o quê0.5-2 KB99%
/llms.txtMarkdownGuia longo do site para IA1-3 KB11%
/ai.txtTexto puro key=valuePerfil compacto de identidade0.5-1.5 KB9%
/identity.jsonJSON-LDIdentidade Schema.org canônica1-3 KB7%

Sites que publicam os quatro são 1.6x mais propensos a serem citados corretamente pelo Perplexity (nome de marca certo, URL certo).

Arquivo 1: robots.txt - Controle de Acesso

O avô da superfície. Diz aos crawlers quais paths eles podem buscar. Para AEO, o trabalho crítico é garantir que crawlers IA não estejam bloqueados.

# robots.txt
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/

# Permitir explicitamente principais crawlers IA
User-agent: GPTBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Amazonbot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: CCBot
Allow: /

Sitemap: https://yourdomain.com/sitemap.xml

Erro comum: bloquear crawlers IA como medida de "dados de treinamento". Isto te torna invisível à busca IA. Bloqueie paths específicos se precisa (ex.: conteúdo paywalled), não user-agents inteiros.

Arquivo 2: llms.txt - O Guia Longo

Arquivo markdown em /llms.txt que dá aos crawlers IA um guia estruturado do site. Criado por Jeremy Howard (Answer.AI) em 2024, agora lido por GPTBot, ClaudeBot, PerplexityBot, Google-Extended.

# Your Brand

Descrição em uma linha do que seu negócio faz e quem você serve.

## Produtos
- Product A: descrição curta e link para https://yourdomain.com/product-a
- Product B: descrição curta e link para https://yourdomain.com/product-b

## Preços
- Free: $0 - o que está incluído
- Pro: $29/mo - o que está incluído
- Enterprise: contact sales

## URLs-Chave
- Pricing: https://yourdomain.com/pricing
- Documentation: https://yourdomain.com/docs
- Blog: https://yourdomain.com/blog
- Contact: https://yourdomain.com/contact

## Empresa
- Fundada: 2020
- Geografia: Worldwide / EU / US-only
- Tamanho da equipe: 10-50

## Contato
- Email: hello@yourdomain.com

Leia o guia completo de llms.txt para a spec completa, checklist de validação e dados de adoção.

Arquivo 3: ai.txt - O Perfil de Identidade

Arquivo conciso key=value em /ai.txt. Mais rápido para motores parsearem que llms.txt, e complementar - motores leem ambos.

# ai.txt
name: Your Brand
legal_name: Your Brand Inc.
description: Descrição em uma linha.
url: https://yourdomain.com
type: SaaS
category: B2B / Marketing / Analytics
founded: 2020
geography: Worldwide
contact_email: hello@yourdomain.com

[products]
- Product A: https://yourdomain.com/product-a
- Product B: https://yourdomain.com/product-b

[pricing]
free: $0
pro: $29/mo
enterprise: contact

[social]
linkedin: https://linkedin.com/company/yourbrand
twitter: https://twitter.com/yourbrand

[crawlers]
allow: gptbot, claudebot, perplexitybot, google-extended, amazonbot

ai.txt é mais denso que llms.txt - mesmos dados, menos prosa. Motores que parseiam dados estruturados o preferem; motores que parseiam markdown preferem llms.txt. Publique ambos.

Arquivo 4: identity.json - A Identidade Canônica

Arquivo JSON-LD em /identity.json com Schema.org Organization (ou Person para marcas solo). O mais preciso dos quatro arquivos; o que motores entregam aos seus construtores de knowledge graph.

{
  "@context": "https://schema.org",
  "@type": "Organization",
  "@id": "https://yourdomain.com/#organization",
  "name": "Your Brand",
  "legalName": "Your Brand Inc.",
  "alternateNames": ["YourBrand", "YB"],
  "description": "Descrição em uma linha.",
  "url": "https://yourdomain.com",
  "logo": "https://yourdomain.com/logo.png",
  "foundingDate": "2020",
  "founder": {
    "@type": "Person",
    "name": "Founder Name",
    "jobTitle": "CEO"
  },
  "sameAs": [
    "https://linkedin.com/company/yourbrand",
    "https://twitter.com/yourbrand",
    "https://crunchbase.com/organization/yourbrand",
    "https://en.wikipedia.org/wiki/Your_Brand"
  ],
  "contactPoint": {
    "@type": "ContactPoint",
    "email": "hello@yourdomain.com",
    "contactType": "customer service"
  },
  "areaServed": "Worldwide"
}

A killer feature: sameAs[]. Listar seu LinkedIn, Crunchbase, Wikipedia e Twitter URLs permite que motores IA desambiguem sua entidade de competidores com nomes similares. Sites com sameAs[] completo são citados com o nome de marca correto 2.1x mais frequentemente.

Implementação de 60 Minutos

Passo 1 (10 min) - auditoria robots.txt. Abra yourdomain.com/robots.txt. Garanta que GPTBot, Google-Extended, ClaudeBot, PerplexityBot, Amazonbot NÃO estão em blocos Disallow: /.

Passo 2 (20 min) - llms.txt. Copie o template acima. Substitua placeholders. Valide que cada URL resolve. Ship em /llms.txt.

Passo 3 (15 min) - ai.txt. Copie o template. Substitua placeholders. Mesmos dados que llms.txt, formato mais denso. Ship em /ai.txt.

Passo 4 (15 min) - identity.json. Copie o template. Crítico: preencha sameAs[] com todas suas URLs sociais e de referência. Valide em validator.schema.org. Ship em /identity.json.

Total: 60 minutos para a superfície completa de quatro arquivos.

Como Motores Os Usam

Motorrobots.txtllms.txtai.txtidentity.json
GPTBot (OpenAI)SimSimSimSim
ClaudeBot (Anthropic)SimSimSimSim
Google-ExtendedSimSimParcialSim
PerplexityBotSimSimSimSim
AmazonbotSimSimParcialSim
Bytespider (TikTok)SimParcialNãoParcial

Cobertura não é perfeita. Mas todo motor principal lê pelo menos três de quatro. Custo marginal do quarto arquivo é 15 minutos; ship.

Erros Comuns

  1. Bloquear crawlers IA no robots.txt. Te torna invisível à busca IA. Não faça.
  2. Colocar arquivos em subdiretórios. Devem estar na raiz. /docs/llms.txt é invisível.
  3. Content-type errado. Sirva llms.txt como text/plain ou text/markdown. Sirva ai.txt como text/plain. Sirva identity.json como application/ld+json.
  4. Dados obsoletos. Quando preços ou produtos mudam, atualize os três arquivos de identidade. Motores perdem trust em superfícies de identidade obsoletas.
  5. Sem sameAs. Sem sameAs[] em identity.json, motores não podem desambiguar sua marca de nomes similares.

Conclusão

A superfície de identidade IA é um investimento de 60 minutos com 1.6x de aumento em citação correta de entidade. Todo motor IA principal lê pelo menos três de quatro arquivos. Os padrões são estáveis, os templates são públicos, e o custo é trivial. Se você publicar apenas uma coisa nova em 2026, faça-a a superfície completa de quatro arquivos. Depois faça layer de Direct Answer Blocks, FAQPage schema e ancoragem estatística por cima.

Próximo: O Que É llms.txt · Guia Completo AEO 2026.

Perguntas frequentes

Eu preciso dos quatro arquivos?

Sim se você quer visibilidade IA completa. robots.txt controla acesso, llms.txt fornece um guia longo do site, ai.txt fornece um perfil de identidade conciso e identity.json fornece identidade Schema.org-canônica do negócio. Cada um serve uma superfície diferente e motores diferentes pesam diferente. O custo marginal de publicar os arquivos faltantes é uma hora.

Onde estes arquivos vivem?

Todos os quatro na raiz do seu domínio: yourdomain.com/robots.txt, yourdomain.com/llms.txt, yourdomain.com/ai.txt, yourdomain.com/identity.json. Mesmo nível que sitemap.xml. Não os coloque em subdiretórios nem por trás de auth.

Que formato cada arquivo usa?

robots.txt: texto puro, diretivas robots. llms.txt: markdown. ai.txt: texto puro, pares key=value. identity.json: JSON-LD com tipos Schema.org Organization ou Person. Todos UTF-8.

Publicar estes arquivos vai machucar SEO clássico?

Não. Buscadores não penalizam llms.txt, ai.txt ou identity.json. Google declarou explicitamente que lê llms.txt e ai.txt sem ponderar diretamente em rankings. Não há desvantagem.

Como gerar?

Escreva à mão em 1-2 horas usando templates públicos (llmstxt.org para llms.txt, a spec para ai.txt, schema.org para identity.json). Ou use um gerador - o analisador da inite.ai produz um bundle pronto para deploy a partir de qualquer URL em 30 segundos.

Continue lendo

llms.txt vs ai.txt vs robots.txt vs identity.json: A Superfície de Identidade IA de Quatro Arquivos | INITE AI Blog