Skip to content
AEO

Allowlist AI-краулеров 2026: кого пускать, кого блокировать, кого игнорировать

GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider - в 2026 году к вашему контенту обращаются 28 с лишним AI-краулеров. Рабочий allowlist для robots.txt и Cloudflare, который сохраняет цитируемость и не отдаёт данные паразитам.


Mikhail Savchenko·10 мая 2026 г.·6 мин чтения
AEOAI VisibilityCrawlersRobots.txtCloudflare

В 2026 году все серьёзные AI-ассистенты ходят по открытому вебу. У каждого свой краулер, каждый честно представляется в user-agent, и каждый делает своё дело: обучение, индексирование, внутрисессионный просмотр или цитирование. Лепить из них один аморфный пул «AI scrapers» - что и делает кнопка «Block AI» в Cloudflare по умолчанию - значит обнулить доход от цитирований и приучить серьёзные скрейперы вообще не смотреть на robots.txt.

Это шпаргалка 2026 года: таблица с идентификатами 28 ботов, рамка из трёх политик (allow / training-only / block) и рабочая конфигурация robots.txt + Cloudflare, которая защищает данные, не прерывая поток AI-трафика.

Четыре задачи краулера

Прежде чем что-то разрешать или запрещать, разберитесь, какую именно работу делает бот. Один и тот же вендор часто держит 2-4 разных краулера под разные задачи.

ЗадачаЧто делаетЧто значит блокировка
ОбучениеТащит страницы в обучающие наборы будущих моделейНи одна следующая LLM не «знает» ваш домен
Поисковый индексСтроит индекс, из которого модель достаёт цитатыВас просто не цитируют в ответах
Внутрисессионный просмотрДостаёт URL, который пользователь только что попросилМодель не сможет описать вашу страницу в реальном времени
Embedding / RAGСливает контент в стороннее хранилище эмбеддинговМеньше контроля над тем, как ваш материал переупаковывают

Самая частая ошибка - заблокировать все четыре «чтобы защитить контент», заодно сломав поисковый индекс и внутрисессионный браузинг. А именно через них идёт около 80% трафика с цитированиями.

Таблица 28 ботов (май 2026)

User-agentВендорЗадачаПолитика 2026
GPTBotOpenAIОбучение + индексТолько обучение (Allow, если хотите быть в обучении)
OAI-SearchBotOpenAIПоисковый индексAllow
ChatGPT-UserOpenAIВнутрисессионный браузингAllow (всё равно не смотрит robots.txt)
ClaudeBotAnthropicОбучениеТолько обучение
Claude-SearchBotAnthropicПоисковый индексAllow
Claude-UserAnthropicВнутрисессионный браузингAllow
anthropic-aiAnthropic (устар.)ОбучениеBlock (выведен, но всё ещё бывает)
Google-ExtendedGoogleОбучение + AIOAllow (AIO - уже 60% Google)
GooglebotGoogleКлассическая выдачаAllow (основа)
PerplexityBotPerplexityПоисковый индекс + цитатыAllow (фундамент цитирований)
Perplexity-UserPerplexityВнутрисессионный браузингAllow
Applebot-ExtendedAppleОбучение Apple IntelligenceAllow
BingbotMicrosoftSearch + Copilot indexAllow
bingbot-ExtendedMicrosoftОбучение CopilotТолько обучение
BytespiderByteDanceОбучениеBlock (нет цитирования, тяжёлая нагрузка)
Meta-ExternalAgentMetaОбучениеBlock
FacebookBotMetaEmbed для AIBlock
AmazonbotAmazonОбучение Alexa AIBlock
cohere-aiCohereОбучениеBlock (нет потребительской поверхности)
DiffbotDiffbotКоммерческий скрейпингBlock, если не платят
OmgilibotWebz.ioКоммерческий скрейпингBlock
MistralAI-UserMistralВнутрисессионный браузингAllow
KagibotKagiПремиум-индексAllow (маленький, но качественный)
Webzio-ExtendedWebz.ioКоммерческий скрейпингBlock
Brave-SearchBotBraveПоисковый индексAllow
xAI-Bot / Grok-BotxAIОбучение + индекс GrokAllow
YouBotYou.comПоисковый индексAllow
IcebergВнутренний LLM-инструментРазноеПо умолчанию Block для неопознанных

Рабочий robots.txt

Для B2B-сайта, который хочет максимальную видимость в цитированиях и нулевой вклад в обучение:

# Цитирующие - всё разрешено
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: Claude-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: MistralAI-User
Allow: /

User-agent: Kagibot
Allow: /

User-agent: Brave-SearchBot
Allow: /

User-agent: xAI-Bot
Allow: /

User-agent: YouBot
Allow: /

# Только обучение - блокируем
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: bingbot-Extended
Disallow: /

# Враждебные / без цитирующей отдачи
User-agent: anthropic-ai
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: Omgilibot
Disallow: /

User-agent: Webzio-Extended
Disallow: /

# Все остальные
User-agent: *
Allow: /

Sitemap: https://yourdomain.com/sitemap.xml

Перекройте GPTBot / ClaudeBot на Allow, если хотите попасть в обучение моделей следующего поколения (большинству B2B-брендов это полезно: модель усваивает вашу терминологию). Оставляйте Disallow, только если опубликовали закрытое исследование, которое не хотите отдавать.

Включение в Cloudflare

robots.txt уважают только послушные боты. Bytespider, scrape-as-a-service-вендоры и скрейперы через жилые прокси на него плюют. Слой принуждения в 2026 году - это панель AI Bots в Cloudflare (Security → Bots → AI Bots, есть и на бесплатном тарифе с 2025 года):

  1. Выключите одной кнопкой «Block AI Scrapers» - это тупая кувалда, которая стоит 70% цитирующего трафика.
  2. Включите правила по каждому боту с такими настройками:
    • PerplexityBot, OAI-SearchBot, Claude-SearchBot, Google-Extended, Applebot-Extended: Allow.
    • GPTBot, ClaudeBot: Allow или Managed Challenge в зависимости от вашей политики обучения.
    • Bytespider, Amazonbot, Meta-ExternalAgent, FacebookBot: Block.
  3. Добавьте кастомное правило WAF с условием (cf.client.bot eq false) and (http.user_agent contains "ai" or http.user_agent contains "bot") и действием Managed Challenge. Это ловит подражателей с «AI-ообразным» user-agent, которые не попали в верифицированный список.
  4. Развёрните honeypot-URL на /disallow-honeypot/, прописанный только в llms.txt, ограничение - 1 запрос с IP, действие - Block 24h. Ловит тех, кто игнорирует robots.txt: ни один легитимный AI-краулер на такой путь по определению не зайдёт.

Проверка

После раскатки политики раз в неделю смотрите:

  • tail -f /var/log/nginx/access.log | grep -E "PerplexityBot|OAI-SearchBot|Claude-SearchBot" - подтверждает, что цитирующие боты по-прежнему ходят.
  • Cloudflare Analytics → Security → Bot traffic - график Allowed/Challenged/Blocked во времени. После раскатки ждите снижения блокированного AI-трафика на 30-50% - это и есть уход ненужных обучающих скрейперов.
  • Долю цитирования в Perplexity на ваших целевых запросах - через 2-4 недели после разблокировки PerplexityBot она должна расти, если до этого её не было.
  • Google Search Console → AI Overview impressions (раскатывается в течение 2026 года) - не должно проваливаться.

Если после раскатки PerplexityBot перестал ходить - порядок правил в Cloudflare неправильный, более широкий Block срабатывает первым. Перенесите per-bot Allow выше.

Почему дефолтный блок - это ошибка

Три из четырёх типов AI-краулеров делают то, что вам выгодно: индексируют контент, чтобы цитировать; смотрят живую страницу, когда пользователь спросил; обучают будущие модели знанию о вашем бренде. Только один тип - чистые скрейперы вроде Bytespider - не приносит ничего полезного.

Дефолт 2024 года («заблокировать всё AI») был оправдан, когда механизма цитирования ещё не существовало, а краулеры просто уносили контент. В 2026-м механизмы есть: цитаты PerplexityBot уже дают измеримый реферральный трафик, Google AI Overview ссылается по атрибуции, ChatGPT-User вытягивает живые данные в ответы. Асимметрия развернулась: теперь именно блокировка - дорогое решение.

12 строк robots.txt и 4 правила Cloudflare - это разница между тем, чтобы быть процитированным в ответах, которые ваши клиенты задают AI-инструментам, и тем, чтобы оставаться невидимым. Работа - на час; отдача копится годами.

Часто задаваемые вопросы
  • 01Если заблокировать GPTBot, ChatGPT перестанет ссылаться на сайт?+

    Частично. GPTBot - это краулер OpenAI для обучения и индексации; блокировка означает, что ваш контент не попадёт в обучающие наборы будущих моделей и в поисковый индекс OpenAI. Но ChatGPT-User (внутрисессионный браузинг) и OAI-SearchBot (поисковый индекс, из которого берут цитаты) - это другие user-agent'ы. Блокируйте GPTBot, если хотите выйти из обучения, но оставьте OAI-SearchBot и ChatGPT-User разрешёнными, чтобы остаться кандидатом на цитирование.

  • 02Стоит ли блокировать категорию «AI Scrapers» в Cloudflare по умолчанию?+

    Нет. Эта категория одним нажатием режет PerplexityBot, OAI-SearchBot и ClaudeBot - именно те, через кого приходит большая часть AI-цитирований. Используйте детальные тумблеры: пускайте цитирующих, блокируйте только тех, кто обучается без отдачи.

  • 03Чем Google-Extended отличается от Googlebot?+

    Googlebot индексирует классическую выдачу Google Search. Google-Extended - отдельный сигнал, который управляет тем, имеет ли Google право обучать на вашем контенте Bard/Gemini и использовать его для Google AI Overview. Disallow на Google-Extended ставят только если готовы быть невидимыми в AI Overview - а к апрелю 2026-го этот блок выдаётся уже на 60% запросов.

  • 04Как блокировать ботов, которые не соблюдают robots.txt?+

    Три слоя защиты: (1) WAF / Bot Fight Mode в Cloudflare с регулярками по user-agent; (2) правила на edge (nginx, Caddy); (3) honeypot-URL'ы в llms.txt, на которые легитимный бот не пойдёт - любой IP, который туда зашёл, банится на 24 часа. Bytespider и неопознанные скрейперы через жилые прокси отлавливаются только всеми тремя слоями сразу; одного user-agent недостаточно.

  • 05Нужны разные правила для ClaudeBot и Claude-SearchBot?+

    Да. ClaudeBot - обучающий краулер Anthropic (аналог GPTBot). Claude-SearchBot отвечает за веб-доступ в чате и за цитаты. anthropic-ai - устаревший user-agent, выведенный в 2025 году. На него на всякий случай оставляйте Disallow, а двум новым давайте Allow, если хотите, чтобы Claude Sonnet / Opus вас цитировал.

Читать дальше