
Allowlist AI-краулеров 2026: кого пускать, кого блокировать, кого игнорировать
GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider - в 2026 году к вашему контенту обращаются 28 с лишним AI-краулеров. Рабочий allowlist для robots.txt и Cloudflare, который сохраняет цитируемость и не отдаёт данные паразитам.
В 2026 году все серьёзные AI-ассистенты ходят по открытому вебу. У каждого свой краулер, каждый честно представляется в user-agent, и каждый делает своё дело: обучение, индексирование, внутрисессионный просмотр или цитирование. Лепить из них один аморфный пул «AI scrapers» - что и делает кнопка «Block AI» в Cloudflare по умолчанию - значит обнулить доход от цитирований и приучить серьёзные скрейперы вообще не смотреть на robots.txt.
Это шпаргалка 2026 года: таблица с идентификатами 28 ботов, рамка из трёх политик (allow / training-only / block) и рабочая конфигурация robots.txt + Cloudflare, которая защищает данные, не прерывая поток AI-трафика.
Четыре задачи краулера
Прежде чем что-то разрешать или запрещать, разберитесь, какую именно работу делает бот. Один и тот же вендор часто держит 2-4 разных краулера под разные задачи.
| Задача | Что делает | Что значит блокировка |
|---|---|---|
| Обучение | Тащит страницы в обучающие наборы будущих моделей | Ни одна следующая LLM не «знает» ваш домен |
| Поисковый индекс | Строит индекс, из которого модель достаёт цитаты | Вас просто не цитируют в ответах |
| Внутрисессионный просмотр | Достаёт URL, который пользователь только что попросил | Модель не сможет описать вашу страницу в реальном времени |
| Embedding / RAG | Сливает контент в стороннее хранилище эмбеддингов | Меньше контроля над тем, как ваш материал переупаковывают |
Самая частая ошибка - заблокировать все четыре «чтобы защитить контент», заодно сломав поисковый индекс и внутрисессионный браузинг. А именно через них идёт около 80% трафика с цитированиями.
Таблица 28 ботов (май 2026)
| User-agent | Вендор | Задача | Политика 2026 |
|---|---|---|---|
GPTBot | OpenAI | Обучение + индекс | Только обучение (Allow, если хотите быть в обучении) |
OAI-SearchBot | OpenAI | Поисковый индекс | Allow |
ChatGPT-User | OpenAI | Внутрисессионный браузинг | Allow (всё равно не смотрит robots.txt) |
ClaudeBot | Anthropic | Обучение | Только обучение |
Claude-SearchBot | Anthropic | Поисковый индекс | Allow |
Claude-User | Anthropic | Внутрисессионный браузинг | Allow |
anthropic-ai | Anthropic (устар.) | Обучение | Block (выведен, но всё ещё бывает) |
Google-Extended | Обучение + AIO | Allow (AIO - уже 60% Google) | |
Googlebot | Классическая выдача | Allow (основа) | |
PerplexityBot | Perplexity | Поисковый индекс + цитаты | Allow (фундамент цитирований) |
Perplexity-User | Perplexity | Внутрисессионный браузинг | Allow |
Applebot-Extended | Apple | Обучение Apple Intelligence | Allow |
Bingbot | Microsoft | Search + Copilot index | Allow |
bingbot-Extended | Microsoft | Обучение Copilot | Только обучение |
Bytespider | ByteDance | Обучение | Block (нет цитирования, тяжёлая нагрузка) |
Meta-ExternalAgent | Meta | Обучение | Block |
FacebookBot | Meta | Embed для AI | Block |
Amazonbot | Amazon | Обучение Alexa AI | Block |
cohere-ai | Cohere | Обучение | Block (нет потребительской поверхности) |
Diffbot | Diffbot | Коммерческий скрейпинг | Block, если не платят |
Omgilibot | Webz.io | Коммерческий скрейпинг | Block |
MistralAI-User | Mistral | Внутрисессионный браузинг | Allow |
Kagibot | Kagi | Премиум-индекс | Allow (маленький, но качественный) |
Webzio-Extended | Webz.io | Коммерческий скрейпинг | Block |
Brave-SearchBot | Brave | Поисковый индекс | Allow |
xAI-Bot / Grok-Bot | xAI | Обучение + индекс Grok | Allow |
YouBot | You.com | Поисковый индекс | Allow |
Iceberg | Внутренний LLM-инструмент | Разное | По умолчанию Block для неопознанных |
Рабочий robots.txt
Для B2B-сайта, который хочет максимальную видимость в цитированиях и нулевой вклад в обучение:
# Цитирующие - всё разрешено
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Applebot-Extended
Allow: /
User-agent: MistralAI-User
Allow: /
User-agent: Kagibot
Allow: /
User-agent: Brave-SearchBot
Allow: /
User-agent: xAI-Bot
Allow: /
User-agent: YouBot
Allow: /
# Только обучение - блокируем
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: bingbot-Extended
Disallow: /
# Враждебные / без цитирующей отдачи
User-agent: anthropic-ai
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
User-agent: FacebookBot
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: Diffbot
Disallow: /
User-agent: Omgilibot
Disallow: /
User-agent: Webzio-Extended
Disallow: /
# Все остальные
User-agent: *
Allow: /
Sitemap: https://yourdomain.com/sitemap.xml
Перекройте GPTBot / ClaudeBot на Allow, если хотите попасть в обучение моделей следующего поколения (большинству B2B-брендов это полезно: модель усваивает вашу терминологию). Оставляйте Disallow, только если опубликовали закрытое исследование, которое не хотите отдавать.
Включение в Cloudflare
robots.txt уважают только послушные боты. Bytespider, scrape-as-a-service-вендоры и скрейперы через жилые прокси на него плюют. Слой принуждения в 2026 году - это панель AI Bots в Cloudflare (Security → Bots → AI Bots, есть и на бесплатном тарифе с 2025 года):
- Выключите одной кнопкой «Block AI Scrapers» - это тупая кувалда, которая стоит 70% цитирующего трафика.
- Включите правила по каждому боту с такими настройками:
- PerplexityBot, OAI-SearchBot, Claude-SearchBot, Google-Extended, Applebot-Extended: Allow.
- GPTBot, ClaudeBot: Allow или Managed Challenge в зависимости от вашей политики обучения.
- Bytespider, Amazonbot, Meta-ExternalAgent, FacebookBot: Block.
- Добавьте кастомное правило WAF с условием
(cf.client.bot eq false) and (http.user_agent contains "ai" or http.user_agent contains "bot")и действием Managed Challenge. Это ловит подражателей с «AI-ообразным» user-agent, которые не попали в верифицированный список. - Развёрните honeypot-URL на
/disallow-honeypot/, прописанный только вllms.txt, ограничение - 1 запрос с IP, действие - Block 24h. Ловит тех, кто игнорирует robots.txt: ни один легитимный AI-краулер на такой путь по определению не зайдёт.
Проверка
После раскатки политики раз в неделю смотрите:
tail -f /var/log/nginx/access.log | grep -E "PerplexityBot|OAI-SearchBot|Claude-SearchBot"- подтверждает, что цитирующие боты по-прежнему ходят.- Cloudflare Analytics → Security → Bot traffic - график Allowed/Challenged/Blocked во времени. После раскатки ждите снижения блокированного AI-трафика на 30-50% - это и есть уход ненужных обучающих скрейперов.
- Долю цитирования в Perplexity на ваших целевых запросах - через 2-4 недели после разблокировки PerplexityBot она должна расти, если до этого её не было.
- Google Search Console → AI Overview impressions (раскатывается в течение 2026 года) - не должно проваливаться.
Если после раскатки PerplexityBot перестал ходить - порядок правил в Cloudflare неправильный, более широкий Block срабатывает первым. Перенесите per-bot Allow выше.
Почему дефолтный блок - это ошибка
Три из четырёх типов AI-краулеров делают то, что вам выгодно: индексируют контент, чтобы цитировать; смотрят живую страницу, когда пользователь спросил; обучают будущие модели знанию о вашем бренде. Только один тип - чистые скрейперы вроде Bytespider - не приносит ничего полезного.
Дефолт 2024 года («заблокировать всё AI») был оправдан, когда механизма цитирования ещё не существовало, а краулеры просто уносили контент. В 2026-м механизмы есть: цитаты PerplexityBot уже дают измеримый реферральный трафик, Google AI Overview ссылается по атрибуции, ChatGPT-User вытягивает живые данные в ответы. Асимметрия развернулась: теперь именно блокировка - дорогое решение.
12 строк robots.txt и 4 правила Cloudflare - это разница между тем, чтобы быть процитированным в ответах, которые ваши клиенты задают AI-инструментам, и тем, чтобы оставаться невидимым. Работа - на час; отдача копится годами.
01Если заблокировать GPTBot, ChatGPT перестанет ссылаться на сайт?+
Частично. GPTBot - это краулер OpenAI для обучения и индексации; блокировка означает, что ваш контент не попадёт в обучающие наборы будущих моделей и в поисковый индекс OpenAI. Но ChatGPT-User (внутрисессионный браузинг) и OAI-SearchBot (поисковый индекс, из которого берут цитаты) - это другие user-agent'ы. Блокируйте GPTBot, если хотите выйти из обучения, но оставьте OAI-SearchBot и ChatGPT-User разрешёнными, чтобы остаться кандидатом на цитирование.
02Стоит ли блокировать категорию «AI Scrapers» в Cloudflare по умолчанию?+
Нет. Эта категория одним нажатием режет PerplexityBot, OAI-SearchBot и ClaudeBot - именно те, через кого приходит большая часть AI-цитирований. Используйте детальные тумблеры: пускайте цитирующих, блокируйте только тех, кто обучается без отдачи.
03Чем Google-Extended отличается от Googlebot?+
Googlebot индексирует классическую выдачу Google Search. Google-Extended - отдельный сигнал, который управляет тем, имеет ли Google право обучать на вашем контенте Bard/Gemini и использовать его для Google AI Overview. Disallow на Google-Extended ставят только если готовы быть невидимыми в AI Overview - а к апрелю 2026-го этот блок выдаётся уже на 60% запросов.
04Как блокировать ботов, которые не соблюдают robots.txt?+
Три слоя защиты: (1) WAF / Bot Fight Mode в Cloudflare с регулярками по user-agent; (2) правила на edge (nginx, Caddy); (3) honeypot-URL'ы в llms.txt, на которые легитимный бот не пойдёт - любой IP, который туда зашёл, банится на 24 часа. Bytespider и неопознанные скрейперы через жилые прокси отлавливаются только всеми тремя слоями сразу; одного user-agent недостаточно.
05Нужны разные правила для ClaudeBot и Claude-SearchBot?+
Да. ClaudeBot - обучающий краулер Anthropic (аналог GPTBot). Claude-SearchBot отвечает за веб-доступ в чате и за цитаты. anthropic-ai - устаревший user-agent, выведенный в 2025 году. На него на всякий случай оставляйте Disallow, а двум новым давайте Allow, если хотите, чтобы Claude Sonnet / Opus вас цитировал.

AEO в 2026: Полное руководство - как попасть в ответы ChatGPT, Perplexity и Google AI Overview

llms.txt мёртв в 2026? Что на самом деле нашло исследование SE Ranking на 300К доменов - и что реально двигает цитируемость
