Настоящая история ИИ, часть 5: от трансформера до ChatGPT (2017–2022) и кейс с GPT-2
ChatGPT - это не появление ИИ. Это появление UX поверх технологии, которая росла пять лет: BERT, GPT-1, GPT-2, GPT-3, InstructGPT. Я знаю, потому что в 2019 году собрал коммерческого копирайтера новостей на GPT-2 - за три с половиной года до того, как мир 'узнал об ИИ'.
С 2017 по 2022 год ИИ прошёл путь от статьи 'Attention Is All You Need' до ChatGPT - но не за счёт новой технологии, а за счёт пятилетки скейлинга и UX. Между Transformer и ChatGPT уместились BERT (2018), GPT-1 (2018), GPT-2 (2019), GPT-3 (2020), InstructGPT (2022) и наконец ChatGPT (ноябрь 2022). Каждый шаг увеличивал модель на 1-2 порядка и добавлял один новый трюк. Сама архитектура из 2017 года почти не менялась.
Ключевые факты
- 2018: BERT (Google) - 340M параметров; GPT-1 (OpenAI) - 117M параметров. Первое поколение трансформеров на естественном языке.
- 2019: GPT-2 (OpenAI) - 1.5B параметров. OpenAI отказалась публиковать веса 'из-за рисков злоупотребления' - первый громкий случай AI safety-нарратива.
- 2020: GPT-3 (OpenAI) - 175B параметров. Скейлинг x100 от GPT-2 за полтора года.
- Январь 2022: InstructGPT - GPT-3, дообученная через RLHF на следование инструкциям. Это и есть прямой предок ChatGPT - не сам GPT-3.
- 30 ноября 2022: ChatGPT запущен. За 5 дней - 1 миллион пользователей, за 2 месяца - 100 миллионов. Самый быстрый рост потребительского продукта в истории.
Финальная пятилетка
В прошлой части мы остановились на декабре 2017 года - выходе статьи "Attention Is All You Need". В этой - последняя пятилетка истории ИИ до ChatGPT: 2018-2022, пять лет, которые превратили академическую архитектуру в продукт, к которому за два месяца подключилось 100 миллионов пользователей.
Главный тезис этой части: ChatGPT не был технологическим прорывом. Продуктовый прорыв поверх технологии, которая уже четыре года крутилась в коммерческих стартапах. Я знаю это не из теории - я сам делал на этой технологии деньги в 2019 году, об этом ниже.
2018: BERT и GPT-1 - две ветви одной семьи
В октябре 2018 года Google опубликовал BERT (Bidirectional Encoder Representations from Transformers) - 340M-параметровую модель, обученную восстанавливать пропущенные слова в тексте. BERT был энкодером: смотрел на всё предложение сразу и хорошо понимал контекст. К 2019 году BERT уже работал в поисковой выдаче Google, обрабатывая около 10% всех запросов.
В июне 2018 года OpenAI выпустил GPT-1 (Generative Pre-trained Transformer) - 117M-параметровую модель, обученную предсказывать следующее слово в тексте. GPT был декодером: генерировал текст слово за словом. На момент выхода GPT-1 был интересной академической работой, не более.
Две ветви - энкодер и декодер - развивались параллельно. До 2022 года индустриальный мейнстрим был на стороне BERT (поиск, корпоративный NLP, классификация). После ChatGPT всё перевернулось: декодер-only модели стали стандартом для всего.
2019: GPT-2 и нарратив «слишком опасно»
В феврале 2019 года OpenAI анонсировала GPT-2 - 1.5B-параметровую модель, в 13 раз больше GPT-1. И тут же сделала громкое заявление: полные веса не публикуются из соображений безопасности. Модель якобы способна генерировать настолько правдоподобные новости, что это может использоваться для дезинформации.
Сообщество разделилось. Одни сочли это разумной осторожностью, другие - маркетинговым ходом, направленным на привлечение внимания к продукту. OpenAI поэтапно выпускала всё большие версии: 124M в феврале, 355M в мае, 774M в августе, и наконец полную 1.5B в ноябре 2019 года.
К моменту полного релиза GPT-2 был доступен любому, у кого был ноутбук с приличной видеокартой. И именно в этот момент я попробовал его в коммерческом проекте.
Личный анекдот: коммерческий копирайтер новостей на GPT-2 (2019)
В 2019 году я работал над проектом для одного новостного агрегатора. Задача была простая на первый взгляд: брать сырые ленты от информагентств (биржевые новости, спортивные результаты, погода, корпоративные пресс-релизы) и переписывать их в читабельные короткие заметки в стилистике конкретного издания.
Раньше эту работу делали штатные редакторы-рерайтеры: на каждую заметку уходило 5-10 минут. У издания было около 200 рерайтов в день, что съедало работу примерно трёх человек на полную ставку.
Я взял GPT-2 large (774M параметров), дообучил его на пяти тысячах «входов» (исходных лент) и «выходов» (рерайтов, которые делали редакторы). Дообучение заняло несколько часов на одной NVIDIA RTX 2080 Ti. Результат:
- Время на одну заметку: 30 секунд (вместо 5-10 минут).
- Качество: на 70% заметок редактор просто принимал результат, на 25% - правил один-два предложения, на 5% - переписывал заново.
- Стоимость инфраструктуры: $200/месяц за сервер с GPU.
- Окупаемость: за месяц.
Дело было в сентябре 2019 года. За три года и два месяца до того, как ChatGPT «научил мир, что бывают AI-копирайтеры». Никаких трансформеров я не изобретал, никаких архитектурных откровений у меня не было. Взял open-source модель, дообучил на конкретных данных, подключил к конвейеру. Самый обычный промышленный NLP 2019 года.
И таких как я в мире были тысячи. Jasper (тогда ещё Jarvis) запустился в начале 2021 года, копирайтинговая платформа Copy.ai - в 2020-м, Github Copilot вышел в августе 2021-го - всё это на GPT-3, через API. К моменту запуска ChatGPT в ноябре 2022 года в мире уже работали десятки коммерческих продуктов на GPT-моделях, обслуживающих миллионы пользователей.
Главный сдвиг ChatGPT был не в технологии. Он был в доступности. Раньше, чтобы получить пользу от GPT, нужно было быть программистом. После 30 ноября 2022 года - достаточно было открыть сайт.
2020: GPT-3 и закон масштабирования
В мае 2020 года OpenAI анонсировала GPT-3 - 175B-параметровую модель, в 117 раз больше GPT-2. Главный научный вывод статьи "Language Models are Few-Shot Learners" лежал в законе масштабирования, а не в архитектуре (она почти не изменилась): качество модели предсказуемо растёт с увеличением размера, данных и вычислений.
GPT-3 показал ещё одно неожиданное свойство - few-shot learning. Модель могла решать новые задачи, увидев всего несколько примеров в промпте, без переобучения. Философски это было новым: до GPT-3 каждая новая задача требовала собственного обучения.
В июне 2020 OpenAI открыл доступ к GPT-3 через API. Сначала по списку ожидания, с осени 2021 - всем подряд. К началу 2022 года через API проходили миллиарды запросов в месяц от тысяч стартапов.
Январь 2022: InstructGPT и магия RLHF
В январе 2022 года OpenAI опубликовала статью "Training language models to follow instructions with human feedback". В ней был описан InstructGPT - GPT-3, дообученная через RLHF (Reinforcement Learning from Human Feedback) на следование инструкциям.
Технически RLHF выглядел так:
- Обучить базовую модель предсказанию следующего слова (это уже было сделано с GPT-3).
- Собрать датасет: люди пишут инструкции и образцовые ответы. Дообучить модель на них.
- Сгенерировать на каждый промпт несколько вариантов ответа. Попросить людей ранжировать их от лучшего к худшему.
- Обучить reward-модель предсказывать рейтинги людей.
- Тонкая настройка основной модели через PPO так, чтобы максимизировать reward.
Результат: модель в 100 раз меньше GPT-3 (1.3B параметров) давала ответы, которые люди предпочитали ответам GPT-3 (175B). Не потому что стала умнее. Потому что научилась отвечать на то, что её спросили, вместо того чтобы продолжать текст в стиле обучающих данных.
InstructGPT - это и есть прямой предок ChatGPT. Не сам GPT-3.
30 ноября 2022: ChatGPT и продуктовый взрыв
30 ноября 2022 года OpenAI запустила ChatGPT. Технически это была GPT-3.5 (вариант InstructGPT) с чат-интерфейсом. Никаких новых архитектурных идей. Чат-формат вместо API. Бесплатный доступ.
Эффект был беспрецедентным:
- 5 дней до 1 миллиона пользователей (Instagram было нужно 2.5 месяца).
- 2 месяца до 100 миллионов пользователей (TikTok было нужно 9 месяцев).
И именно с этого момента в общественном сознании «родился ИИ». 90% массовой аудитории впервые столкнулись с большой языковой моделью именно через ChatGPT - и решили, что технология новая.
В реальности к тому моменту:
- Архитектура (трансформер) была опубликована 5 лет назад (2017).
- Базовая модель (GPT-3) была доступна через API 2.5 года (с 2020).
- Подобные модели использовались в коммерческих продуктах с 2019 года (мой кейс с GPT-2).
- BERT обрабатывал поисковые запросы Google с 2019 года.
- LSTM-модели генерировали тексты с 2015 года.
- word2vec работал в промышленном NLP с 2013 года.
ChatGPT - это не появление ИИ. Это появление UX поверх ИИ, благодаря которому технологии стало пользоваться так же легко, как Google Search.
Что забрать из этой эпохи (и из всей серии)
Главные тезисы части 5:
- ChatGPT - продуктовый, а не технический прорыв. Технология была готова к 2020 году. Не хватало только удобного интерфейса. Когда он появился - случился взрыв.
- Все важные элементы современного ИИ - не из 2022 года. Трансформер - 2017. GPT - 2018. Скейлинг - 2020. RLHF - 2022. UX-обёртка - конец 2022. Двадцать лет работы превратились в «магию», которую массовая аудитория увидела впервые.
- Бизнес на больших моделях работал минимум за три года до ChatGPT. Я делал на GPT-2 в 2019. Тысячи стартапов делали на GPT-3 в 2020-2022. ChatGPT не открыл коммерческий ИИ. Он сделал его видимым.
И самое главное - тезис всей серии:
- История ИИ не начинается в ноябре 2022 года. Она начинается в 1943-м, проходит через две зимы, через пятнадцать лет невидимой работы в почте и поисковиках, через большой взрыв 2012-го - и завершается ChatGPT как ещё одним шагом, а не кульминацией. Линия не прервётся. Через десять лет современный ИИ покажется таким же простым, как сегодня кажется Last.fm 2007-го года.
Тот, кто понимает эту историю, лучше понимает будущее. Потому что следующий «большой взрыв» уже происходит - тихо, под другим именем, в инфраструктуре, до того, как маркетинг найдёт ему правильное слово. Точно так, как с компьютерным зрением в 2005-м, рекомендательными системами в 2007-м и трансформерами в 2017-м.
ChatGPT всех удивил. Он не должен был. Если бы массовая аудитория знала историю последних восьмидесяти лет, ChatGPT воспринимался бы как рядовой этап развития, а не как чудо. Что он, собственно, и есть.
Спасибо, что дочитали серию.
Часто задаваемые вопросы
В чём разница между BERT и GPT?
BERT (Google, 2018) - двунаправленный энкодер: смотрит на всё предложение сразу и обучается восстанавливать пропущенные слова. Хорош для понимания текста (поиск, классификация). GPT (OpenAI) - однонаправленный декодер: предсказывает следующее слово по предыдущим. Хорош для генерации. До 2022 года BERT-подход доминировал в индустрии (поиск Google, корпоративный NLP), а GPT был академической веткой. После ChatGPT всё перевернулось - генеративные декодеры стали мейнстримом.
Что такое RLHF и почему это сделало ChatGPT возможным?
RLHF (Reinforcement Learning from Human Feedback) - это тонкая настройка модели через предпочтения людей. Сначала модель генерирует несколько вариантов ответа на промпт, затем человек ранжирует их от лучшего к худшему, затем по этим рангам обучается reward-модель, которая оценивает любой ответ, а потом основная модель тонко настраивается через PPO так, чтобы максимизировать reward. Эта техника превратила GPT-3 (которая 'просто продолжала текст') в InstructGPT/ChatGPT (которая 'следует инструкциям и отвечает полезно').
Почему OpenAI задержала публикацию весов GPT-2 в 2019 году?
OpenAI заявила, что это сделано из соображений безопасности - модель умела генерировать правдоподобные новости, что могло использоваться для дезинформации. Критики расценили это как маркетинговый ход (генерация шума вокруг продукта). Через девять месяцев OpenAI выпустила полную модель. Этот эпизод был первым массовым случаем нарратива 'эта ИИ-модель слишком опасна', который потом многократно повторится.
Чем ChatGPT отличался от того, что было до него?
Тремя вещами. Технически - почти ничем (это была GPT-3.5 с RLHF, доступная через API уже год). Продуктово - чат-интерфейс вместо API: любой человек мог открыть chat.openai.com и поговорить с моделью без единой строчки кода. Маркетингово - OpenAI бесплатно открыла доступ массовому пользователю, что дало колоссальную органическую виральность. ChatGPT - это не технологический прорыв. Это продуктовый прорыв поверх готовой технологии.
Что было до ChatGPT в коммерческом применении GPT?
Между запуском GPT-3 API (июнь 2020) и ChatGPT (ноябрь 2022) прошло 30 месяцев, во время которых десятки стартапов уже строили продукты на GPT-3. Jasper (бывший Jarvis) для копирайтинга, Copy.ai, Notion AI, Github Copilot (август 2021) - всё это работало на той же технологии за 1-2 года до того, как 'все узнали об ИИ'. Я сам в 2019 году собрал коммерческого копирайтера новостей на GPT-2 - о нём расскажу ниже.
Читать дальше
Настоящая история ИИ, часть 4: большой взрыв глубокого обучения (2012–2017)
30 сентября 2012 года глубокое обучение перестало быть академической нишей. AlexNet выиграл ImageNet с разрывом, которого никто не видел в истории соревнования. Между этим событием и статьёй 'Attention Is All You Need' (декабрь 2017) уместились пять лет, в которые поместилась почти вся современная нейросетевая магия - от word2vec до AlphaGo и GAN.
Настоящая история ИИ, часть 3: рекомендации, зрение и тихая революция (2000–2012)
К 2010 году ИИ уже жил в каждом сервисе, которым ты пользовался: Netflix предсказывал вкус, Last.fm составлял плейлисты, Facebook узнавал друзей на фото, а спам-фильтр Gmail блокировал миллиарды писем в день. Просто никто не называл это ИИ - это был 'big data' и 'machine learning'.
Настоящая история ИИ, часть 2: бэкпроп, SVM и вторая зима (1980–2000)
В 1986 году нейросети получили рабочий алгоритм обучения - и большая часть индустрии этого не заметила. Пока мир смотрел на крах экспертных систем, OCR уже годами читал ваши письма на почте, а SVM с тихим лицом выигрывал все соревнования. История 'спрятанного ИИ' между двух зим.