Настоящая история ИИ, часть 4: большой взрыв глубокого обучения (2012–2017)
30 сентября 2012 года глубокое обучение перестало быть академической нишей. AlexNet выиграл ImageNet с разрывом, которого никто не видел в истории соревнования. Между этим событием и статьёй 'Attention Is All You Need' (декабрь 2017) уместились пять лет, в которые поместилась почти вся современная нейросетевая магия - от word2vec до AlphaGo и GAN.
С 2012 по 2017 год произошёл главный технический взрыв ИИ за полвека: AlexNet (2012) развязал гонку нейросетевых архитектур, word2vec (2013) дал словам числовые смыслы, GAN (2014) научили сети генерировать изображения, AlphaGo (2016) обыграла чемпиона мира по го, а в декабре 2017 года появилась статья 'Attention Is All You Need', описавшая трансформер. Через пять лет на этой архитектуре будет работать ChatGPT.
Ключевые факты
- 2012: AlexNet выиграл ImageNet с top-5 ошибкой 15.3% против 26.2% у второго места - разрыв, какого соревнование никогда не видело.
- 2014: статья о Generative Adversarial Networks (GAN) Иэна Гудфеллоу - технологию, на которой выросли все будущие генераторы изображений.
- 2015: ResNet от Microsoft Research преодолел человеческий уровень распознавания на ImageNet (3.57% top-5 ошибки против ~5% у человека).
- 2016: AlphaGo от DeepMind выиграл у Ли Седоля 4:1 в го - игре, которую считали недоступной ИИ ещё на 10 лет вперёд.
- 2017: статья 'Attention Is All You Need' (Vaswani et al., Google) описала архитектуру Transformer - основу всех последующих LLM, включая GPT, Claude и Gemini.
Дата, после которой всё изменилось
30 сентября 2012 года - дата, которую стоит запомнить. В этот день были опубликованы результаты соревнования ImageNet за 2012 год. Свёрточная нейросеть AlexNet Алекса Крижевского, Ильи Суцкевера и Джеффри Хинтона выиграла с top-5 ошибкой 15.3% против 26.2% у второго места.
Разрыв в 10.9 процентных пунктов в соревновании, где ежегодные улучшения измерялись долями процента, был событием другого порядка. Через несколько месяцев почти все исследователи компьютерного зрения мигрировали с SVM на нейросети. Через два года в каждом крупном стартапе уже работали data scientists, переучивающиеся на глубокое обучение. Так начался большой взрыв.
Это четвёртая часть истории ИИ - пять лет, в которые поместились почти все архитектурные идеи современного ИИ.
2012: AlexNet и пять часов на двух GPU
Что было внутри AlexNet, что сделало его таким мощным? Технически - три инженерных решения:
- Глубина: 8 слоёв (5 свёрточных + 3 полносвязных) - в три раза глубже, чем LeNet 1989 года.
- GPU-обучение: вся сеть обучалась на двух потребительских NVIDIA GTX 580 (видеокартах для игр) около пяти суток. Первое массовое применение игрового железа для большой задачи ML.
- Регуляризация: ReLU вместо сигмоид (сходимость в 6 раз быстрее), dropout (отключение случайных нейронов на каждом шаге для борьбы с переобучением), аугментация данных (растягивание, отражение, изменение цвета).
Любая из этих идей сама по себе не была новой. ReLU обсуждался с 2000-х. Dropout предложил Хинтон в 2012-м. CNN существовали с 1989 года. Новым была их комбинация плюс GPU плюс ImageNet. Магия 2012 года была инженерной, а не математической.
2013: word2vec - смыслы из статистики
В 2013 году Томаш Миколов с коллегами в Google опубликовал word2vec - технику преобразования слов в плотные числовые векторы. Идея была удивительно простой: обучить мелкую нейросеть предсказывать соседние слова в тексте. Получившиеся внутренние представления (embeddings) обладали поразительными свойствами:
- vector('king') − vector('man') + vector('woman') ≈ vector('queen')
- vector('Paris') − vector('France') + vector('Italy') ≈ vector('Rome')
То есть нейросеть, никогда не учившая семантику явно, выучивала её из чистой статистики совместной встречаемости слов. Эта идея - смысл = распределение по контекстам - впоследствии станет основой всех языковых моделей. GPT, BERT, Claude - все они работают с embeddings, идейно происходящими от word2vec.
2014: GAN - сети, которые играют друг против друга
В 2014 году студент Иэн Гудфеллоу предложил Generative Adversarial Networks (GAN). Идея появилась на ночной дискуссии в монреальском баре и была проверена в коде той же ночью.
Архитектура GAN: две нейросети играют в игру. Генератор получает случайный шум на входе и пытается выдать на выходе правдоподобный объект (например, лицо). Дискриминатор получает либо настоящие данные, либо подделки от генератора, и пытается их различить. Обе сети обучаются одновременно: генератор - обманывать дискриминатор, дискриминатор - не давать себя обманывать. Со временем генератор начинает выдавать всё более реалистичные образцы.
К 2018 году StyleGAN от NVIDIA генерировал фотореалистичные лица людей, которых не существует (вспомните сайт thispersondoesnotexist.com). К 2019 году появились первые deepfake-видео. До прихода диффузионных моделей в 2020-2022 годах GAN были основной технологией генеративного ИИ.
2015: ResNet - сеть глубже мозга
В декабре 2015 года команда Microsoft Research (Хэ Кайминг и др.) опубликовала ResNet - архитектуру с 152 слоями. Главный трюк - residual connections (остаточные связи), которые позволяют градиенту «пробрасываться» через слои без затухания.
Результат: 3.57% top-5 ошибки на ImageNet. Для сравнения, человек на той же задаче делает около 5% ошибок. Момент, когда нейросеть впервые превзошла человека на значимом бенчмарке компьютерного зрения.
К 2016 году ResNet стал стандартной несущей архитектурой для всех задач компьютерного зрения - от детекции объектов до сегментации до распознавания лиц. Идея residual connections потом перейдёт в трансформер 2017 года и в LLM.
2016: AlphaGo и игра, которую «невозможно» выиграть машине
Игра го долго считалась недоступной для ИИ. В шахматах около 30 разумных ходов в среднем; в го - около 200. Ветвление дерева ходов в го таково, что число возможных позиций превышает 10¹⁷⁰ - больше, чем атомов в наблюдаемой вселенной. Brute force, работавший в шахматах, на го не масштабировался ни при какой технике 1990-х–2000-х.
В марте 2016 года AlphaGo от DeepMind (компании Google) выиграл у южнокорейского профессионала Ли Седоля в матче из пяти партий со счётом 4:1. Внутри было три ингредиента:
- Свёрточная нейросеть, оценивавшая позицию (value network).
- Свёрточная нейросеть, предлагавшая следующий ход (policy network).
- Поиск Монте-Карло по дереву (MCTS), направляемый этими сетями.
Сети обучались сначала на партиях людей, потом - играя сами с собой миллионы раз. В одной из партий AlphaGo сделал ход 37 во второй партии, который комментаторы назвали «ходом, который не сделал бы ни один человек». Этот ход стал известен как момент, когда стало ясно, что машина играет иначе, чем мы. Через год AlphaGo Zero научился играть в го с нуля, без единой человеческой партии, и обыграл оригинального AlphaGo со счётом 100:0.
Личный анекдот: первое впечатление от AlphaGo
Я помню ночь 9 марта 2016 года. Первая партия Ли Седоль - AlphaGo, я смотрел стрим (с переводом) около двух часов ночи. Был уверен, что Ли Седоль выиграет - так считали практически все эксперты. AlphaGo выиграл первую партию, потом вторую. Вторую я досматривал уже с растущим чувством, что прямо сейчас, на моих глазах, происходит нечто историческое - спортивный интерес отошёл на второй план.
Через пару дней я попробовал поиграть с AlphaGo онлайн (DeepMind не давала прямого доступа, но появились похожие движки на свободных весах). Я не профессионал, я любитель уровня 12-кю, но даже на этом уровне различие было ясным: машина играла не как человек. Не лучше или хуже - иначе. Делала ходы, которые в литературе го веками считались странными или плохими, и они работали.
Тогда я впервые увидел, как ИИ открывает что-то, чего люди не знали. Не имитирует, а открывает. Через шесть лет такое же ощущение будут испытывать программисты, увидевшие, как Copilot пишет нетривиальный кусок кода. Через восемь лет - ученые, использующие AlphaFold для предсказания структуры белков. Линия одна.
Декабрь 2017: статья, изменившая всё
12 июня 2017 года восемь исследователей Google Brain опубликовали препринт, а в декабре он вышел на конференции NeurIPS. Название: "Attention Is All You Need". В статье описывалась новая архитектура для машинного перевода, названная Transformer.
Идея трансформера: отказаться от рекуррентных связей (RNN/LSTM), которые мучительно обучались последовательно. Вместо этого использовать механизм внимания (attention) - каждое слово в предложении смотрит на все остальные слова и решает, насколько они важны для его контекста. Это давало два преимущества:
- Параллелизация: трансформер обучается одновременно на всей последовательности, а не слово за словом.
- Длинные зависимости: слово может напрямую «посмотреть» на любое другое слово в тексте, а не передавать информацию через цепочку шагов.
Статья 2017 года говорила про машинный перевод. Никто из её авторов в момент публикации не предсказал, что через пять лет на этой архитектуре будут построены ChatGPT, Claude, Gemini и почти все мировые LLM. Через год Google выпустит BERT, OpenAI - GPT-1. Гонка началась.
Что забрать из этой эпохи
Главные тезисы части 4:
- Большой взрыв 2012 года был инженерным, не математическим. AlexNet комбинировал идеи 1980-х–2000-х (CNN, ReLU, dropout) с GPU 2010-х и датасетом 2009 года. Когда пишут «глубокое обучение изобрели в 2012-м», это про точку взрыва, а не про точку появления технологии.
- Все ключевые архитектуры современного ИИ были изобретены в эту пятилетку. AlexNet (CNN, 2012), word2vec (embeddings, 2013), GAN (генеративные сети, 2014), seq2seq + attention (2014-2015), ResNet (2015), Transformer (2017). Всё, что сейчас называют «ИИ», - вариации на эти архитектуры.
- AlphaGo доказал, что ИИ может открывать новое. До 2016 года была установка «ИИ может только повторить то, что в данных». AlphaGo, играя с собой и находя ходы, не виданные за 4000 лет истории го, эту установку похоронил.
- Трансформер 2017 года - редкий пример архитектуры, заработавшей сразу и оставшейся доминирующей. За девять лет (2017-2026) предлагали десятки альтернатив (Mamba, RWKV, S4, RetNet, и так далее). Все главные модели мира на 2026 год - трансформеры. Это самый длинный архитектурный консенсус в истории ML.
В части 5 - последние пять лет: BERT и GPT, скейлинг до GPT-3, появление InstructGPT, ChatGPT и моя личная история - как я в 2019 году собрал коммерческого копирайтера новостей на GPT-2, за три с половиной года до того, как мир «узнал об ИИ».
Часто задаваемые вопросы
Чем AlexNet отличался от предыдущих участников ImageNet?
Тремя вещами. Во-первых, это была глубокая (8 слоёв) свёрточная нейросеть, а не SVM с признаками, сконструированными вручную. Во-вторых, она обучалась на двух потребительских GPU NVIDIA GTX 580 - первое успешное применение игрового железа в большой задаче ML. В-третьих, в ней использовались ReLU (вместо сигмоид), dropout (для борьбы с переобучением) и аугментация данных - три инженерных трюка, которые потом стали стандартом.
Что такое word2vec и почему это важно?
word2vec - это техника, представленная Томашом Миколовым в Google в 2013 году. Она превращает слова в плотные числовые векторы (например, 300-мерные), где геометрические операции имеют семантический смысл: вектор('king') - вектор('man') + вектор('woman') ≈ вектор('queen'). Это был первый массовый случай, когда нейросеть выучила что-то похожее на смысл слов из чистой статистики совместной встречаемости. Вся последующая обработка естественного языка стоит на этой идее.
Что такое GAN и где они применяются?
GAN (Generative Adversarial Networks) - архитектура, предложенная Иэном Гудфеллоу в 2014 году. Две нейросети играют друг против друга: генератор пытается создать правдоподобные данные (например, лица), дискриминатор пытается отличить настоящее от поддельного. Они обучаются вместе, и качество генерации растёт. На GAN выросли StyleGAN (фотореалистичные лица), CycleGAN (перенос стиля), deepfake-видео и большая часть генеративного ИИ до появления диффузионных моделей в 2020-2022 годах.
Почему AlphaGo был так важен?
До AlphaGo компьютер не мог обыграть профессионала в го - игру, в которой 10^170 возможных позиций (больше, чем атомов в наблюдаемой вселенной). Все методы, работавшие в шахматах (минимакс + альфа-бета), на го не масштабировались. AlphaGo соединил глубокое обучение (две нейросети - оценочная и политическая) с поиском Монте-Карло и обучением через игру с самим собой. В марте 2016 года он выиграл у Ли Седоля 4:1, что считалось недостижимым ещё на десятилетие.
Если трансформер появился в 2017 году, почему ChatGPT вышел только в 2022-м?
Между статьёй и продуктом - пять лет инженерной работы. В 2018 году появились BERT (Google) и GPT-1 (OpenAI). В 2019-2020 - GPT-2 и GPT-3, показавшие, что увеличение масштаба даёт качественно новые свойства. В 2022 году OpenAI добавил instruction tuning и RLHF к GPT-3.5 и упаковал результат в чат-интерфейс - это и был ChatGPT. Сама архитектура из 2017 года не менялась радикально. Менялся масштаб обучения и тонкая настройка поведения.
Читать дальше
Настоящая история ИИ, часть 5: от трансформера до ChatGPT (2017–2022) и кейс с GPT-2
ChatGPT - это не появление ИИ. Это появление UX поверх технологии, которая росла пять лет: BERT, GPT-1, GPT-2, GPT-3, InstructGPT. Я знаю, потому что в 2019 году собрал коммерческого копирайтера новостей на GPT-2 - за три с половиной года до того, как мир 'узнал об ИИ'.
Настоящая история ИИ, часть 3: рекомендации, зрение и тихая революция (2000–2012)
К 2010 году ИИ уже жил в каждом сервисе, которым ты пользовался: Netflix предсказывал вкус, Last.fm составлял плейлисты, Facebook узнавал друзей на фото, а спам-фильтр Gmail блокировал миллиарды писем в день. Просто никто не называл это ИИ - это был 'big data' и 'machine learning'.
Настоящая история ИИ, часть 2: бэкпроп, SVM и вторая зима (1980–2000)
В 1986 году нейросети получили рабочий алгоритм обучения - и большая часть индустрии этого не заметила. Пока мир смотрел на крах экспертных систем, OCR уже годами читал ваши письма на почте, а SVM с тихим лицом выигрывал все соревнования. История 'спрятанного ИИ' между двух зим.