Настоящая история ИИ, часть 2: бэкпроп, SVM и вторая зима (1980–2000)
В 1986 году нейросети получили рабочий алгоритм обучения - и большая часть индустрии этого не заметила. Пока мир смотрел на крах экспертных систем, OCR уже годами читал ваши письма на почте, а SVM с тихим лицом выигрывал все соревнования. История 'спрятанного ИИ' между двух зим.
Между 1980 и 2000 годами ИИ пережил вторую зиму, но при этом получил два ключевых инструмента: алгоритм обратного распространения ошибки (1986) сделал глубокие нейросети обучаемыми, а метод опорных векторов (1995) на десять лет стал стандартным методом промышленного машинного обучения. К концу 1990-х OCR на нейросетях уже читал около половины почтовой корреспонденции в США, а Google запустил поиск, основанный на алгоритме PageRank, - но никто из этого не называл ИИ.
Ключевые факты
- 1986: Rumelhart, Hinton и Williams публикуют статью о backpropagation в Nature - алгоритм существовал и раньше, но именно эта статья сделала его стандартом.
- 1989: Ян Лекун применяет свёрточную нейросеть LeNet к распознаванию рукописных цифр для US Postal Service; к середине 1990-х система читает около 10% почтовых индексов в США.
- 1995: Корнелия Кортес и Владимир Вапник публикуют работу о методе опорных векторов (SVM) - на десять лет он становится главным алгоритмом индустриального ML.
- 1997: Deep Blue от IBM обыгрывает Гарри Каспарова - но за ним стоит не нейросеть, а 200 миллионов оценённых позиций в секунду через эвристический перебор.
- 1998: Google основан на алгоритме PageRank - линейная алгебра поверх веб-графа, но никто из основателей не называл это 'искусственным интеллектом'.
Между двумя зимами
К началу 1980-х первая зима ИИ начала отступать. Не благодаря нейросетям - они всё ещё были в опале после критики Минского и Пейперта - а благодаря экспертным системам, которые внезапно начали зарабатывать деньги. К середине десятилетия рынок коммерческих экспертных систем превысил миллиард долларов в год. ИИ снова стал престижной областью.
А потом эта же индустрия рухнула во второй раз. И ровно на её обломках выросло то, что мы сегодня называем современным ИИ, - тихо, под другими именами, в почтовых отделениях, банках и на серверах поисковиков. Это вторая часть серии: 1980-е и 1990-е, эра «спрятанного ИИ».
1986: алгоритм, который ждали 20 лет
В октябре 1986 года Дэвид Румельхарт, Джеффри Хинтон и Рональд Уильямс опубликовали в журнале Nature короткую статью под названием "Learning representations by back-propagating errors". В ней они описали практический алгоритм для обучения многослойных нейронных сетей.
Идея сама по себе была не новой - её ингредиенты появлялись у Брайсона и Хо ещё в 1969 году, у Пола Вербоса в его диссертации 1974 года, у Дэвида Паркера в 1985-м. Но именно статья Rumelhart-Hinton-Williams сделала backpropagation общеупотребимым стандартом. С этого момента нейросети получили рабочий способ обучать любое количество скрытых слоёв.
По сути backprop вычисляет градиент функции ошибки по каждому весу через цепное правило дифференцирования. Зная градиент, вы знаете, куда сдвинуть вес, чтобы уменьшить ошибку. Все современные нейросети - включая GPT-5 - обучаются вариантом этого алгоритма.
Журналисты в 1986 году писали про экспертные системы и Lisp-машины, а статью в Nature почти не заметили. Нейросети оставались уделом небольшой группы исследователей.
1989: Ян Лекун и почта США
В 1989 году французский учёный Ян Лекун в Bell Labs применил свёрточную нейронную сеть (CNN) под названием LeNet к практической задаче - распознаванию рукописных цифр в почтовых индексах для US Postal Service.
К середине 1990-х система Лекуна читала около 10% всей почтовой корреспонденции в США. Чуть позже похожие сети начали распознавать суммы на банковских чеках в крупных американских банках. К началу 2000-х CNN-OCR обрабатывал большую часть рукописных чеков в стране.
Никто из получателей этих писем не думал об «искусственном интеллекте». Технология просто работала: ваше плохо нацарапанное "12345" превращалось в маршрут до почтового отделения. Один из первых массовых случаев, когда нейросеть стала инфраструктурой - невидимым слоем поверх повседневной жизни.
Конец 1980-х: вторая зима
Пока нейросети тихо завоёвывали почту, рынок экспертных систем начал рушиться. Причин было несколько:
- Lisp-машины - дорогие специализированные компьютеры для запуска экспертных систем - проиграли дешёвым рабочим станциям Sun и IBM PC.
- Поддержка баз правил оказалась катастрофически дорогой. Каждое изменение в предметной области требовало переделки сотен правил.
- Хрупкость: экспертная система с 5000 правил блестяще работала на запланированных кейсах и полностью разваливалась на одном новом.
К 1990 году крупные компании, продававшие экспертные системы (Symbolics, Lisp Machines Inc, Intellicorp), либо обанкротились, либо ушли на нишевые рынки. DARPA снова срезало финансирование «ИИ-исследований». Так наступила вторая зима ИИ - продлилась она примерно с 1987 по 1993 год.
Во время этой зимы исследователи, работавшие над machine learning, начали аккуратно избегать слова «ИИ». Гранты подавались под названиями «распознавание образов», «статистическое обучение», "data mining". Слово стало токсичным.
1995: тихая революция SVM
В 1995 году Корнелия Кортес и Владимир Вапник опубликовали работу о методе опорных векторов (Support Vector Machines, SVM). Идея SVM проста: найти в признаковом пространстве гиперплоскость, разделяющую два класса с максимальным зазором. Если линейно классы не разделимы - применить ядро (kernel trick) и решать задачу в неявно построенном пространстве более высокой размерности.
В отличие от нейросетей, SVM:
- Имел крепкую математическую теорию (структурный риск Вапника).
- Сходился к глобальному оптимуму (нейросети - к локальному).
- Хорошо работал на маленьких датасетах.
- Не требовал тонкой настройки слоёв и активаций.
С 1995 примерно по 2010 год SVM был стандартным алгоритмом индустриального ML. Классификация текста по тематикам, распознавание лиц до AlexNet, биоинформатика, кредитный скоринг - всё это в основном на SVM. Когда вы в 2005 году видели "AI", скорее всего за этим стоял SVM с RBF-ядром, обучаемый на нескольких тысячах примеров.
1997: Deep Blue - не нейросеть, не учится, но обыгрывает чемпиона мира
11 мая 1997 года компьютер Deep Blue от IBM обыграл Гарри Каспарова в матче из шести партий. Заголовки по всему миру: «ИИ победил человека в шахматах».
Что было внутри Deep Blue? Не нейросеть. Не машинное обучение. Специализированный шахматный суперкомпьютер: 30 узлов IBM RS/6000 + 480 заказных VLSI-чипов для оценки позиций. Архитектурно - минимакс с альфа-бета-отсечением (тот же алгоритм, что в шахматах на ZX Spectrum из первой части), но с эвристической функцией оценки, написанной гроссмейстерами, и способностью обсчитывать 200 миллионов позиций в секунду.
Deep Blue ничему не учился. Все его шахматные знания были запрограммированы людьми. Триумф символьного ИИ + brute force, а не машинного обучения. Но публика этого различия не заметила, и победа Deep Blue стала одним из самых сильных PR-моментов в истории ИИ.
1998: Google и спрятанный ИИ
В сентябре 1998 года Ларри Пейдж и Сергей Брин зарегистрировали Google. В основе - алгоритм PageRank: итеративное вычисление «важности» страницы как взвешенной суммы важностей страниц, которые на неё ссылаются. По сути, это нахождение главного собственного вектора огромной разреженной матрицы веб-графа.
Google никогда не позиционировал себя как ИИ-компанию в первые годы. Но к 2004 году в Gmail работал байесовский фильтр спама, к 2008 году алгоритмы ранжирования включали десятки сигналов с обучением на кликах пользователей, а к 2011 году Google уже скупал стартапы по компьютерному зрению. Просто слово «ИИ» в начале 2000-х было неудобным - после второй зимы инвесторы и журналисты от него шарахались.
Это очень важная мысль для всей истории: в 2000 году ИИ работал примерно в каждом продукте, которым вы ежедневно пользовались. Только никто его так не называл.
Личный анекдот: Dragon NaturallySpeaking 1997
В конце 1990-х я начинал писать для районной газеты, и редактор посоветовал поставить Dragon NaturallySpeaking - программу распознавания речи, чтобы диктовать заметки вместо того, чтобы их печатать. Версия 1997 года стоила около 700 долларов и требовала примерно час обучения голосу пользователя.
Работало это так: вы диктовали в микрофон, программа выдавала текст. Ошибалась она часто и весело - моё имя устойчиво превращалось в «мехико сухарь чёрный». Но на чистой речи и спокойной теме она реально набирала около 100 слов в минуту с точностью 90%, что было примерно в три раза быстрее моей скорости печати.
Что было внутри? Скрытые марковские модели (HMM) для акустической модели и n-граммные языковые модели для распознавания. Никаких нейросетей, никакого глубокого обучения. Чистая статистика и теория вероятностей, разработанная в 1960-х–80-х. Распознавание речи реально применяли для журналистики уже в 1997 году, и никто не называл его ИИ. Шёл по разряду «офисного софта».
Когда сегодня кто-то говорит, что Whisper от OpenAI (2022) - это «первая практичная программа распознавания речи», я вспоминаю Dragon. Она работала в моём офисе за 25 лет до Whisper. Просто медленнее, точнее настраивалась под голос и не понимала акценты. Линия преемственности: Dragon 1997 → Google Voice 2008 → Siri 2011 → Alexa 2014 → Whisper 2022. Один и тот же класс технологий, четыре поколения улучшений.
Что забрать из этой эпохи
Главные тезисы части 2:
- Backpropagation существовал с 1986 года. Всё, что произошло в глубоком обучении в 2010-х, - это масштабирование алгоритма 1986 года на железо, которого тогда не было. Не новый принцип - новые транзисторы.
- С конца 1980-х до начала 2010-х индустриальным стандартом ML был SVM, а не нейросети. Это важная поправка к нарративу «глубокое обучение - это и есть машинное обучение». Большая часть промышленных моделей до 2012 года работала без единого нейрона.
- К 2000 году ИИ уже жил в почте, банках, поисковиках и спам-фильтрах - но из-за травмы второй зимы никто не называл это словом «ИИ». Когда в 2022 году ChatGPT «вернул моду» на термин - моду вернули, а не технологию.
- Зимы ИИ прерывают финансирование, но не разработку. В обе зимы (1974-1980 и 1987-1993) ключевые алгоритмы продолжали появляться: backprop, CNN, SVM, PageRank, HMM. Просто без громких заголовков.
В части 3 - 2000-е и начало 2010-х: эпоха рекомендательных систем (Netflix Prize, коллаборативная фильтрация), детекция лиц в каждом фотоаппарате (Viola-Jones), первая Tesla Autopilot-эпоха и, наконец, ImageNet 2009 - датасет, который через три года развяжет большой взрыв глубокого обучения.
Часто задаваемые вопросы
Что такое обратное распространение ошибки и почему оно важно?
Backpropagation - это алгоритм, позволяющий обучать многослойные нейросети, эффективно вычисляя, как изменить каждый вес ради уменьшения ошибки. Идея была в воздухе с 1960-х (Брайсон, Хо), но статья Rumelhart-Hinton-Williams 1986 года в Nature сделала её рабочим инструментом. Без этого алгоритма не было бы ни AlexNet 2012 года, ни современных трансформеров.
Почему наступила вторая зима ИИ?
К концу 1980-х рынок экспертных систем рухнул: дорогие Lisp-машины, узкоспециализированные базы правил, высокая стоимость поддержки. Когда в начале 1990-х появились дешёвые рабочие станции и стандартное ПО, специализированные ИИ-вендоры обанкротились. Вторая зима продлилась примерно с 1987 по 1993 год и снова обрезала государственное финансирование.
Если backpropagation работал с 1986, почему AlexNet появился только в 2012?
Не хватало двух вещей: вычислительной мощности (графические процессоры с CUDA подоспели только к 2007-2010) и больших размеченных датасетов (ImageNet опубликован в 2009). Лекун обучал LeNet на CPU неделями; AlexNet 2012 года крутили на двух потребительских GPU. Алгоритм был тот же. Изменилось железо.
Что такое метод опорных векторов и почему он доминировал в 1990-х–2000-х?
SVM - это алгоритм, который находит границу с максимальным зазором между классами в высокоразмерном пространстве. Он давал стабильные результаты на маленьких датасетах, имел крепкую математическую основу и не требовал тонкой настройки гиперпараметров, как нейросети. С 1995 примерно по 2010 год SVM был стандартом индустриального ML - от классификации текстов до биоинформатики.
Был ли Google в 1998 году ИИ-компанией?
Юридически - нет, основатели позиционировали Google как поисковую компанию. По существу - да. PageRank - это итеративный алгоритм на матрицах смежности, классический пример того, что в 2025 году назвали бы 'graph ML'. Спам-фильтры Gmail (2004) использовали байесовские классификаторы. Просто слово 'ИИ' тогда после второй зимы было стигматизировано, и компании старались его избегать.
Читать дальше
Настоящая история ИИ, часть 1: перцептрон, символьный ИИ и первая зима (1943–1980)
ИИ не появился вместе с ChatGPT. Первый математический нейрон описали в 1943 году, рабочий перцептрон собрали в 1958-м, а к 1969 году нейросети уже похоронили на пятнадцать лет. Откуда на самом деле растёт современный ИИ.
Настоящая история ИИ, часть 5: от трансформера до ChatGPT (2017–2022) и кейс с GPT-2
ChatGPT - это не появление ИИ. Это появление UX поверх технологии, которая росла пять лет: BERT, GPT-1, GPT-2, GPT-3, InstructGPT. Я знаю, потому что в 2019 году собрал коммерческого копирайтера новостей на GPT-2 - за три с половиной года до того, как мир 'узнал об ИИ'.
Настоящая история ИИ, часть 4: большой взрыв глубокого обучения (2012–2017)
30 сентября 2012 года глубокое обучение перестало быть академической нишей. AlexNet выиграл ImageNet с разрывом, которого никто не видел в истории соревнования. Между этим событием и статьёй 'Attention Is All You Need' (декабрь 2017) уместились пять лет, в которые поместилась почти вся современная нейросетевая магия - от word2vec до AlphaGo и GAN.