Настоящая история ИИ, часть 3: рекомендации, зрение и тихая революция (2000–2012)
К 2010 году ИИ уже жил в каждом сервисе, которым ты пользовался: Netflix предсказывал вкус, Last.fm составлял плейлисты, Facebook узнавал друзей на фото, а спам-фильтр Gmail блокировал миллиарды писем в день. Просто никто не называл это ИИ - это был 'big data' и 'machine learning'.
С 2000 по 2012 год ИИ массово вошёл в потребительские продукты, но под названиями 'big data', 'персонализация' и 'распознавание образов'. Netflix Prize (2006-2009) сделал коллаборативную фильтрацию стандартом, алгоритм Viola-Jones (2001) встроил детекцию лиц во все цифровые фотоаппараты, а ImageNet (2009) подготовил датасет, на котором через три года запустится глубокое обучение. К моменту появления ChatGPT в 2022 году рекомендательные ИИ-системы уже двенадцать лет управляли тем, какое видео ты смотришь и что читаешь.
Ключевые факты
- 2001: алгоритм Viola-Jones распознал лицо в реальном времени на потребительском железе - к 2005 году он встроен почти во все цифровые камеры.
- 2006-2009: Netflix Prize - конкурс с фондом 1 миллион долларов за улучшение рекомендаций на 10% - привлёк более 50 000 команд из 186 стран.
- 2007: вышел iPhone - в нём впервые на массовом устройстве работали статистическое автоисправление и распознавание жестов на основе ML.
- 2009: профессор Фей-Фей Ли публикует ImageNet - 14 миллионов размеченных вручную изображений по 22 000 категорий.
- 2011: IBM Watson выигрывает Jeopardy! у двух чемпионов - первое массовое появление ИИ, отвечающего на вопросы на естественном языке.
Десятилетие, в котором ИИ вошёл в твой карман
Если бы в 2010 году тебя спросили «пользуешься ли ты ИИ?», ты бы, скорее всего, ответил «нет». На деле в этот год ты уже:
- получал рекомендации фильмов от Netflix (коллаборативная фильтрация),
- видел квадратики автофокуса вокруг лиц в фотоаппарате (Viola-Jones),
- доверял Gmail отсеивать миллиарды спам-писем (наивный байесовский классификатор),
- строил маршруты в Google Maps (графовые алгоритмы поверх собранных данных о пробках),
- видел рекламу, подобранную под твой поисковый запрос (логистическая регрессия на 10⁹ признаков),
- слушал плейлист Last.fm «Рекомендованное для тебя» (item-item collaborative filtering),
- набирал текст в iPhone с автоисправлением (статистическая модель языка).
Это третья часть истории ИИ - период тихой революции 2000-2012, когда технология стала вездесущей, но почти невидимой. И именно в этот период созрели ингредиенты, на которых через десять лет взлетит ChatGPT.
2001: Viola-Jones и лица в каждом фотоаппарате
В 2001 году Пол Виола и Майкл Джонс из Mitsubishi Electric Research Labs опубликовали алгоритм быстрой детекции лиц Viola-Jones. По устройству - каскадный классификатор на признаках Хаара, обученный методом AdaBoost. Прорыв был в скорости, а не в точности: алгоритм работал в реальном времени на процессорах того времени.
К 2005 году технология стояла практически в каждом цифровом фотоаппарате - те самые квадратики автофокуса вокруг лиц при наведении. Один из первых случаев, когда компьютерное зрение работало на конечном устройстве, без облака, без сети.
Никто не называл фотоаппараты с Viola-Jones "AI camera". Они были просто "smart camera". Слово "AI" вернётся в маркетинг камер только в 2017 году, когда смартфоны начнут различать сцены с помощью свёрточных нейросетей.
2006: Netflix Prize - 1 миллион долларов за 10%
В октябре 2006 года Netflix объявил конкурс с призовым фондом в миллион долларов для команды, которая улучшит точность их рекомендательной системы Cinematch на 10%. Открытый датасет: 100 миллионов оценок от 480 000 пользователей по 17 770 фильмам. До этого рекомендательные системы были закрытой темой каждой компании. Netflix Prize вынес её в открытое пространство.
Конкурс длился почти три года. Участвовали более 50 000 команд из 186 стран. Победила в 2009 году команда BellKor's Pragmatic Chaos, объединившая решения трёх отдельных команд. Их ансамбль из 100+ моделей улучшил точность на 10.06%.
Само победившее решение Netflix так и не запустил - слишком сложно для эксплуатации. Но конкурс сделал две вещи, которые перевернули индустрию:
- Популяризировал матричную факторизацию (SVD, ALS) как стандартный инструмент рекомендаций.
- Научил поколение инженеров работать с большими разреженными матрицами на обычном железе.
После Netflix Prize коллаборативная фильтрация ушла в каждый сервис, где у тебя был профиль и какие-то предпочтения. YouTube, Amazon, Spotify, Last.fm, eBay - все это работало на наследниках техник, отточенных на конкурсе Netflix.
Личный анекдот: Last.fm и магия "Recommended for you"
Где-то в 2007 году я установил Last.fm - сервис, который собирал ("scrobbled") информацию о каждом треке, который я слушал на компьютере и в плеере. Через две-три недели у меня сформировалась библиотека прослушиваний на несколько тысяч композиций, и появилась вкладка "Recommended for you".
Я открыл её - и испытал то самое жутковатое ощущение, которое лет через десять станут испытывать пользователи TikTok. Сервис рекомендовал мне исполнителей, про которых я не слышал, но которые были точно по моему вкусу. Не банальные «если вам нравится Radiohead, послушайте Coldplay», а необычные сочетания, которых я бы сам не нашёл - какой-нибудь латвийский постпанк, который реально оказывался хорош.
Что было внутри? Item-item коллаборативная фильтрация. Last.fm для каждого исполнителя считал, кто ещё его слушает, и сравнивал множества пользователей. Если множество слушателей A и множество слушателей B сильно пересекались - значит, A и B «похожи», и любителю A можно рекомендовать B. Никаких нейросетей, никакого «понимания» музыки. Чистая статистика на матрице «пользователь × исполнитель».
В 2007 году это уже работало в потребительском продукте. В 2024 году TikTok с его рекомендательным алгоритмом производит на пользователей ровно то же впечатление - но между ними семнадцать лет одной и той же базовой идеи, только всё лучше масштабируемой.
2007: iPhone и статистическое ML на устройстве
В январе 2007 года Стив Джобс показал iPhone. Его автоисправление текста, распознавание жестов мультитача и адаптация яркости экрана к освещению - всё это работало на статистических моделях, обученных на агрегированных данных пользователей.
Автоисправление iPhone было особенно интересным случаем. Внутри работала комбинация:
- Языковой модели на n-граммах (какие пары и тройки слов чаще встречаются вместе),
- Модели опечаток (какие буквы пользователи чаще задевают вокруг целевой клавиши),
- Персональной адаптации (если ты упорно набираешь "thx" - перестать его исправлять).
Никто из миллионов пользователей iPhone в 2007 году не думал «у меня в кармане ИИ». Но это был ML в эксплуатации с ежедневной аудиторией, которая через три года перевалит за 100 миллионов человек.
2009: ImageNet - датасет, который изменил всё
В 2009 году профессор Стэнфорда Фей-Фей Ли опубликовала ImageNet - размеченный датасет из 14 миллионов изображений по 22 000 категорий. За плечами - три года работы и крупные траты на разметку через Amazon Mechanical Turk.
Идея ImageNet была простой и революционной: компьютерному зрению не хватает данных, а не алгоритмов. Модели до 2009 года обучались на нескольких тысячах изображений. ImageNet давал три порядка больше.
С 2010 года стартовал ImageNet Large Scale Visual Recognition Challenge (ILSVRC) - ежегодное соревнование на подмножестве ImageNet (1000 категорий, 1.2 миллиона изображений). В 2010-2011 годах победители использовали SVM с признаками, сконструированными вручную (SIFT, HOG, Fisher Vectors). Точность top-5 застряла около 26% ошибки.
Этот фон важно держать в голове, потому что в 2012 году случится событие, которое расколет историю компьютерного зрения надвое. Об этом - в части 4.
2011: IBM Watson и Jeopardy!
В феврале 2011 года суперкомпьютер IBM Watson обыграл двух чемпионов телешоу Jeopardy! - Брэда Раттера (победитель турнира всех времён) и Кена Дженнингса (74 победы подряд). Первая массовая демонстрация ИИ, отвечающего на вопросы на естественном языке - за 11 лет до ChatGPT.
Watson внутри был коктейлем из:
- Парсера вопросов на естественном языке (NLP).
- Поиска по 200 миллионам страниц неструктурированного текста, включая всю Wikipedia.
- Сотен параллельных гипотез с ранжированием через машинное обучение.
- Базы знаний DBpedia + структурированных источников.
Watson не был нейросетью. Под капотом - ансамбль методов классического NLP, информационного поиска и машинного обучения. Но эффект на массового зрителя был шоковый: машина понимает вопрос, ищет ответ, выбирает уверенный вариант, нажимает кнопку. На массовой публике 2011 года это выглядело ровно так, как ChatGPT выглядел в 2022-м.
Дальше IBM попыталась монетизировать Watson через медицинские приложения - и провалилась. К 2018 году почти весь Watson Health был закрыт. Ровно тот же урок, что в первой зиме: блестящая демонстрация на конкурсе ≠ работающий медицинский продукт.
Что забрать из этой эпохи
Главные тезисы части 3:
- К 2010 году ИИ уже лежал в основе всех твоих ежедневных сервисов. Поиск, рекомендации, спам-фильтр, фотоаппарат, навигация, реклама - везде ML. Просто называли это «персонализация» и "big data".
- Netflix Prize стал водоразделом для рекомендательных систем. До него - закрытые корпоративные алгоритмы. После - открытая индустриальная дисциплина с известными техниками. Современные рекомендации YouTube и Spotify - наследники этого конкурса.
- ImageNet был подготовлен ровно к моменту появления GPU. Если бы датасет вышел в 2005 году, на нём бы тренировали SVM. Если бы он вышел в 2015 году, мы бы потеряли три года прогресса. Совпадение момента - больших данных, GPU и алгоритмов - и стало причиной взрыва 2012 года.
- Tихая революция учит важному уроку. Самые успешные технологии редко приходят с ярлыком "AI". Когда продукт работает хорошо, он называется просто «продукт». Когда продукту нужен маркетинг - его называют "AI". В 2010 году Netflix не называл свои рекомендации "AI". В 2024 году каждое всплывающее окно с тремя кнопками называется "AI-powered".
В части 4 - 2012 год и большой взрыв глубокого обучения: AlexNet выигрывает ImageNet, word2vec даёт смыслы словам, появляются GAN, AlphaGo обыгрывает чемпиона мира по го, а в самом конце 2017 года выходит статья, которая через пять лет станет техническим основанием ChatGPT.
Часто задаваемые вопросы
Что такое коллаборативная фильтрация и почему она важна?
Коллаборативная фильтрация - это алгоритм рекомендаций, основанный не на содержании объектов, а на похожести пользователей или объектов друг на друга. Если люди, которым понравились те же фильмы, что и тебе, в среднем также высоко оценили фильм X - тебе порекомендуют X. Этот подход появился в 1990-х, но Netflix Prize (2006-2009) сделал его индустриальным стандартом. Сегодня он лежит в основе рекомендаций YouTube, Spotify, Amazon и TikTok.
Если ImageNet был опубликован в 2009 году, почему глубокое обучение взлетело только в 2012-м?
Дело в железе и в одном решающем эксперименте. До 2012 года все участники соревнования ImageNet использовали SVM с признаками, сконструированными вручную (HOG, SIFT). В 2012 году команда Хинтона запустила сверточную нейросеть AlexNet на двух потребительских GPU и выиграла соревнование с разрывом в почти 11 процентных пунктов. Это и стало моментом, после которого индустрия резко переключилась на глубокое обучение. ImageNet был топливом - AlexNet стал спичкой.
Был ли Netflix Prize реально важен?
И да, и нет. Технически победившее решение (BellKor's Pragmatic Chaos) Netflix так и не внедрил - оно было слишком сложным для эксплуатации. Но конкурс сделал две вещи: популяризировал технику матричной факторизации в индустрии и научил поколение инженеров работать с большими разреженными данными. Через эти два эффекта Netflix Prize переоформил всю индустрию рекомендательных систем.
Что было до того, как Facebook начал узнавать лица на фото?
Алгоритм Viola-Jones (2001) умел детектировать лица - то есть находить, что на фото есть лицо, но не понимать, чьё. Эта технология попала в каждый цифровой фотоаппарат к 2005 году (квадратики на лицах при автофокусировке). Распознавание лиц - идентификация конкретного человека - стало массовым позже: Facebook запустил автоматическое теггирование в 2010 году. К 2014 году DeepFace на нейросетях достиг точности 97% - сравнимо с человеческой.
Почему этот период называют 'тихой революцией'?
Потому что он не сопровождался шумом про ИИ. Между 2000 и 2012 годом машинное обучение проникло во все основные потребительские продукты: поиск, рекомендации, спам-фильтры, переводчики, навигация, фотография. Но из-за травмы второй зимы технологию упорно называли 'machine learning', 'big data', 'персонализацией' - чем угодно, кроме 'ИИ'. Когда в 2022 году слово вернулось в моду, многие пользователи искренне думали, что встречают эту технологию впервые - хотя пользовались ею минимум десять лет.
Читать дальше
Настоящая история ИИ, часть 5: от трансформера до ChatGPT (2017–2022) и кейс с GPT-2
ChatGPT - это не появление ИИ. Это появление UX поверх технологии, которая росла пять лет: BERT, GPT-1, GPT-2, GPT-3, InstructGPT. Я знаю, потому что в 2019 году собрал коммерческого копирайтера новостей на GPT-2 - за три с половиной года до того, как мир 'узнал об ИИ'.
Настоящая история ИИ, часть 4: большой взрыв глубокого обучения (2012–2017)
30 сентября 2012 года глубокое обучение перестало быть академической нишей. AlexNet выиграл ImageNet с разрывом, которого никто не видел в истории соревнования. Между этим событием и статьёй 'Attention Is All You Need' (декабрь 2017) уместились пять лет, в которые поместилась почти вся современная нейросетевая магия - от word2vec до AlphaGo и GAN.
Настоящая история ИИ, часть 2: бэкпроп, SVM и вторая зима (1980–2000)
В 1986 году нейросети получили рабочий алгоритм обучения - и большая часть индустрии этого не заметила. Пока мир смотрел на крах экспертных систем, OCR уже годами читал ваши письма на почте, а SVM с тихим лицом выигрывал все соревнования. История 'спрятанного ИИ' между двух зим.