Skip to content
Volver al blog
AI Technologies

La verdadera historia de la IA, parte 3: recomendaciones, visión y la revolución silenciosa (2000–2012)

Para 2010 la IA ya estaba dentro de todos los servicios que usabas: Netflix predecía tus gustos, Last.fm armaba tus listas, Facebook reconocía amigos en las fotos, y el filtro de spam de Gmail bloqueaba miles de millones de mensajes al día. Solo que nadie lo llamaba IA - era 'big data' y 'aprendizaje automático'.

Mikhail Savchenko30 de abril de 20267 min de lectura
AIHistoryRecommender SystemsComputer VisionMachine Learning

Entre 2000 y 2012 la IA entró masivamente en los productos de consumo bajo nombres como 'big data', 'personalización' y 'reconocimiento de patrones'. El Netflix Prize (2006-2009) hizo del filtrado colaborativo un estándar industrial, el algoritmo Viola-Jones (2001) metió la detección facial en cada cámara digital, e ImageNet (2009) preparó el dataset que tres años después desataría el aprendizaje profundo. Cuando ChatGPT apareció en 2022, los sistemas de recomendación ya llevaban más de doce años decidiendo qué video veías y qué leías.

Datos clave

  • 2001: el algoritmo Viola-Jones detectó rostros en tiempo real en hardware de consumo - hacia 2005 venía en casi toda cámara digital.
  • 2006-2009: el Netflix Prize - 1 millón de dólares por mejorar las recomendaciones un 10% - atrajo a más de 50.000 equipos de 186 países.
  • 2007: salió el iPhone - primer dispositivo masivo con autocorrección estadística y reconocimiento de gestos basado en ML.
  • 2009: la profesora Fei-Fei Li publica ImageNet - 14 millones de imágenes etiquetadas a mano en 22.000 categorías.
  • 2011: IBM Watson gana en Jeopardy! a dos campeones - primera demostración masiva de IA respondiendo preguntas en lenguaje natural, once años antes de ChatGPT.

La década en que la IA se metió en tu bolsillo

Si en 2010 te hubieran preguntado "¿usas IA?", probablemente habrías dicho que no. En realidad, ese año ya:

  • recibías recomendaciones de películas de Netflix (filtrado colaborativo),
  • veías cuadraditos de autoenfoque alrededor de las caras en tu cámara (Viola-Jones),
  • dejabas que Gmail filtrara miles de millones de mensajes de spam (Naive Bayes),
  • armabas rutas en Google Maps (algoritmos de grafos sobre datos de tráfico recopilados),
  • veías anuncios ajustados a tu búsqueda (regresión logística sobre 10⁹ atributos),
  • escuchabas listas de Last.fm "Recomendado para ti" (filtrado colaborativo ítem-ítem),
  • escribías en el iPhone con autocorrección (modelo de lenguaje estadístico).

Esta es la tercera parte de la historia de la IA - la revolución silenciosa de 2000-2012, cuando la tecnología se volvió ubicua y casi invisible. Y es en este periodo donde maduraron los ingredientes con los que, diez años después, despegaría ChatGPT.

2001: Viola-Jones y un rostro en cada cámara

En 2001 Paul Viola y Michael Jones, en Mitsubishi Electric Research Labs, publicaron el algoritmo de detección rápida de rostros Viola-Jones. Por dentro, un clasificador en cascada sobre características de Haar, entrenado con AdaBoost. El gran avance era la velocidad, no la precisión: el algoritmo corría en tiempo real en los procesadores de la época.

Hacia 2005 venía instalado en prácticamente toda cámara digital - los cuadraditos de autoenfoque que se prendían en los rostros. Uno de los primeros casos de visión por computadora corriendo en el dispositivo final, sin viaje a la nube.

Nadie llamaba a esas cámaras "AI camera". Eran simplemente "smart camera". La palabra "IA" volvería al marketing de cámaras solo en 2017, cuando los smartphones empezaron a clasificar escenas con redes neuronales convolucionales.

2006: Netflix Prize - 1 millón de dólares por el 10%

En octubre de 2006 Netflix anunció un concurso con un millón de dólares para el equipo que mejorara su recomendador Cinematch en un 10%. Dataset abierto: 100 millones de calificaciones de 480.000 usuarios sobre 17.770 películas. Hasta entonces los sistemas de recomendación eran tema cerrado dentro de cada empresa. El Netflix Prize abrió la puerta de par en par.

El concurso duró casi tres años. Participaron más de 50.000 equipos de 186 países. En 2009 ganó BellKor's Pragmatic Chaos, una alianza de tres equipos que sumaron sus soluciones. Su ensamblado de más de 100 modelos mejoró la precisión un 10,06%.

Netflix nunca implementó la solución ganadora - demasiado compleja para producción. Pero el concurso hizo dos cosas que cambiaron la industria:

  1. Popularizó la factorización matricial (SVD, ALS) como herramienta estándar de recomendación.
  2. Entrenó a una generación de ingenieros para trabajar con matrices grandes y dispersas en hardware estándar.

Tras el Netflix Prize, el filtrado colaborativo entró en cada servicio que conocía algo de tus preferencias. YouTube, Amazon, Spotify, Last.fm, eBay - todos corrían sobre descendientes de las técnicas afinadas en el dataset de Netflix.

Anécdota personal: Last.fm y la magia de "Recommended for you"

Por 2007 instalé Last.fm - un servicio que "scrobbleaba" cada track que reproducía en mi computadora y reproductor. En dos o tres semanas tenía un historial de varios miles de canciones, y apareció una pestaña "Recommended for you".

La abrí - y sentí esa misma sensación inquietante que diez años después descubrirían los usuarios de TikTok. El servicio me recomendaba artistas de los que no había oído pero que eran exactamente mi gusto. No el obvio "si te gusta Radiohead, prueba Coldplay", sino combinaciones extrañas que yo no habría encontrado solo - alguna banda de post-punk letón que resultaba realmente buena.

¿Qué había dentro? Filtrado colaborativo ítem-ítem. Last.fm calculaba para cada artista el conjunto de usuarios que lo escuchaban y comparaba esos conjuntos entre artistas. Si los oyentes de A y los de B se cruzaban mucho, A y B eran "similares", y a quien le encantara A se le recomendaba B. Sin redes neuronales, sin "comprensión" de música. Estadística pura sobre una matriz "usuario × artista".

En 2007 esto ya corría en un producto de consumo. En 2024 el motor de recomendación de TikTok produce exactamente el mismo efecto en los usuarios - pero entre ambos hay diecisiete años de la misma idea base, solo a escala cada vez mayor.

2007: el iPhone y el ML estadístico en el dispositivo

En enero de 2007 Steve Jobs presentó el iPhone. Su autocorrección, el reconocimiento de gestos multitáctiles y el ajuste de brillo a la luz ambiente corrían sobre modelos estadísticos entrenados con datos agregados de usuarios.

La autocorrección del iPhone era un caso particularmente interesante. Dentro había una combinación de:

  • Un modelo de lenguaje de n-gramas (qué pares y tríos de palabras aparecen juntos con más frecuencia),
  • Un modelo de errores (qué teclas suelen golpear los usuarios alrededor de la objetivo),
  • Adaptación personal (si insistes en escribir "thx" - dejar de "corregirlo").

Ninguno de los millones de usuarios de iPhone en 2007 pensaba "tengo IA en el bolsillo". Pero era ML en producción con una audiencia diaria que en tres años superaría los 100 millones de personas.

2009: ImageNet - el dataset que cambió todo

En 2009 la profesora de Stanford Fei-Fei Li publicó ImageNet - un dataset etiquetado de 14 millones de imágenes en 22.000 categorías. Resultado de tres años de trabajo y de un gasto considerable en etiquetado vía Amazon Mechanical Turk.

La tesis de ImageNet era simple y revolucionaria: a la visión por computadora no le faltaban algoritmos, le faltaban datos. La mayoría de los modelos pre-2009 se entrenaban con unos pocos miles de imágenes. ImageNet ofrecía tres órdenes de magnitud más.

Desde 2010 corrió anualmente el ImageNet Large Scale Visual Recognition Challenge (ILSVRC) sobre un subconjunto (1.000 categorías, 1,2 millones de imágenes). En 2010-2011 los ganadores usaban SVM con características diseñadas a mano (SIFT, HOG, Fisher Vectors). El error top-5 se estancó alrededor del 26%.

Conviene tener este telón de fondo, porque en 2012 ocurrirá un evento que partirá la historia de la visión por computadora en dos. De eso va la parte 4.

2011: IBM Watson y Jeopardy!

En febrero de 2011 la supercomputadora IBM Watson venció en Jeopardy! a dos campeones - Brad Rutter (mayor ganador histórico del torneo) y Ken Jennings (74 victorias seguidas). Primera demostración masiva de IA respondiendo preguntas en lenguaje natural - once años antes de ChatGPT.

Por dentro, Watson era un cóctel de:

  • Un parser de preguntas en lenguaje natural (NLP).
  • Búsqueda sobre 200 millones de páginas de texto no estructurado, incluida toda Wikipedia.
  • Cientos de hipótesis paralelas rankeadas con ML.
  • Bases de conocimiento DBpedia y otras estructuradas.

Watson no era una red neuronal. Por dentro corría un ensamble de NLP clásico, recuperación de información y aprendizaje automático. Pero el efecto sobre la audiencia masiva fue arrollador: una máquina entendía la pregunta, buscaba la respuesta, elegía un candidato seguro y pulsaba el botón. Para los espectadores de 2011 se veía exactamente como ChatGPT se veía para los de 2022.

Después IBM intentó monetizar Watson en salud - y fracasó. En 2018 cerraron buena parte de Watson Health. La misma lección que en el primer invierno: una demo brillante ≠ un producto médico que funcione.

Qué llevarse de esta época

Los puntos centrales de la parte 3:

  1. Para 2010, la IA ya alimentaba todos los servicios cotidianos que usabas. Búsqueda, recomendaciones, spam, cámara, navegación, anuncios - todo ML. Solo que se le llamaba "personalización" y "big data".
  2. El Netflix Prize fue el parteaguas para los sistemas de recomendación. Antes: algoritmos corporativos cerrados. Después: una disciplina industrial abierta con técnicas conocidas. Las recomendaciones de YouTube y Spotify de hoy son herederas directas de ese concurso.
  3. ImageNet llegó justo cuando las GPU se volvieron viables. Si el dataset hubiera salido en 2005, habrían entrenado SVM. Si hubiera salido en 2015, habríamos perdido tres años de progreso. La coincidencia de big data, GPU y algoritmos fue lo que detonó la explosión de 2012.
  4. La revolución silenciosa enseña una lección. Las tecnologías más exitosas rara vez llegan etiquetadas como "IA". Cuando un producto funciona bien, se llama simplemente "el producto". Cuando un producto necesita marketing, se le llama "IA". En 2010 Netflix no llamaba IA a sus recomendaciones. En 2024 cada modal con tres botones es "AI-powered".

En la parte 4: 2012 y el big bang del aprendizaje profundo - AlexNet gana ImageNet, word2vec da significado a las palabras, aparecen las GAN, AlphaGo derrota al campeón mundial de go y, a fines de 2017, sale un solo paper que cinco años después será la base técnica de ChatGPT.

Preguntas frecuentes

¿Qué es el filtrado colaborativo y por qué importa?

El filtrado colaborativo es un algoritmo de recomendación basado no en el contenido de los objetos sino en la similitud entre usuarios u objetos. Si las personas a las que les gustaron las mismas películas que a ti calificaron alto la película X, el sistema te recomienda X. La técnica apareció en los 90, pero el Netflix Prize (2006-2009) la convirtió en estándar industrial. Hoy sostiene las recomendaciones de YouTube, Spotify, Amazon y TikTok.

Si ImageNet se publicó en 2009, ¿por qué el aprendizaje profundo solo despegó en 2012?

Hardware y un experimento decisivo. Hasta 2012, todos los participantes del concurso ImageNet usaban SVM con características diseñadas a mano (HOG, SIFT). En 2012 el equipo de Hinton corrió la red convolucional AlexNet en dos GPU de consumo y ganó el concurso por casi 11 puntos porcentuales. Ese fue el momento en que la industria viró fuerte hacia el aprendizaje profundo. ImageNet fue el combustible - AlexNet, la chispa.

¿El Netflix Prize fue realmente importante?

Sí y no. Técnicamente, la solución ganadora (BellKor's Pragmatic Chaos) nunca se desplegó - era demasiado compleja para producción. Pero el concurso hizo dos cosas: popularizó la factorización matricial como herramienta estándar de recomendación, y entrenó a una generación de ingenieros para trabajar con datos dispersos a gran escala. Por esos dos efectos el Netflix Prize reconfiguró toda la industria de los sistemas de recomendación.

¿Qué hubo antes de que Facebook reconociera caras en las fotos?

El algoritmo Viola-Jones (2001) podía detectar rostros - es decir, encontrar que en una foto hay una cara, sin saber de quién. Hacia 2005 venía en casi toda cámara digital (los cuadraditos en los rostros al enfocar). El reconocimiento facial - identificar a una persona específica - se masificó después: Facebook lanzó el etiquetado automático en 2010. Para 2014, DeepFace con redes neuronales alcanzó 97% de precisión - nivel humano.

¿Por qué llaman a este periodo 'la revolución silenciosa'?

Porque no vino con bombo de IA. Entre 2000 y 2012, el aprendizaje automático entró en cada producto de consumo importante: búsqueda, recomendaciones, filtros de spam, traductores, navegación, fotografía. Pero, todavía marcada por el segundo invierno, la industria insistía en llamarlo 'machine learning', 'big data', 'personalización' - cualquier cosa menos IA. Cuando el término volvió a la moda en 2022, muchos usuarios creían sinceramente conocer la tecnología por primera vez - tras haberla usado al menos diez años.

Seguir leyendo

La verdadera historia de la IA, parte 3: recomendaciones, visión y la revolución silenciosa (2000–2012) | INITE AI Blog