Skip to content
Volver al blog
AI Technologies

La verdadera historia de la IA, parte 4: el big bang del aprendizaje profundo (2012–2017)

El 30 de septiembre de 2012, el aprendizaje profundo dejó de ser un nicho académico. AlexNet ganó ImageNet con un margen jamás visto en el concurso. Entre ese día y el paper de diciembre de 2017 'Attention Is All You Need' caben cinco años con casi toda la magia arquitectónica de la IA moderna - de word2vec a AlphaGo y las GAN.

Mikhail Savchenko1 de mayo de 20268 min de lectura
AIHistoryDeep LearningAlexNetTransformers

De 2012 a 2017 ocurrió la mayor explosión técnica de la IA en medio siglo: AlexNet (2012) desató la carrera de arquitecturas neuronales, word2vec (2013) dio significado numérico a las palabras, las GAN (2014) enseñaron a las redes a generar imágenes, AlphaGo (2016) venció al campeón mundial de go y en diciembre de 2017 apareció 'Attention Is All You Need', que describió el transformer. Cinco años después, sobre esa arquitectura correría ChatGPT.

Datos clave

  • 2012: AlexNet ganó ImageNet con un error top-5 del 15,3% frente al 26,2% del segundo - un margen que el concurso jamás había visto.
  • 2014: el paper de Ian Goodfellow sobre Generative Adversarial Networks (GAN) - la tecnología sobre la que crecieron todos los generadores de imágenes posteriores.
  • 2015: ResNet de Microsoft Research superó el nivel humano en ImageNet (3,57% de error top-5 frente a ~5% de los humanos).
  • 2016: AlphaGo de DeepMind venció a Lee Sedol 4-1 en go - juego que se consideraba inalcanzable para la IA por al menos una década más.
  • 2017: 'Attention Is All You Need' (Vaswani et al., Google) presentó la arquitectura Transformer - base de todos los LLM posteriores, incluidos GPT, Claude y Gemini.

La fecha tras la cual todo cambió

30 de septiembre de 2012: una fecha que conviene recordar. Ese día se publicaron los resultados de ImageNet 2012. La red convolucional AlexNet de Alex Krizhevsky, Ilya Sutskever y Geoffrey Hinton ganó con un error top-5 del 15,3% frente al 26,2% del segundo.

Una brecha de 10,9 puntos porcentuales en un concurso donde las mejoras anuales se medían en décimas era un evento de otra categoría. En meses, casi todos los investigadores de visión por computadora migraron de SVM a redes neuronales. En dos años, cada startup serio tenía data scientists reentrenándose en aprendizaje profundo. Comenzaba el big bang.

Esta es la cuarta parte de la historia de la IA - los cinco años que contienen casi todas las ideas arquitectónicas de la IA moderna.

2012: AlexNet, cinco días, dos GPU

¿Qué había dentro de AlexNet que lo hacía tan potente? Técnicamente, tres decisiones de ingeniería:

  1. Profundidad: 8 capas (5 convolucionales + 3 totalmente conectadas) - tres veces más profunda que LeNet de 1989.
  2. Entrenamiento en GPU: toda la red se entrenó en dos NVIDIA GTX 580 de consumo (tarjetas gráficas de juegos) durante unos cinco días. Primera utilización masiva de hardware gamer para una gran tarea de ML.
  3. Regularización: activaciones ReLU en vez de sigmoides (convergencia seis veces más rápida), dropout (apagar neuronas al azar en cada paso para evitar el sobreajuste), aumento de datos (recortes, espejados, desplazamientos de color).

Ninguna de estas ideas era nueva por sí sola. ReLU se discutía desde los 2000. Dropout era idea de Hinton de 2012. Las CNN existían desde 1989. Lo nuevo era la combinación más GPU más ImageNet. La magia de 2012 fue ingeniería, no matemática.

2013: word2vec - significado a partir de la estadística

En 2013 Tomáš Mikolov y colegas en Google publicaron word2vec - técnica para convertir palabras en vectores numéricos densos. La idea era sorprendentemente simple: entrenar una red neuronal poco profunda para predecir las palabras vecinas en un texto. Las representaciones internas (embeddings) tenían propiedades notables:

  • vector('king') − vector('man') + vector('woman') ≈ vector('queen')
  • vector('Paris') − vector('France') + vector('Italy') ≈ vector('Rome')

Una red neuronal a la que nunca se le había enseñado explícitamente semántica había absorbido algo parecido al significado a partir de pura estadística de co-ocurrencia de palabras. Esa idea - el significado es distribución entre contextos - se volvió el fundamento de todos los modelos de lenguaje posteriores. GPT, BERT, Claude - todos corren sobre embeddings cuyo linaje remonta a word2vec.

2014: las GAN - redes que juegan entre sí

En 2014 el estudiante Ian Goodfellow propuso las Generative Adversarial Networks (GAN). La idea le surgió en una discusión nocturna en un bar de Montreal y la probó en código esa misma noche.

Arquitectura GAN: dos redes juegan un juego. El generador recibe ruido aleatorio en la entrada e intenta producir un objeto plausible (un rostro, por ejemplo). El discriminador recibe datos reales o falsificaciones del generador e intenta diferenciarlos. Ambas se entrenan a la vez: el generador aprende a engañar; el discriminador, a no dejarse engañar. Con el tiempo el generador produce muestras cada vez más realistas.

Para 2018, StyleGAN de NVIDIA generaba rostros fotorrealistas de personas que no existen (recordemos thispersondoesnotexist.com). En 2019 aparecieron los primeros deepfakes en video. Hasta que los modelos de difusión tomaron el relevo en 2020-2022, las GAN fueron la tecnología dominante de la IA generativa.

2015: ResNet - una red más profunda que el cerebro

En diciembre de 2015 el equipo de Microsoft Research (He Kaiming y otros) publicó ResNet - arquitectura con 152 capas. El truco clave: las conexiones residuales, que permiten al gradiente "atravesar" las capas sin desvanecerse.

Resultado: 3,57% de error top-5 en ImageNet. Para comparar, los humanos en la misma tarea cometen alrededor de 5% de errores. Momento en que una red neuronal superó por primera vez a los humanos en un benchmark significativo de visión por computadora.

Para 2016, ResNet era el backbone estándar para toda tarea de visión: detección de objetos, segmentación, reconocimiento facial. Las conexiones residuales luego pasarían al transformer de 2017 y a los LLM.

2016: AlphaGo y el juego que las máquinas "no podían" ganar

El go se consideró durante mucho tiempo inalcanzable para la IA. En ajedrez hay unas 30 jugadas razonables en promedio; en go, unas 200. La ramificación del árbol de jugadas de go da más de 10^170 posiciones posibles - más que átomos en el universo observable. La fuerza bruta que funcionaba en ajedrez no escalaba a go con ninguna técnica de los 90 ni los 2000.

En marzo de 2016 AlphaGo de DeepMind (compañía de Google) venció al profesional surcoreano Lee Sedol 4-1 en un match a cinco partidas. Por dentro tenía tres ingredientes:

  • Una red convolucional que evaluaba la posición (value network).
  • Una red convolucional que proponía la siguiente jugada (policy network).
  • Búsqueda Monte Carlo en árbol (MCTS) guiada por ambas redes.

Las redes se entrenaron primero con partidas humanas, luego jugando contra sí mismas millones de veces. En la segunda partida AlphaGo realizó la jugada 37, que los comentaristas llamaron "una jugada que ningún humano haría". Quedó como el momento en que se hizo evidente que la máquina juega de modo distinto al nuestro. Un año después, AlphaGo Zero aprendió go desde cero, sin una sola partida humana, y venció al AlphaGo original 100-0.

Anécdota personal: ver AlphaGo en vivo

Recuerdo la noche del 9 de marzo de 2016. La primera partida Lee Sedol - AlphaGo, yo veía el stream (con traducción del comentario) cerca de las dos de la mañana. Estaba seguro de que Sedol ganaría - así pensaba prácticamente todo experto. AlphaGo ganó la primera. Luego la segunda. En la segunda el interés deportivo ya había pasado a segundo plano; veía con la creciente sensación de que algo histórico estaba pasando en vivo, ante mí.

Un par de días después intenté jugar contra motores estilo AlphaGo en línea (DeepMind no abrió acceso, pero pronto aparecieron modelos similares de pesos abiertos). Soy aficionado, quizá 12-kyu, pero incluso a ese nivel la diferencia era clara: la máquina no jugaba como humano. Ni mejor ni peor - distinto. Hacía jugadas que la literatura del go llamaba raras o débiles desde hacía siglos, y funcionaban.

Por primera vez vi a una IA descubrir en vez de imitar. Seis años después, los programadores tendrían la misma sensación viendo a Copilot escribir un fragmento de código no trivial. Ocho años después, los científicos usando AlphaFold para predecir estructuras de proteínas. La línea es la misma.

Diciembre de 2017: el paper que lo cambió todo

El 12 de junio de 2017 ocho investigadores de Google Brain publicaron un preprint, y en diciembre el paper apareció en NeurIPS. Título: "Attention Is All You Need". Describía una nueva arquitectura para traducción automática: el Transformer.

La idea del transformer: descartar las conexiones recurrentes (RNN/LSTM), que se entrenaban penosamente paso a paso. En su lugar, usar el mecanismo de atención - cada palabra en una oración mira a todas las demás y decide cuán relevantes son para su propio contexto. Esto da dos ventajas:

  • Paralelismo: el transformer se entrena sobre toda la secuencia a la vez, no palabra por palabra.
  • Dependencias largas: una palabra puede "mirar" directamente a cualquier otra palabra del texto, en vez de pasar información por una cadena de pasos.

El paper de 2017 hablaba de traducción automática. Ninguno de sus autores predijo entonces que cinco años después esa arquitectura sostendría ChatGPT, Claude, Gemini y casi todos los grandes LLM del mundo. Al año siguiente Google publicaría BERT, y OpenAI GPT-1. La carrera había comenzado.

Qué llevarse de esta época

Los puntos centrales de la parte 4:

  1. El big bang de 2012 fue un evento de ingeniería, no de matemática. AlexNet combinó ideas de los 80-2000 (CNN, ReLU, dropout) con GPU de los 2010 y un dataset de 2009. Cuando dicen "el aprendizaje profundo se inventó en 2012", se refieren al punto de explosión, no al de invención.
  2. Toda arquitectura sobre la que corre la IA actual fue inventada en esta ventana de cinco años. AlexNet (CNN, 2012), word2vec (embeddings, 2013), GAN (redes generativas, 2014), seq2seq + attention (2014-2015), ResNet (2015), Transformer (2017). Todo lo que hoy se llama "IA" es una variación de estas arquitecturas.
  3. AlphaGo demostró que la IA puede descubrir. Antes de 2016 la suposición era "la IA solo puede repetir lo que está en los datos". AlphaGo, jugando contra sí mismo y hallando jugadas que nadie había jugado en 4000 años de historia del go, enterró esa suposición.
  4. El Transformer de 2017 es un raro caso de arquitectura que funcionó de inmediato y siguió siendo dominante. En nueve años (2017-2026) se propusieron decenas de alternativas (Mamba, RWKV, S4, RetNet, etc.). Todos los modelos importantes del mundo en 2026 siguen siendo transformers. Es el consenso arquitectónico más largo en la historia del ML.

En la parte 5: los últimos cinco años - BERT y GPT, el escalado a GPT-3, InstructGPT, ChatGPT y mi propia historia: cómo en 2019 monté un copywriter comercial de noticias sobre GPT-2, tres años y medio antes de que el mundo "descubriera la IA".

Preguntas frecuentes

¿Qué hizo distinto a AlexNet de los participantes anteriores de ImageNet?

Tres cosas. Primero, era una red convolucional profunda (8 capas), no un SVM con características diseñadas a mano. Segundo, se entrenaba en dos GPU de consumo NVIDIA GTX 580 - primer uso exitoso de hardware gamer en una gran tarea de ML. Tercero, usaba ReLU (en vez de sigmoides), dropout (contra el sobreajuste) y aumento de datos - tres trucos de ingeniería que se volvieron estándar.

¿Qué es word2vec y por qué importa?

word2vec, presentado por Tomáš Mikolov en Google en 2013, es una técnica que convierte palabras en vectores numéricos densos (a menudo de 300 dimensiones) donde las operaciones geométricas tienen sentido semántico: vector('king') - vector('man') + vector('woman') ≈ vector('queen'). Fue el primer caso masivo de una red neuronal aprendiendo algo parecido al significado a partir de pura estadística de co-ocurrencia. Todo el procesamiento de lenguaje natural posterior se apoya en esa idea.

¿Qué es una GAN y dónde se usa?

Una Generative Adversarial Network, propuesta por Ian Goodfellow en 2014, enfrenta dos redes. El generador intenta producir datos plausibles (rostros, por ejemplo); el discriminador trata de distinguir real de falso. Se entrenan juntas y la calidad de los generados sube. Las GAN impulsaron StyleGAN (rostros fotorrealistas), CycleGAN (transferencia de estilo), los primeros deepfakes en video y la mayor parte de la IA generativa hasta que los modelos de difusión tomaron el relevo en 2020-2022.

¿Por qué AlphaGo fue tan importante?

Antes de AlphaGo, ninguna computadora podía vencer a un profesional de go - juego con unas 10^170 posiciones posibles (más que átomos en el universo observable). Los métodos que funcionaban en ajedrez (minimax + alfa-beta) no escalaban a go. AlphaGo combinó aprendizaje profundo (dos redes - de valor y de política) con búsqueda Monte Carlo en árbol y autojuego. En marzo de 2016 venció a Lee Sedol 4-1, algo considerado inalcanzable por al menos una década.

Si el Transformer apareció en 2017, ¿por qué ChatGPT salió solo en 2022?

Cinco años de ingeniería entre paper y producto. En 2018 llegaron BERT (Google) y GPT-1 (OpenAI). En 2019-2020, GPT-2 y GPT-3, que mostraron que la escala generaba propiedades cualitativamente nuevas. En 2022 OpenAI sumó instruction tuning y RLHF sobre GPT-3.5 y empaquetó el resultado en una interfaz de chat - eso fue ChatGPT. La arquitectura de 2017 no cambió radicalmente. Cambió la escala de entrenamiento y el ajuste fino del comportamiento.

Seguir leyendo

La verdadera historia de la IA, parte 4: el big bang del aprendizaje profundo (2012–2017) | INITE AI Blog