La verdadera historia de la IA, parte 2: retropropagación, SVM y el segundo invierno (1980–2000)
En 1986 las redes neuronales recibieron un algoritmo de aprendizaje funcional y la mayoría de la industria no lo notó. Mientras el mundo veía caer a los sistemas expertos, el OCR ya leía tu correo en la oficina postal, y los SVM ganaban en silencio cada benchmark. La historia de la 'IA escondida' entre los dos inviernos.
Entre 1980 y 2000 la IA atravesó su segundo invierno y obtuvo dos herramientas fundacionales: la retropropagación (1986) hizo entrenables las redes neuronales profundas, y las máquinas de vectores de soporte (1995) se volvieron el algoritmo estándar de ML industrial durante una década. A finales de los 90 el OCR neuronal ya leía cerca de la mitad del correo en EE. UU. y Google se lanzaba sobre PageRank - pero nadie llamaba a nada de eso IA.
Datos clave
- 1986: Rumelhart, Hinton y Williams publican la retropropagación en Nature - el algoritmo ya existía, pero esa publicación lo volvió estándar.
- 1989: Yann LeCun aplica su red convolucional LeNet al reconocimiento de dígitos manuscritos para el US Postal Service; a mediados de los 90 el sistema lee cerca del 10% del correo en EE. UU.
- 1995: Corinna Cortes y Vladimir Vapnik publican las Support Vector Machines (SVM) - durante una década serán el algoritmo dominante del ML industrial.
- 1997: Deep Blue de IBM derrota a Garry Kasparov - pero detrás no hay red neuronal. Búsqueda exhaustiva en árbol a 200 millones de posiciones por segundo.
- 1998: Google se lanza con PageRank - álgebra lineal sobre el grafo de la web, pero sus fundadores no lo llaman 'inteligencia artificial'.
Entre dos inviernos
A inicios de los 80, el primer invierno de la IA empezó a deshelarse. No gracias a las redes neuronales - seguían en desgracia tras Minsky y Papert - sino gracias a los sistemas expertos, que de pronto comenzaron a generar dinero. A mediados de la década, el mercado comercial de sistemas expertos superaba los mil millones de dólares anuales. La IA volvía a ser un campo respetable.
Y luego esa misma industria colapsó por segunda vez. Y sobre sus ruinas creció exactamente lo que hoy llamamos IA moderna - en silencio, bajo otros nombres, en oficinas postales, bancos y granjas de servidores de buscadores. Esta es la segunda parte de la serie: los años 80 y 90, la era de la "IA escondida".
1986: el algoritmo que esperaron 20 años
En octubre de 1986, David Rumelhart, Geoffrey Hinton y Ronald Williams publicaron en Nature un artículo corto titulado "Learning representations by back-propagating errors". Describía un algoritmo práctico para entrenar redes neuronales multicapa.
La idea no era nueva - sus ingredientes aparecieron en Bryson y Ho en 1969, en la tesis de Paul Werbos en 1974 y en el trabajo de David Parker en 1985. Pero el artículo de Rumelhart-Hinton-Williams convirtió a la retropropagación en el estándar universal. Desde ese momento, las redes neuronales tuvieron un método operativo para entrenar cualquier número de capas ocultas.
Por dentro, la retropropagación calcula el gradiente de la función de pérdida respecto a cada peso usando la regla de la cadena. Conociendo el gradiente, sabes en qué dirección mover cada peso para reducir el error. Todas las redes neuronales modernas - incluido GPT-5 - se entrenan con alguna variante de este algoritmo.
En 1986 los periodistas escribían sobre sistemas expertos y máquinas Lisp, y el artículo en Nature pasó casi inadvertido. Las redes neuronales seguían siendo cosa de una pequeña comunidad de investigación.
1989: Yann LeCun y el correo postal
En 1989, el científico francés Yann LeCun, en Bell Labs, aplicó una red neuronal convolucional llamada LeNet a una tarea práctica: reconocer dígitos manuscritos en códigos postales para el US Postal Service.
A mediados de los 90, el sistema de LeCun leía cerca del 10% de todo el correo de EE. UU. Poco después, redes similares empezaron a leer importes manuscritos en cheques bancarios en grandes bancos estadounidenses. A inicios de los 2000, el OCR basado en CNN procesaba la mayoría de los cheques manuscritos del país.
Ninguno de los destinatarios pensaba en "inteligencia artificial". La tecnología simplemente funcionaba: tu garabato "12345" se convertía en una ruta postal. Uno de los primeros casos masivos en que una red neuronal se volvió infraestructura - una capa invisible bajo la vida cotidiana.
Finales de los 80: el segundo invierno
Mientras las redes neuronales conquistaban en silencio el correo, el mercado de los sistemas expertos se desmoronaba. Varias razones:
- Las máquinas Lisp - hardware caro y especializado para sistemas expertos - perdieron frente a las estaciones de trabajo Sun más baratas y a las IBM PC.
- Mantener bases de reglas resultó brutalmente costoso. Cada cambio en el dominio implicaba reescribir cientos de reglas.
- Fragilidad: un sistema experto con 5000 reglas funcionaba magníficamente en casos planificados y se desmoronaba ante uno nuevo.
Para 1990, los grandes proveedores de sistemas expertos (Symbolics, Lisp Machines Inc, Intellicorp) habían quebrado o se habían replegado a nichos. DARPA cortó nuevamente la financiación de "investigación en IA". Fue el segundo invierno de la IA, que duró aproximadamente entre 1987 y 1993.
Durante ese invierno, los investigadores de aprendizaje automático evitaron cuidadosamente la palabra "IA". Las propuestas de financiación salían bajo títulos como "reconocimiento de patrones", "aprendizaje estadístico", "data mining". La palabra se había vuelto tóxica.
1995: la revolución silenciosa de la SVM
En 1995, Corinna Cortes y Vladimir Vapnik publicaron el artículo de Support Vector Machines (SVM). La idea es simple: en el espacio de características, encontrar el hiperplano que separa dos clases con el margen máximo. Si las clases no son linealmente separables, aplicar un kernel y resolver el problema en un espacio implícitamente de mayor dimensión.
Frente a las redes neuronales, la SVM tenía:
- Una teoría matemática sólida (minimización del riesgo estructural de Vapnik).
- Convergencia garantizada al óptimo global (las redes neuronales solo a un óptimo local).
- Buen desempeño en datasets pequeños.
- Sin necesidad del frágil ajuste de capas y activaciones.
De 1995 a 2010 aproximadamente, la SVM fue el estándar industrial del ML. Clasificación temática de textos, reconocimiento facial pre-AlexNet, bioinformática, scoring crediticio - todo eso corría sobre SVM. Cuando en 2005 veías "IA" en un producto, casi seguro detrás había una SVM con kernel RBF entrenada con unos pocos miles de ejemplos.
1997: Deep Blue - no es red neuronal, no aprende, gana al campeón mundial
El 11 de mayo de 1997, Deep Blue de IBM venció a Garry Kasparov en un match a seis partidas. Titulares en todo el mundo: "La IA derrota al humano en el ajedrez".
¿Qué había dentro de Deep Blue? No una red neuronal. No aprendizaje automático. Una supercomputadora ajedrecística especializada: 30 nodos IBM RS/6000 más 480 chips VLSI a medida para evaluar posiciones. Arquitectónicamente corría minimax con poda alfa-beta (el mismo algoritmo del ajedrez del ZX Spectrum de la parte 1) pero con una función de evaluación escrita por grandes maestros y la capacidad de procesar 200 millones de posiciones por segundo.
Deep Blue no aprendió nada. Todo su conocimiento ajedrecístico fue programado por humanos. Triunfo de la IA simbólica más fuerza bruta, no del aprendizaje automático. Pero el público no notó la distinción, y la victoria de Deep Blue se convirtió en uno de los momentos de relaciones públicas más potentes de la historia de la IA.
1998: Google y la IA escondida
En septiembre de 1998, Larry Page y Sergey Brin registraron Google. El núcleo era PageRank: cálculo iterativo de la "importancia" de una página como suma ponderada de la importancia de las páginas que enlazan a ella. Matemáticamente, encontrar el autovector principal de una enorme matriz dispersa del grafo de la web.
En sus primeros años Google nunca se posicionó como empresa de IA. Pero en 2004 Gmail ya tenía un filtro bayesiano de spam, en 2008 los algoritmos de ranking incluían decenas de señales entrenadas con clics, y en 2011 Google compraba startups de visión por computadora. La palabra "IA" a inicios de los 2000 era simplemente incómoda - tras el segundo invierno, inversores y periodistas se alejaban de ella.
Es una idea crítica para toda la historia: en 2000, la IA ya corría dentro de prácticamente cada producto que usabas a diario. Solo que nadie la llamaba IA.
Anécdota personal: Dragon NaturallySpeaking 1997
A finales de los 90 yo empezaba a escribir para un periódico regional, y mi editor sugirió instalar Dragon NaturallySpeaking - software de reconocimiento de voz para dictar notas en lugar de teclearlas. La versión de 1997 costaba alrededor de 700 dólares y exigía cerca de una hora de entrenamiento de voz.
Funcionaba así: dictabas al micrófono, el programa producía texto. Se equivocaba a menudo y de modo cómico - mi nombre se convertía con regularidad en algo como "mexicano azúcar negro". Pero con voz limpia y un tema tranquilo lograba unas 100 palabras por minuto con 90% de precisión, unas tres veces más rápido que mi velocidad al teclado.
¿Qué había dentro? Modelos ocultos de Markov (HMM) para la parte acústica y modelos de lenguaje n-grama para las secuencias de palabras. Ni redes neuronales ni aprendizaje profundo. Estadística pura y teoría de probabilidades desarrolladas en los años 60-80. Reconocimiento de voz usado activamente para periodismo desde 1997, y nadie lo llamaba IA. Iba bajo el rótulo de "software de oficina".
Cuando hoy alguien dice que Whisper de OpenAI (2022) es "el primer programa práctico de reconocimiento de voz", recuerdo Dragon. Funcionaba en mi oficina veinticinco años antes que Whisper. Solo más lento, ajustado con cuidado a una sola voz e inútil con acentos. La línea de descendencia: Dragon 1997 → Google Voice 2008 → Siri 2011 → Alexa 2014 → Whisper 2022. La misma clase de tecnología, cuatro generaciones de mejoras.
Qué llevarse de esta época
Los puntos centrales de la parte 2:
- La retropropagación existe desde 1986. Todo lo que ocurrió en aprendizaje profundo en los 2010 fue escalar un algoritmo de 1986 sobre hardware que entonces no existía. No es un principio nuevo - son transistores nuevos.
- De finales de los 80 hasta inicios de los 2010, el ML estándar industrial fue la SVM, no las redes neuronales. Es una corrección importante al relato "el aprendizaje profundo es el aprendizaje automático". La mayor parte de los modelos en producción antes de 2012 corrían sin una sola neurona.
- Hacia el año 2000, la IA ya vivía dentro del correo, los bancos, los buscadores y los filtros de spam - pero, traumatizada por el segundo invierno, nadie lo llamaba "IA". Cuando ChatGPT devolvió el término a la moda en 2022, lo que volvió fue la moda, no la tecnología.
- Los inviernos de la IA interrumpen el financiamiento, no el desarrollo. En ambos inviernos (1974-1980 y 1987-1993) los algoritmos clave siguieron apareciendo: retropropagación, CNN, SVM, PageRank, HMM. Solo que sin titulares.
En la parte 3: los 2000 e inicios de los 2010 - la era de los sistemas de recomendación (Netflix Prize, filtrado colaborativo), detección de rostros en cada cámara (Viola-Jones), la primera generación del Tesla Autopilot y, finalmente, ImageNet 2009, el dataset que tres años después desataría el gran estallido del aprendizaje profundo.
Preguntas frecuentes
¿Qué es la retropropagación y por qué importa?
La retropropagación es el algoritmo que permite entrenar redes neuronales multicapa calculando eficientemente cómo ajustar cada peso para reducir el error. La idea estaba en el aire desde los 60 (Bryson y Ho, luego Werbos en 1974), pero el artículo de Rumelhart-Hinton-Williams de 1986 en Nature la volvió operativa. Sin retropropagación no hay AlexNet en 2012 ni transformers modernos.
¿Por qué llegó el segundo invierno de la IA?
El mercado de los sistemas expertos colapsó a finales de los 80. Las máquinas Lisp eran caras, las bases de reglas estrechas eran costosas de mantener, y cada caso límite nuevo exigía reescribir cientos de reglas. Cuando llegaron las estaciones de trabajo baratas y el software estándar a inicios de los 90, los proveedores especializados de IA quebraron. El segundo invierno duró aproximadamente entre 1987 y 1993 y volvió a recortar el financiamiento estatal.
Si la retropropagación funcionaba desde 1986, ¿por qué AlexNet llegó solo en 2012?
Faltaban dos piezas: cómputo (las GPU con CUDA recién se volvieron viables hacia 2007-2010) y grandes datasets etiquetados (ImageNet se publicó en 2009). LeCun entrenaba LeNet durante semanas en CPU; AlexNet corrió en dos GPU de consumo en 2012. El algoritmo era el mismo. Cambió el hardware.
¿Qué es una máquina de vectores de soporte y por qué dominó los 90 y los 2000?
Una SVM encuentra el hiperplano que separa dos clases con margen máximo en un espacio de alta dimensión. Daba resultados estables en datasets pequeños, tenía una base matemática sólida y no exigía el ajuste fino de hiperparámetros de las redes neuronales. De 1995 a 2010 aproximadamente, la SVM fue el estándar industrial del ML - clasificación de textos, reconocimiento facial pre-AlexNet, bioinformática, scoring crediticio.
¿Era Google en 1998 una empresa de IA?
Legalmente, no - los fundadores la posicionaban como buscador. En sustancia, sí. PageRank es un algoritmo iterativo sobre matrices de adyacencia, justo lo que en 2025 se llama 'graph ML'. El filtro de spam de Gmail (2004) era un clasificador bayesiano. La palabra 'IA' en los primeros 2000 era simplemente incómoda - tras el segundo invierno, inversores y periodistas la rehuían.
Seguir leyendo
La verdadera historia de la IA, parte 1: perceptrón, IA simbólica y el primer invierno (1943–1980)
La IA no nació con ChatGPT. La primera neurona matemática se describió en 1943, un perceptrón funcional ya operaba en 1958, y para 1969 las redes neuronales ya estaban enterradas durante quince años. De dónde viene en realidad la IA moderna.
La verdadera historia de la IA, parte 5: del transformer a ChatGPT (2017–2022) y un caso con GPT-2
ChatGPT no es la llegada de la IA. Es la llegada de la UX sobre una tecnología que llevaba cinco años creciendo: BERT, GPT-1, GPT-2, GPT-3, InstructGPT. Lo sé porque en 2019 monté un copywriter comercial de noticias sobre GPT-2 - tres años y medio antes de que el mundo 'descubriera la IA'.
La verdadera historia de la IA, parte 4: el big bang del aprendizaje profundo (2012–2017)
El 30 de septiembre de 2012, el aprendizaje profundo dejó de ser un nicho académico. AlexNet ganó ImageNet con un margen jamás visto en el concurso. Entre ese día y el paper de diciembre de 2017 'Attention Is All You Need' caben cinco años con casi toda la magia arquitectónica de la IA moderna - de word2vec a AlphaGo y las GAN.