Skip to content
Volver al blog
AI Technologies

La verdadera historia de la IA, parte 5: del transformer a ChatGPT (2017–2022) y un caso con GPT-2

ChatGPT no es la llegada de la IA. Es la llegada de la UX sobre una tecnología que llevaba cinco años creciendo: BERT, GPT-1, GPT-2, GPT-3, InstructGPT. Lo sé porque en 2019 monté un copywriter comercial de noticias sobre GPT-2 - tres años y medio antes de que el mundo 'descubriera la IA'.

Mikhail Savchenko2 de mayo de 20268 min de lectura
AIHistoryGPTChatGPTTransformers

De 2017 a 2022 la IA fue del paper 'Attention Is All You Need' a ChatGPT - no por una nueva tecnología, sino por cinco años de escalado y UX. Entre el Transformer y ChatGPT cupieron BERT (2018), GPT-1 (2018), GPT-2 (2019), GPT-3 (2020), InstructGPT (2022) y finalmente ChatGPT (noviembre de 2022). Cada paso aumentó el modelo en uno o dos órdenes de magnitud y sumó un truco nuevo. La arquitectura de 2017 apenas cambió.

Datos clave

  • 2018: BERT (Google) - 340M parámetros; GPT-1 (OpenAI) - 117M parámetros. Primera generación de transformers en lenguaje natural.
  • 2019: GPT-2 (OpenAI) - 1.500M parámetros. OpenAI se negó a publicar los pesos 'por riesgo de uso indebido' - primer episodio sonoro del relato de AI safety.
  • 2020: GPT-3 (OpenAI) - 175.000M parámetros. Escalado x100 respecto a GPT-2 en 18 meses.
  • Enero de 2022: InstructGPT - GPT-3 ajustada por RLHF para seguir instrucciones. Este - no GPT-3 directamente - es el ancestro directo de ChatGPT.
  • 30 de noviembre de 2022: se lanza ChatGPT. 1 millón de usuarios en 5 días, 100 millones en 2 meses - el crecimiento de producto de consumo más rápido de la historia.

El último quinquenio

En la parte anterior nos detuvimos en diciembre de 2017 - la publicación de "Attention Is All You Need". En esta cubrimos los últimos cinco años de la historia de la IA antes de ChatGPT: 2018-2022, los años que convirtieron una arquitectura académica en un producto que sumó 100 millones de usuarios en ocho semanas.

Tesis central de esta parte: ChatGPT no fue un avance tecnológico. Avance de producto sobre una tecnología que ya hacía cuatro años ganaba dinero en startups comerciales. No lo digo desde la teoría - yo mismo gané dinero con esa tecnología en 2019, cuento abajo.

2018: BERT y GPT-1 - dos ramas de una misma familia

En octubre de 2018 Google publicó BERT (Bidirectional Encoder Representations from Transformers) - modelo de 340M parámetros entrenado para rellenar palabras enmascaradas en un texto. BERT era un encoder: miraba toda la oración a la vez y entendía bien el contexto. En 2019 BERT ya corría dentro de la búsqueda de Google, procesando cerca del 10% de todas las consultas.

En junio de 2018 OpenAI lanzó GPT-1 (Generative Pre-trained Transformer) - modelo de 117M parámetros entrenado para predecir la siguiente palabra. GPT era un decoder: generaba texto palabra por palabra. Al salir, GPT-1 era un paper académico interesante, nada más.

Las dos ramas - encoder y decoder - crecieron en paralelo. Hasta 2022 el mainstream industrial estaba del lado de BERT (búsqueda, NLP empresarial, clasificación). Tras ChatGPT todo se invirtió: los modelos solo decoder se volvieron el estándar para todo.

2019: GPT-2 y el relato "demasiado peligroso"

En febrero de 2019 OpenAI anunció GPT-2 - modelo de 1.500M parámetros, 13 veces más grande que GPT-1. Y junto al anuncio hizo una jugada sonora: los pesos completos no se publicarían por seguridad. El modelo, según ellos, podía generar noticias lo suficientemente plausibles como para usarse en desinformación.

La comunidad se dividió. Unos lo llamaron prudencia razonable; otros, jugada de marketing - controversia fabricada para llamar la atención sobre el producto. OpenAI fue liberando versiones cada vez más grandes: 124M en febrero, 355M en mayo, 774M en agosto, y finalmente la completa de 1.500M en noviembre de 2019.

Cuando salió el modelo completo, GPT-2 era usable por cualquiera con un laptop y una GPU decente. Y justo entonces lo probé en un proyecto comercial.

Anécdota personal: un copywriter comercial de noticias sobre GPT-2 (2019)

En 2019 trabajaba en un proyecto para un agregador de noticias. La tarea sonaba simple: tomar feeds crudos de agencias (mercados, deportes, clima, comunicados corporativos) y reescribirlos en notas cortas legibles con la voz del medio.

Hasta entonces ese trabajo lo hacían editores reescritores internos: 5-10 minutos por nota. El medio sacaba unas 200 reescrituras al día, lo que comía aproximadamente tres editores a tiempo completo.

Tomé GPT-2 large (774M parámetros), lo afiné con cinco mil pares "input" (feed crudo) y "output" (reescritura del editor). El fine-tuning tomó unas horas en una sola NVIDIA RTX 2080 Ti. Resultado:

  • Tiempo por nota: 30 segundos (frente a 5-10 minutos).
  • Calidad: en el 70% de las notas el editor aceptaba la salida, en el 25% editaba una o dos frases, en el 5% reescribía desde cero.
  • Costo de infraestructura: 200 USD/mes por un servidor con GPU.
  • Recuperación: un mes.

Esto fue en septiembre de 2019. Tres años y dos meses antes de que ChatGPT "le enseñara al mundo que existen los copywriters de IA". Yo no inventé ningún transformer y no tuve revelaciones arquitectónicas. Tomé un modelo open-source, lo afiné con datos específicos, lo conecté a un pipeline. El NLP de producción más ordinario de 2019.

Y había miles de personas como yo en el mundo. Jasper (entonces Jarvis) se lanzó a inicios de 2021, Copy.ai en 2020, GitHub Copilot en agosto de 2021 - todo eso sobre GPT-3 vía API. Cuando ChatGPT salió en noviembre de 2022, ya había decenas de productos comerciales basados en GPT atendiendo a millones de usuarios.

El gran cambio de ChatGPT estuvo en la accesibilidad, no en la tecnología. Antes había que ser desarrollador para sacarle valor a GPT. Después del 30 de noviembre de 2022 bastaba con abrir un sitio.

2020: GPT-3 y la ley de escalado

En mayo de 2020 OpenAI anunció GPT-3 - modelo de 175.000M parámetros, 117 veces más grande que GPT-2. El principal resultado científico del paper "Language Models are Few-Shot Learners" estaba en la ley de escalado, no en la arquitectura (que apenas cambió): la calidad del modelo crece de forma predecible al aumentar parámetros, datos y cómputo.

GPT-3 también mostró una propiedad inesperada - few-shot learning. El modelo podía resolver tareas nuevas con solo unos pocos ejemplos en el prompt, sin entrenamiento adicional. Filosóficamente esto era novedoso: antes de GPT-3, cada tarea nueva exigía su propio entrenamiento.

En junio de 2020 OpenAI abrió el API de GPT-3. Primero por lista de espera, desde otoño de 2021 a todos. A principios de 2022 pasaban miles de millones de solicitudes al mes desde miles de startups.

Enero de 2022: InstructGPT y la magia del RLHF

En enero de 2022 OpenAI publicó "Training language models to follow instructions with human feedback". El paper describía InstructGPT - GPT-3 ajustada vía RLHF (Reinforcement Learning from Human Feedback) para seguir instrucciones.

Técnicamente el RLHF se ve así:

  1. Preentrenar un modelo base en predicción del siguiente token (ya hecho con GPT-3).
  2. Reunir un dataset: humanos escriben instrucciones y respuestas ejemplares. Afinar con eso.
  3. Para cada prompt, generar varias respuestas candidatas. Pedir a humanos que las rankee de mejor a peor.
  4. Entrenar un modelo de recompensa que prediga esos rankings.
  5. Afinar el modelo principal vía PPO para maximizar la recompensa.

Resultado: una InstructGPT de 1.300M parámetros (100 veces más pequeña que GPT-3) producía respuestas que los humanos preferían a las de GPT-3 (175.000M). No por ser más inteligente. Por haber aprendido a responder a lo que se le preguntaba, en lugar de continuar el texto al estilo de los datos de entrenamiento.

InstructGPT - no GPT-3 directamente - es el ancestro directo de ChatGPT.

30 de noviembre de 2022: ChatGPT y la explosión de producto

El 30 de noviembre de 2022 OpenAI lanzó ChatGPT. Técnicamente era GPT-3.5 (variante de InstructGPT) con interfaz de chat. Ninguna idea arquitectónica nueva. Formato chat en vez de API. Acceso gratuito.

El efecto fue sin precedentes:

  • 5 días para 1 millón de usuarios (Instagram tomó 2,5 meses).
  • 2 meses para 100 millones de usuarios (TikTok tomó 9 meses).

Y desde ese momento, en la conciencia pública, "nació la IA". El 90% de la audiencia masiva se topó con un gran modelo de lenguaje por primera vez vía ChatGPT - y concluyó que la tecnología era nueva.

En realidad, en ese momento:

  • La arquitectura (transformer) se publicó hace 5 años (2017).
  • El modelo base (GPT-3) llevaba 2,5 años disponible vía API (desde 2020).
  • Modelos similares se usaban en productos comerciales desde 2019 (mi caso con GPT-2).
  • BERT procesaba consultas de búsqueda de Google desde 2019.
  • Modelos LSTM generaban textos desde 2015.
  • word2vec corría en NLP de producción desde 2013.

ChatGPT no fue la llegada de la IA. Llegada del UX sobre la IA - el momento en que la tecnología se volvió tan fácil de usar como Google Search.

Qué llevarse de esta época (y de toda la serie)

Los puntos centrales de la parte 5:

  1. ChatGPT fue un avance de producto, no técnico. La tecnología estaba lista en 2020. Faltaba solo la interfaz cómoda. Cuando apareció, ocurrió la explosión.
  2. Todas las piezas importantes de la IA actual son anteriores a 2022. Transformer - 2017. GPT - 2018. Escalado - 2020. RLHF - 2022. Envoltura UX - fines de 2022. Veinte años de trabajo se convirtieron en "magia" que la audiencia masiva vio por primera vez.
  3. El negocio sobre grandes modelos funcionaba al menos tres años antes de ChatGPT. Yo lancé sobre GPT-2 en 2019. Miles de startups lanzaron sobre GPT-3 en 2020-2022. ChatGPT no abrió la IA comercial. La hizo visible.

Y lo más importante - la tesis de toda la serie:

  1. La historia de la IA no comienza en noviembre de 2022. Comienza en 1943, atraviesa dos inviernos, quince años de trabajo invisible en el correo y los buscadores, el big bang de 2012 - y llega a ChatGPT como un paso más en la línea, no como culminación. La línea no se romperá. En diez años la IA actual parecerá tan simple como hoy parece Last.fm de 2007.

Quien entienda esta historia entiende un poco mejor el futuro. Porque el próximo "big bang" ya está sucediendo - en silencio, bajo otro nombre, en la infraestructura, antes de que el marketing le encuentre la palabra correcta. Igual que con la visión por computadora en 2005, los sistemas de recomendación en 2007 y los transformers en 2017.

ChatGPT sorprendió a todos. No debería. Si la audiencia masiva hubiera conocido la historia de los últimos ochenta años, ChatGPT se recibiría como un paso rutinario más en la línea, no como un milagro - que es, de hecho, exactamente lo que es.

Gracias por leer la serie.

Preguntas frecuentes

¿Cuál es la diferencia entre BERT y GPT?

BERT (Google, 2018) es un encoder bidireccional: ve toda la oración a la vez y aprende a rellenar palabras enmascaradas. Bueno para entender (búsqueda, clasificación). GPT (OpenAI) es un decoder unidireccional: predice la próxima palabra a partir de las anteriores. Bueno para generar. Hasta 2022 el mainstream industrial estaba con BERT (búsqueda de Google, NLP empresarial), y GPT era la rama académica. ChatGPT lo dio vuelta: los modelos solo decoder se volvieron el nuevo estándar.

¿Qué es RLHF y por qué hizo posible ChatGPT?

RLHF (Reinforcement Learning from Human Feedback) es ajustar un modelo a partir de preferencias humanas. El modelo genera varias respuestas candidatas a un prompt; humanos las rankean de mejor a peor; se entrena un modelo de recompensa con esos rankings; el modelo principal se ajusta vía PPO para maximizar la recompensa. Esta técnica convirtió a GPT-3 (que 'simplemente continuaba el texto') en InstructGPT/ChatGPT (que 'sigue instrucciones y responde de forma útil').

¿Por qué OpenAI demoró la publicación de los pesos de GPT-2 en 2019?

OpenAI dijo que era una decisión de seguridad - el modelo podía generar noticias plausibles, lo que se prestaba a desinformación. Críticos lo leyeron como marketing (controversia fabricada en torno al producto). Nueve meses después OpenAI publicó el modelo completo. Fue el primer caso muy cubierto del relato 'esta IA es demasiado peligrosa para liberar', que se repetiría muchas veces después.

¿En qué se diferenció ChatGPT de lo que existía antes?

Tres cosas. Técnicamente - casi en nada (era GPT-3.5 con RLHF, disponible vía API hacía un año). En producto - una interfaz de chat en vez de una API: cualquiera podía abrir chat.openai.com y hablar con el modelo sin escribir una línea de código. En marketing - OpenAI lo abrió gratis al público masivo, lo que generó una viralidad orgánica enorme. ChatGPT no fue un avance tecnológico. Fue un avance de producto sobre una tecnología existente.

¿Qué uso comercial de GPT existía antes de ChatGPT?

Entre el lanzamiento del API de GPT-3 (junio de 2020) y ChatGPT (noviembre de 2022) pasaron 30 meses, durante los cuales decenas de startups ya lanzaron productos sobre GPT-3. Jasper (antes Jarvis), Copy.ai, Notion AI, GitHub Copilot (agosto de 2021) - todo eso corría sobre la misma tecnología uno o dos años antes de que 'todo el mundo descubriera la IA'. Yo mismo lancé un producto comercial de reescritura de noticias sobre GPT-2 en 2019 - la historia va abajo.

Seguir leyendo

La verdadera historia de la IA, parte 5: del transformer a ChatGPT (2017–2022) y un caso con GPT-2 | INITE AI Blog