Skip to content
Voltar ao blog
AI Technologies

A verdadeira história da IA, parte 5: do transformer ao ChatGPT (2017–2022) e um caso com GPT-2

ChatGPT não é a chegada da IA. É a chegada da UX sobre uma tecnologia que vinha crescendo havia cinco anos: BERT, GPT-1, GPT-2, GPT-3, InstructGPT. Eu sei porque em 2019 montei um copywriter comercial de notícias sobre o GPT-2 - três anos e meio antes de o mundo 'descobrir a IA'.

Mikhail Savchenko2 de maio de 20268 min de leitura
AIHistoryGPTChatGPTTransformers

De 2017 a 2022 a IA foi do paper 'Attention Is All You Need' ao ChatGPT - não por uma nova tecnologia, mas por cinco anos de escalonamento e UX. Entre o Transformer e o ChatGPT couberam BERT (2018), GPT-1 (2018), GPT-2 (2019), GPT-3 (2020), InstructGPT (2022) e finalmente o ChatGPT (novembro de 2022). Cada passo aumentou o modelo em uma ou duas ordens de grandeza e somou um truque novo. A arquitetura de 2017 quase não mudou.

Fatos-chave

  • 2018: BERT (Google) - 340M de parâmetros; GPT-1 (OpenAI) - 117M de parâmetros. Primeira geração de transformers em linguagem natural.
  • 2019: GPT-2 (OpenAI) - 1,5 bilhão de parâmetros. A OpenAI se recusou a publicar os pesos 'por riscos de uso indevido' - primeiro episódio sonoro do discurso de AI safety.
  • 2020: GPT-3 (OpenAI) - 175 bilhões de parâmetros. Escalonamento de 100x em relação ao GPT-2 em 18 meses.
  • Janeiro de 2022: InstructGPT - GPT-3 ajustado via RLHF para seguir instruções. Esse - e não o GPT-3 direto - é o ancestral direto do ChatGPT.
  • 30 de novembro de 2022: o ChatGPT é lançado. 1 milhão de usuários em 5 dias, 100 milhões em 2 meses - o crescimento de produto de consumo mais rápido da história.

O quinquênio final

Na parte anterior paramos em dezembro de 2017 - a publicação de "Attention Is All You Need". Esta cobre os últimos cinco anos da história da IA antes do ChatGPT: 2018-2022, os anos que transformaram uma arquitetura acadêmica em um produto que somou 100 milhões de usuários em oito semanas.

Tese central desta parte: o ChatGPT não foi um avanço tecnológico. Avanço de produto sobre uma tecnologia que já fazia quatro anos ganhava dinheiro em startups comerciais. Não digo isso por teoria - eu mesmo ganhei dinheiro com essa tecnologia em 2019, conto abaixo.

2018: BERT e GPT-1 - dois ramos da mesma família

Em outubro de 2018 o Google publicou o BERT (Bidirectional Encoder Representations from Transformers) - modelo de 340M de parâmetros treinado para preencher palavras mascaradas em um texto. O BERT era um encoder: olhava a frase inteira ao mesmo tempo e era forte em contexto. Em 2019 o BERT já rodava dentro da busca do Google, processando cerca de 10% de todas as consultas.

Em junho de 2018 a OpenAI lançou o GPT-1 (Generative Pre-trained Transformer) - modelo de 117M de parâmetros treinado para prever a próxima palavra. O GPT era um decoder: gerava texto palavra por palavra. No lançamento, o GPT-1 era um paper acadêmico interessante, nada além disso.

Os dois ramos - encoder e decoder - cresceram em paralelo. Até 2022 o mainstream industrial estava do lado do BERT (busca, NLP corporativo, classificação). Depois do ChatGPT tudo se inverteu: modelos só de decoder viraram o padrão para tudo.

2019: GPT-2 e o discurso "perigoso demais"

Em fevereiro de 2019 a OpenAI anunciou o GPT-2 - modelo de 1,5B de parâmetros, 13 vezes maior que o GPT-1. E acompanhou o anúncio de uma jogada barulhenta: os pesos completos não seriam publicados por razões de segurança. O modelo, segundo eles, conseguia gerar notícias plausíveis o suficiente para serem usadas em desinformação.

A comunidade se dividiu. Uns chamaram de cautela razoável; outros, de jogada de marketing - controvérsia fabricada para chamar atenção sobre o produto. A OpenAI foi liberando versões cada vez maiores: 124M em fevereiro, 355M em maio, 774M em agosto, e por fim o completo de 1,5B em novembro de 2019.

Quando saiu o modelo completo, o GPT-2 era usável por qualquer pessoa com um laptop e uma GPU decente. E foi exatamente nesse momento que eu o experimentei em um projeto comercial.

Anedota pessoal: um copywriter comercial de notícias sobre GPT-2 (2019)

Em 2019 eu trabalhava num projeto para um agregador de notícias. A tarefa parecia simples: pegar feeds brutos das agências (mercados, esportes, clima, releases corporativos) e reescrevê-los em notas curtas legíveis na voz do veículo.

Até então esse trabalho era feito por editores reescritores internos: 5-10 minutos por nota. O veículo publicava cerca de 200 reescritas por dia, o que comia mais ou menos três editores em tempo integral.

Peguei o GPT-2 large (774M de parâmetros), afinei-o com cinco mil pares "input" (feed bruto) e "output" (reescrita do editor). O fine-tuning levou algumas horas em uma única NVIDIA RTX 2080 Ti. Resultado:

  • Tempo por nota: 30 segundos (em vez de 5-10 minutos).
  • Qualidade: em 70% das notas o editor aceitava a saída, em 25% editava uma ou duas frases, em 5% reescrevia do zero.
  • Custo de infraestrutura: 200 USD/mês por servidor com GPU.
  • Payback: um mês.

Isso foi em setembro de 2019. Três anos e dois meses antes de o ChatGPT "ensinar ao mundo que existem copywriters de IA". Eu não inventei nenhum transformer e não tive revelações arquitetônicas. Peguei um modelo open-source, afinei com dados específicos, pluguei num pipeline. O NLP de produção mais comum de 2019.

E havia milhares de pessoas como eu no mundo. O Jasper (então Jarvis) saiu no início de 2021, o Copy.ai em 2020, o GitHub Copilot em agosto de 2021 - tudo isso sobre o GPT-3 via API. Quando o ChatGPT saiu em novembro de 2022, já havia dezenas de produtos comerciais baseados em GPT atendendo milhões de usuários.

A grande mudança do ChatGPT não foi na tecnologia. Foi na acessibilidade. Antes era preciso ser desenvolvedor para tirar valor do GPT. Depois de 30 de novembro de 2022, bastava abrir um site.

2020: GPT-3 e a lei de escalonamento

Em maio de 2020 a OpenAI anunciou o GPT-3 - modelo de 175B de parâmetros, 117 vezes maior que o GPT-2. O principal resultado científico do paper "Language Models are Few-Shot Learners" estava na lei de escalonamento, e não na arquitetura (que quase não mudou): a qualidade do modelo cresce de forma previsível ao se aumentar parâmetros, dados e cômputo.

O GPT-3 também mostrou uma propriedade inesperada - few-shot learning. O modelo conseguia resolver tarefas novas vendo apenas alguns exemplos no prompt, sem treinamento adicional. Filosoficamente isso era novo: antes do GPT-3, cada nova tarefa exigia seu próprio treinamento.

Em junho de 2020 a OpenAI abriu o API do GPT-3. Primeiro por lista de espera, do outono de 2021 em diante para todos. No início de 2022 passavam bilhões de requisições por mês de milhares de startups.

Janeiro de 2022: InstructGPT e a mágica do RLHF

Em janeiro de 2022 a OpenAI publicou "Training language models to follow instructions with human feedback". O paper descrevia o InstructGPT - GPT-3 ajustado via RLHF (Reinforcement Learning from Human Feedback) para seguir instruções.

Tecnicamente o RLHF se parece com isto:

  1. Pré-treinar um modelo base na previsão do próximo token (já feito com o GPT-3).
  2. Coletar um dataset: humanos escrevem instruções e respostas exemplares. Afinar com isso.
  3. Para cada prompt, gerar várias respostas candidatas. Pedir que humanos as ranqueiem de melhor a pior.
  4. Treinar um modelo de recompensa que preveja esses rankings.
  5. Afinar o modelo principal via PPO para maximizar a recompensa.

Resultado: um InstructGPT de 1,3B de parâmetros (100 vezes menor que o GPT-3) produzia respostas que humanos preferiam às do GPT-3 (175B). Não por ter ficado mais inteligente. Por ter aprendido a responder ao que foi de fato perguntado, em vez de continuar o texto no estilo dos dados de treinamento.

O InstructGPT - e não o GPT-3 diretamente - é o ancestral direto do ChatGPT.

30 de novembro de 2022: ChatGPT e a explosão de produto

Em 30 de novembro de 2022 a OpenAI lançou o ChatGPT. Tecnicamente era o GPT-3.5 (variante do InstructGPT) com interface de chat. Nenhuma ideia arquitetônica nova. Formato chat em vez de API. Acesso gratuito.

O efeito foi sem precedentes:

  • 5 dias para 1 milhão de usuários (Instagram levou 2,5 meses).
  • 2 meses para 100 milhões de usuários (TikTok levou 9 meses).

E desde esse momento, na consciência pública, "nasceu a IA". 90% da audiência de massa se deparou com um grande modelo de linguagem pela primeira vez via ChatGPT - e concluiu que a tecnologia era nova.

Na realidade, naquele momento:

  • A arquitetura (transformer) tinha sido publicada 5 anos antes (2017).
  • O modelo base (GPT-3) estava disponível via API havia 2,5 anos (desde 2020).
  • Modelos parecidos eram usados em produtos comerciais desde 2019 (meu caso com GPT-2).
  • O BERT processava consultas de busca do Google desde 2019.
  • Modelos LSTM geravam textos desde 2015.
  • O word2vec rodava em NLP de produção desde 2013.

ChatGPT não foi a chegada da IA. Chegada da UX sobre a IA - o momento em que a tecnologia se tornou tão fácil de usar quanto o Google Search.

O que levar dessa época (e de toda a série)

Os pontos centrais da parte 5:

  1. O ChatGPT foi um avanço de produto, não técnico. A tecnologia estava pronta em 2020. Faltava apenas a interface confortável. Quando ela apareceu, veio a explosão.
  2. Todas as peças importantes da IA atual são anteriores a 2022. Transformer - 2017. GPT - 2018. Escalonamento - 2020. RLHF - 2022. Embalagem UX - fim de 2022. Vinte anos de trabalho viraram "mágica" que a audiência de massa viu pela primeira vez.
  3. O negócio sobre grandes modelos funcionava pelo menos três anos antes do ChatGPT. Eu lancei sobre o GPT-2 em 2019. Milhares de startups lançaram sobre o GPT-3 em 2020-2022. O ChatGPT não abriu a IA comercial. Tornou-a visível.

E o mais importante - a tese de toda a série:

  1. A história da IA não começa em novembro de 2022. Começa em 1943, atravessa dois invernos, quinze anos de trabalho invisível nos correios e nos buscadores, o big bang de 2012 - e chega ao ChatGPT como mais um passo na linha, e não como ápice. A linha não vai se romper. Em dez anos, a IA atual vai parecer tão simples quanto o Last.fm de 2007 parece hoje.

Quem entende essa história entende um pouco melhor o futuro. Porque o próximo "big bang" já está acontecendo - em silêncio, sob outro nome, na infraestrutura, antes de o marketing achar a palavra certa para ele. Exatamente como com a visão computacional em 2005, com os sistemas de recomendação em 2007 e com os transformers em 2017.

O ChatGPT surpreendeu a todos. Não deveria. Se a audiência de massa conhecesse a história dos últimos oitenta anos, o ChatGPT seria recebido como mais um passo rotineiro na linha, e não como milagre - que é, de fato, exatamente o que ele é.

Obrigado por acompanhar a série.

Perguntas frequentes

Qual a diferença entre BERT e GPT?

BERT (Google, 2018) é um encoder bidirecional: olha a frase inteira de uma vez e aprende a preencher palavras mascaradas. Bom para entender (busca, classificação). GPT (OpenAI) é um decoder unidirecional: prevê a próxima palavra a partir das anteriores. Bom para gerar. Até 2022 o mainstream industrial estava com BERT (busca do Google, NLP corporativo) e o GPT era o ramo acadêmico. O ChatGPT virou tudo: modelos só de decoder viraram o novo padrão.

O que é RLHF e por que tornou o ChatGPT possível?

RLHF (Reinforcement Learning from Human Feedback) é ajustar um modelo a partir de preferências humanas. O modelo gera várias respostas candidatas a um prompt; humanos as ranqueiam de melhor a pior; treina-se um modelo de recompensa com esses rankings; o modelo principal é ajustado via PPO para maximizar a recompensa. Essa técnica transformou o GPT-3 (que 'apenas continuava o texto') em InstructGPT/ChatGPT (que 'segue instruções e responde de forma útil').

Por que a OpenAI atrasou a publicação dos pesos do GPT-2 em 2019?

A OpenAI disse que era uma decisão de segurança - o modelo conseguia gerar notícias plausíveis, o que poderia ser usado para desinformação. Críticos leram como marketing (controvérsia fabricada em torno do produto). Nove meses depois, a OpenAI lançou o modelo completo. Foi o primeiro caso amplamente coberto do discurso 'esta IA é perigosa demais para ser liberada', que se repetiria muitas vezes depois.

O que tornou o ChatGPT diferente do que existia antes?

Três coisas. Tecnicamente - quase nada (era o GPT-3.5 com RLHF, disponível via API havia um ano). Em produto - uma interface de chat em vez de uma API: qualquer pessoa podia abrir chat.openai.com e conversar com o modelo sem escrever uma linha de código. Em marketing - a OpenAI o abriu de graça ao público de massa, o que gerou viralidade orgânica enorme. O ChatGPT não foi um avanço tecnológico. Foi um avanço de produto sobre uma tecnologia já existente.

Que uso comercial de GPT existia antes do ChatGPT?

Entre o lançamento do API do GPT-3 (junho de 2020) e o ChatGPT (novembro de 2022) passaram-se 30 meses, durante os quais dezenas de startups já lançavam produtos sobre o GPT-3. Jasper (antes Jarvis), Copy.ai, Notion AI, GitHub Copilot (agosto de 2021) - tudo isso rodava na mesma tecnologia um ou dois anos antes de 'todo mundo descobrir a IA'. Eu mesmo lancei um produto comercial de reescrita de notícias sobre o GPT-2 em 2019 - a história vai abaixo.

Continue lendo

A verdadeira história da IA, parte 5: do transformer ao ChatGPT (2017–2022) e um caso com GPT-2 | INITE AI Blog