Skip to content
Voltar ao blog
AI Technologies

A verdadeira história da IA, parte 4: o big bang do aprendizado profundo (2012–2017)

Em 30 de setembro de 2012, o aprendizado profundo deixou de ser nicho acadêmico. O AlexNet venceu o ImageNet por uma margem que o concurso jamais tinha visto. Entre esse dia e o paper de dezembro de 2017 'Attention Is All You Need' cabem cinco anos com quase toda a mágica arquitetônica da IA moderna - de word2vec a AlphaGo e GANs.

Mikhail Savchenko1 de maio de 20268 min de leitura
AIHistoryDeep LearningAlexNetTransformers

De 2012 a 2017 ocorreu a maior explosão técnica da IA em meio século: o AlexNet (2012) deflagrou a corrida das arquiteturas neurais, o word2vec (2013) deu sentido numérico às palavras, as GANs (2014) ensinaram redes a gerar imagens, o AlphaGo (2016) venceu o campeão mundial de Go, e em dezembro de 2017 saiu o 'Attention Is All You Need', que descreveu o Transformer. Cinco anos depois, sobre essa arquitetura rodaria o ChatGPT.

Fatos-chave

  • 2012: o AlexNet venceu o ImageNet com erro top-5 de 15,3% contra 26,2% do segundo - margem que o concurso nunca tinha visto.
  • 2014: o paper de Ian Goodfellow sobre Generative Adversarial Networks (GAN) - tecnologia sobre a qual cresceram todos os geradores de imagens posteriores.
  • 2015: o ResNet da Microsoft Research superou o nível humano no ImageNet (3,57% de erro top-5 contra ~5% dos humanos).
  • 2016: o AlphaGo do DeepMind venceu Lee Sedol por 4 a 1 no Go - jogo considerado inalcançável para IA por pelo menos mais uma década.
  • 2017: 'Attention Is All You Need' (Vaswani et al., Google) apresentou a arquitetura Transformer - base de todos os LLMs subsequentes, incluindo GPT, Claude e Gemini.

A data depois da qual tudo mudou

30 de setembro de 2012: uma data que vale a pena guardar. Naquele dia foram publicados os resultados do ImageNet 2012. A rede convolucional AlexNet, de Alex Krizhevsky, Ilya Sutskever e Geoffrey Hinton, venceu com erro top-5 de 15,3% contra 26,2% do segundo lugar.

Uma diferença de 10,9 pontos percentuais num concurso onde as melhorias anuais se mediam em décimos de ponto era um evento de outra categoria. Em meses, quase todos os pesquisadores de visão computacional migraram de SVM para redes neurais. Em dois anos, toda startup séria tinha cientistas de dados se requalificando em aprendizado profundo. Começava o big bang.

Esta é a quarta parte da história da IA - os cinco anos que contêm quase todas as ideias arquitetônicas da IA moderna.

2012: AlexNet, cinco dias, duas GPUs

O que havia dentro do AlexNet que o tornou tão potente? Tecnicamente, três decisões de engenharia:

  1. Profundidade: 8 camadas (5 convolucionais + 3 totalmente conectadas) - três vezes mais profunda que a LeNet de 1989.
  2. Treinamento em GPU: toda a rede foi treinada em duas NVIDIA GTX 580 de consumo (placas gráficas para jogos) por cerca de cinco dias. Primeiro uso massivo de hardware de jogos para uma grande tarefa de ML.
  3. Regularização: ativações ReLU em vez de sigmoides (convergência seis vezes mais rápida), dropout (desligar neurônios aleatórios a cada passo para evitar overfitting), data augmentation (recortes, espelhamentos, deslocamentos de cor).

Nenhuma dessas ideias era nova por si só. ReLU era discutida desde os anos 2000. O dropout era ideia de Hinton em 2012. CNNs existiam desde 1989. O novo era a combinação somada a GPUs e ao ImageNet. A mágica de 2012 foi engenharia, não matemática.

2013: word2vec - significado a partir da estatística

Em 2013 Tomáš Mikolov e colegas no Google publicaram o word2vec - técnica para converter palavras em vetores numéricos densos. A ideia era surpreendentemente simples: treinar uma rede neural rasa para prever as palavras vizinhas em um texto. As representações internas (embeddings) tinham propriedades notáveis:

  • vector('king') − vector('man') + vector('woman') ≈ vector('queen')
  • vector('Paris') − vector('France') + vector('Italy') ≈ vector('Rome')

Uma rede neural à qual nunca se ensinou explicitamente semântica havia absorvido algo parecido com significado a partir da pura estatística de co-ocorrência de palavras. Essa ideia - significado é distribuição entre contextos - virou o alicerce de todos os modelos de linguagem posteriores. GPT, BERT, Claude - todos rodam sobre embeddings cuja linhagem remonta ao word2vec.

2014: GANs - redes que jogam uma contra a outra

Em 2014 o estudante Ian Goodfellow propôs as Generative Adversarial Networks (GANs). A ideia surgiu numa discussão noturna em um bar de Montreal e foi testada em código naquela mesma noite.

Arquitetura GAN: duas redes jogam um jogo. O gerador recebe ruído aleatório na entrada e tenta produzir um objeto plausível (um rosto, por exemplo). O discriminador recebe ou dados reais ou falsificações do gerador e tenta distinguir entre os dois. Ambas treinam ao mesmo tempo: o gerador aprende a enganar; o discriminador, a não se deixar enganar. Com o tempo o gerador produz amostras cada vez mais realistas.

Em 2018, o StyleGAN da NVIDIA gerava rostos fotorrealistas de pessoas que não existem (lembre-se do thispersondoesnotexist.com). Em 2019 surgiram os primeiros deepfakes em vídeo. Até os modelos de difusão assumirem em 2020-2022, as GANs foram a tecnologia dominante de IA generativa.

2015: ResNet - uma rede mais profunda que o cérebro

Em dezembro de 2015 a equipe da Microsoft Research (He Kaiming et al.) publicou o ResNet - arquitetura com 152 camadas. O truque-chave: as conexões residuais, que permitem ao gradiente "atravessar" as camadas sem desvanecer.

Resultado: 3,57% de erro top-5 no ImageNet. Para comparar, humanos na mesma tarefa cometem cerca de 5% de erros. Momento em que uma rede neural superou pela primeira vez os humanos em um benchmark significativo de visão computacional.

Em 2016 o ResNet era o backbone padrão para toda tarefa de visão computacional - detecção de objetos, segmentação, reconhecimento facial. As conexões residuais depois passariam para o transformer de 2017 e para os LLMs.

2016: AlphaGo e o jogo que máquinas "não podiam" vencer

O Go foi por muito tempo considerado inalcançável para IA. No xadrez há cerca de 30 jogadas razoáveis em média; no Go, cerca de 200. A ramificação da árvore de jogadas no Go dá mais de 10^170 posições possíveis - mais que átomos no universo observável. A força bruta que funcionava no xadrez não escalava para o Go com nenhuma técnica dos anos 1990 ou 2000.

Em março de 2016 o AlphaGo do DeepMind (empresa do Google) venceu o profissional sul-coreano Lee Sedol por 4 a 1 num match de cinco partidas. Por dentro tinha três ingredientes:

  • Uma rede convolucional avaliando a posição (value network).
  • Uma rede convolucional propondo a próxima jogada (policy network).
  • Monte Carlo Tree Search (MCTS) guiada pelas duas redes.

As redes foram treinadas primeiro em partidas humanas, depois jogando contra si mesmas milhões de vezes. Na segunda partida o AlphaGo fez a jogada 37, que os comentaristas chamaram de "uma jogada que nenhum humano faria". Tornou-se o instante famoso em que ficou claro que a máquina joga de modo diferente do nosso. Um ano depois, o AlphaGo Zero aprendeu Go do zero, sem uma única partida humana, e venceu o AlphaGo original por 100 a 0.

Anedota pessoal: assistir o AlphaGo ao vivo

Lembro da noite de 9 de março de 2016. A primeira partida Lee Sedol - AlphaGo, eu via a transmissão (com tradução do comentário) por volta das duas da manhã. Tinha certeza que Sedol venceria - era o que pensavam praticamente todos os especialistas. O AlphaGo venceu a primeira partida. Depois a segunda. Na segunda o interesse esportivo já tinha ficado em segundo plano; eu assistia com a sensação crescente de que algo histórico estava acontecendo ao vivo, na minha frente.

Alguns dias depois tentei jogar contra motores estilo AlphaGo online (o DeepMind não abriu acesso, mas modelos similares de pesos abertos apareceram rapidamente). Sou amador, talvez 12-kyu, mas mesmo nesse nível a diferença era nítida: a máquina não jogava como humano. Nem melhor nem pior - diferente. Fazia jogadas que a literatura do Go chamava de estranhas ou fracas há séculos, e funcionavam.

Pela primeira vez vi a IA descobrir em vez de imitar. Seis anos depois, programadores teriam a mesma sensação ao ver o Copilot escrever um trecho de código não trivial. Oito anos depois, cientistas usando o AlphaFold para prever estruturas de proteínas. A linha é a mesma.

Dezembro de 2017: o paper que mudou tudo

Em 12 de junho de 2017 oito pesquisadores do Google Brain postaram um preprint, e em dezembro o paper saiu na NeurIPS. Título: "Attention Is All You Need". Descrevia uma nova arquitetura para tradução automática: o Transformer.

A ideia do transformer: abandonar as conexões recorrentes (RNN/LSTM), que treinavam dolorosamente passo a passo. No lugar, usar o mecanismo de atenção - cada palavra numa frase olha para todas as outras e decide o quanto são relevantes para o seu próprio contexto. Isso dá duas vantagens:

  • Paralelismo: o transformer treina sobre toda a sequência de uma só vez, não palavra por palavra.
  • Dependências longas: uma palavra pode "olhar" diretamente para qualquer outra no texto, em vez de passar a informação por uma cadeia de passos.

O paper de 2017 falava de tradução automática. Nenhum dos autores no momento da publicação previu que cinco anos depois aquela arquitetura sustentaria o ChatGPT, o Claude, o Gemini e quase todos os grandes LLMs do mundo. No ano seguinte o Google lançaria o BERT, e a OpenAI o GPT-1. A corrida tinha começado.

O que levar dessa época

Os pontos centrais da parte 4:

  1. O big bang de 2012 foi um evento de engenharia, não de matemática. O AlexNet combinou ideias dos anos 1980-2000 (CNN, ReLU, dropout) com GPUs dos anos 2010 e um dataset de 2009. Quando dizem "o aprendizado profundo foi inventado em 2012", referem-se ao ponto da explosão, não ao ponto da invenção.
  2. Toda arquitetura sobre a qual a IA atual roda foi inventada nessa janela de cinco anos. AlexNet (CNN, 2012), word2vec (embeddings, 2013), GAN (redes generativas, 2014), seq2seq + attention (2014-2015), ResNet (2015), Transformer (2017). Tudo o que hoje se chama de "IA" é variação dessas arquiteturas.
  3. O AlphaGo provou que a IA pode descobrir. Antes de 2016 a suposição era "a IA só pode repetir o que está nos dados". O AlphaGo, jogando contra si mesmo e encontrando jogadas que ninguém tinha feito em 4000 anos de história do Go, enterrou essa suposição.
  4. O Transformer de 2017 é um caso raro de arquitetura que funcionou de imediato e continuou dominante. Em nove anos (2017-2026), dezenas de alternativas foram propostas (Mamba, RWKV, S4, RetNet, e por aí vai). Todos os modelos importantes do mundo em 2026 ainda são transformers. É o consenso arquitetônico mais longo na história do ML.

Na parte 5: os últimos cinco anos - BERT e GPT, o escalonamento até o GPT-3, o InstructGPT, o ChatGPT e a minha própria história: como em 2019 montei um copywriter comercial de notícias sobre o GPT-2, três anos e meio antes de o mundo "descobrir a IA".

Perguntas frequentes

O que tornou o AlexNet diferente dos participantes anteriores do ImageNet?

Três coisas. Primeiro, era uma rede convolucional profunda (8 camadas), não um SVM com features projetadas à mão. Segundo, treinava em duas GPUs de consumo NVIDIA GTX 580 - primeiro uso bem-sucedido de hardware de jogos para uma grande tarefa de ML. Terceiro, usava ReLU (em vez de sigmoides), dropout (contra overfitting) e data augmentation - três truques de engenharia que viraram padrão.

O que é word2vec e por que importa?

word2vec, apresentado por Tomáš Mikolov no Google em 2013, é uma técnica que converte palavras em vetores numéricos densos (em geral de 300 dimensões) onde operações geométricas têm sentido semântico: vector('king') - vector('man') + vector('woman') ≈ vector('queen'). Foi o primeiro caso de massa de uma rede neural aprendendo algo parecido com significado a partir da pura estatística de co-ocorrência de palavras. Todo o processamento de linguagem natural posterior se apoia nessa ideia.

O que é uma GAN e onde é usada?

Uma Generative Adversarial Network, proposta por Ian Goodfellow em 2014, coloca duas redes uma contra a outra. O gerador tenta produzir dados plausíveis (rostos, por exemplo); o discriminador tenta distinguir real de falso. Treinam juntas e a qualidade dos exemplos gerados sobe. As GANs alimentaram o StyleGAN (rostos fotorrealistas), o CycleGAN (transferência de estilo), os primeiros deepfakes em vídeo e a maior parte da IA generativa até os modelos de difusão assumirem em 2020-2022.

Por que o AlphaGo foi tão importante?

Antes do AlphaGo nenhum computador conseguia vencer um profissional no Go - jogo com cerca de 10^170 posições possíveis (mais que átomos no universo observável). Os métodos que funcionavam no xadrez (minimax + alfa-beta) não escalavam para o Go. O AlphaGo combinou aprendizado profundo (duas redes - de valor e de política) com Monte Carlo Tree Search e autojogo. Em março de 2016 venceu Lee Sedol 4 a 1, algo considerado inalcançável por pelo menos mais uma década.

Se o Transformer apareceu em 2017, por que o ChatGPT só saiu em 2022?

Cinco anos de engenharia entre paper e produto. Em 2018 chegaram BERT (Google) e GPT-1 (OpenAI). Em 2019-2020, GPT-2 e GPT-3, que mostraram que a escala produzia propriedades qualitativamente novas. Em 2022 a OpenAI somou instruction tuning e RLHF sobre o GPT-3.5 e empacotou o resultado numa interface de chat - foi o ChatGPT. A arquitetura de 2017 não mudou radicalmente. Mudou a escala de treinamento e o ajuste fino do comportamento.

Continue lendo

A verdadeira história da IA, parte 4: o big bang do aprendizado profundo (2012–2017) | INITE AI Blog