A verdadeira história da IA, parte 2: retropropagação, SVM e o segundo inverno (1980–2000)
Em 1986 as redes neurais ganharam um algoritmo de aprendizado funcional - e a maior parte da indústria não percebeu. Enquanto o mundo via os sistemas especialistas ruírem, o OCR já lia sua correspondência nos Correios, e os SVMs venciam em silêncio cada benchmark. A história da 'IA escondida' entre os dois invernos.
Entre 1980 e 2000 a IA atravessou seu segundo inverno e ganhou duas ferramentas fundadoras: a retropropagação (1986) tornou treináveis as redes neurais profundas, e as Máquinas de Vetores de Suporte (1995) viraram o algoritmo padrão de ML industrial pela década seguinte. No final dos anos 1990, o OCR neural já lia cerca de metade da correspondência nos EUA, e o Google se lançara sobre o PageRank - mas ninguém chamava nada disso de IA.
Fatos-chave
- 1986: Rumelhart, Hinton e Williams publicam a retropropagação na Nature - o algoritmo já existia, mas essa publicação o tornou padrão.
- 1989: Yann LeCun aplica sua rede convolucional LeNet ao reconhecimento de dígitos manuscritos para o US Postal Service; em meados dos anos 1990 o sistema lê cerca de 10% do correio nos EUA.
- 1995: Corinna Cortes e Vladimir Vapnik publicam as Máquinas de Vetores de Suporte (SVM) - por uma década serão o algoritmo dominante do ML industrial.
- 1997: o Deep Blue da IBM derrota Garry Kasparov - mas por trás não há rede neural. Busca exaustiva em árvore a 200 milhões de posições por segundo.
- 1998: o Google é lançado sobre o PageRank - álgebra linear sobre o grafo da web, mas seus fundadores não o chamam de 'inteligência artificial'.
Entre dois invernos
No início dos anos 1980, o primeiro inverno da IA começou a degelar. Não graças às redes neurais - elas continuavam em desgraça depois de Minsky e Papert - mas graças aos sistemas especialistas, que de repente começaram a gerar dinheiro. Em meados da década, o mercado comercial de sistemas especialistas ultrapassava um bilhão de dólares por ano. A IA voltava a ser um campo respeitável.
E então essa mesma indústria entrou em colapso pela segunda vez. E sobre seus escombros cresceu exatamente o que hoje chamamos de IA moderna - em silêncio, sob outros nomes, em agências postais, bancos e fazendas de servidores de buscadores. Esta é a segunda parte da série: os anos 1980 e 1990, a era da "IA escondida".
1986: o algoritmo que esperaram 20 anos
Em outubro de 1986, David Rumelhart, Geoffrey Hinton e Ronald Williams publicaram na Nature um artigo curto intitulado "Learning representations by back-propagating errors". Descrevia um algoritmo prático para treinar redes neurais multicamadas.
A ideia em si não era nova - seus ingredientes apareceram em Bryson e Ho em 1969, na tese de Paul Werbos em 1974, e no trabalho de David Parker em 1985. Mas o artigo de Rumelhart-Hinton-Williams transformou a retropropagação no padrão universal. A partir desse momento, as redes neurais tinham um método operacional para treinar qualquer número de camadas ocultas.
Por dentro, a retropropagação calcula o gradiente da função de perda em relação a cada peso usando a regra da cadeia. Conhecendo o gradiente, você sabe em que direção empurrar cada peso para reduzir o erro. Todas as redes neurais modernas - inclusive o GPT-5 - são treinadas por alguma variante desse algoritmo.
Em 1986 os jornalistas escreviam sobre sistemas especialistas e máquinas Lisp, e o artigo na Nature passou quase despercebido. As redes neurais continuavam sendo coisa de uma pequena comunidade de pesquisa.
1989: Yann LeCun e o correio postal
Em 1989, o cientista francês Yann LeCun, na Bell Labs, aplicou uma rede neural convolucional chamada LeNet a uma tarefa prática: reconhecer dígitos manuscritos em códigos postais para o US Postal Service.
Em meados dos anos 1990, o sistema de LeCun lia cerca de 10% de todo o correio dos EUA. Pouco depois, redes parecidas começaram a ler valores manuscritos em cheques bancários nos grandes bancos americanos. No início dos anos 2000, o OCR baseado em CNN processava a maioria dos cheques manuscritos do país.
Nenhum dos destinatários pensava em "inteligência artificial". A tecnologia simplesmente funcionava: seu garrancho "12345" virava uma rota postal. Um dos primeiros casos massivos em que uma rede neural se tornou infraestrutura - uma camada invisível por baixo da vida cotidiana.
Final dos anos 1980: o segundo inverno
Enquanto as redes neurais conquistavam em silêncio o correio, o mercado de sistemas especialistas desmoronava. Várias razões:
- As máquinas Lisp - hardware caro e especializado para sistemas especialistas - perderam para as estações de trabalho Sun mais baratas e para os IBM PC.
- Manter bases de regras mostrou-se brutalmente caro. Cada mudança no domínio exigia reescrever centenas de regras.
- Fragilidade: um sistema especialista com 5000 regras funcionava bem em casos planejados e desmoronava diante de um caso novo.
Em 1990, os grandes fornecedores de sistemas especialistas (Symbolics, Lisp Machines Inc, Intellicorp) tinham falido ou se recolhido para nichos. A DARPA cortou novamente o financiamento de "pesquisa em IA". Foi o segundo inverno da IA, durando aproximadamente de 1987 a 1993.
Durante esse inverno, os pesquisadores de aprendizado de máquina evitavam cuidadosamente a palavra "IA". As propostas de financiamento saíam sob títulos como "reconhecimento de padrões", "aprendizado estatístico", "data mining". A palavra havia se tornado tóxica.
1995: a revolução silenciosa do SVM
Em 1995, Corinna Cortes e Vladimir Vapnik publicaram o artigo das Máquinas de Vetores de Suporte (SVM). A ideia é simples: no espaço de características, encontrar o hiperplano que separa duas classes com margem máxima. Se as classes não forem linearmente separáveis, aplicar um kernel e resolver o problema em um espaço implicitamente de maior dimensão.
Comparado às redes neurais, o SVM tinha:
- Uma teoria matemática sólida (minimização do risco estrutural de Vapnik).
- Convergência garantida ao ótimo global (as redes neurais só atingem ótimos locais).
- Bom desempenho em datasets pequenos.
- Sem necessidade do ajuste frágil de camadas e ativações.
De 1995 a 2010 aproximadamente, o SVM foi o padrão industrial do ML. Classificação temática de texto, reconhecimento facial pré-AlexNet, bioinformática, escore de crédito - tudo isso rodava em SVMs. Quando em 2005 você via "IA" em um produto, quase certamente havia atrás dele um SVM com kernel RBF treinado com alguns milhares de exemplos.
1997: Deep Blue - não é rede neural, não aprende, vence o campeão mundial
Em 11 de maio de 1997, o Deep Blue da IBM venceu Garry Kasparov num match de seis partidas. Manchetes pelo mundo: "A IA derrota o humano no xadrez".
O que havia dentro do Deep Blue? Não uma rede neural. Não aprendizado de máquina. Um supercomputador de xadrez especializado: 30 nós IBM RS/6000 mais 480 chips VLSI sob medida para avaliar posições. Arquitetonicamente rodava minimax com poda alfa-beta (o mesmo algoritmo do xadrez do ZX Spectrum da parte 1) mas com uma função de avaliação escrita por grandes mestres e a capacidade de processar 200 milhões de posições por segundo.
O Deep Blue não aprendeu nada. Todo o seu conhecimento de xadrez foi programado por humanos. Triunfo da IA simbólica mais força bruta, e não do aprendizado de máquina. Mas o público não percebeu a distinção, e a vitória do Deep Blue se tornou um dos momentos de relações públicas mais potentes da história da IA.
1998: Google e a IA escondida
Em setembro de 1998, Larry Page e Sergey Brin registraram o Google. O núcleo era o PageRank: cálculo iterativo da "importância" de uma página como soma ponderada da importância das páginas que a referenciam. Matematicamente, encontrar o autovetor principal de uma enorme matriz esparsa do grafo da web.
Em seus primeiros anos o Google nunca se posicionou como empresa de IA. Mas em 2004 o Gmail já tinha um filtro bayesiano de spam, em 2008 os algoritmos de ranking incluíam dezenas de sinais treinados em cliques, e em 2011 o Google comprava startups de visão computacional. A palavra "IA" no início dos anos 2000 era simplesmente desconfortável - depois do segundo inverno, investidores e jornalistas se afastavam dela.
É uma ideia crítica para toda a história: em 2000, a IA já rodava dentro de praticamente cada produto que você usava todo dia. Só que ninguém a chamava de IA.
Anedota pessoal: Dragon NaturallySpeaking 1997
No final dos anos 1990 eu começava a escrever para um jornal regional, e meu editor sugeriu instalar o Dragon NaturallySpeaking - software de reconhecimento de voz para ditar matérias em vez de digitá-las. A versão de 1997 custava cerca de 700 dólares e exigia cerca de uma hora de treinamento de voz.
Funcionava assim: você ditava ao microfone, o programa produzia texto. Errava bastante e de modo cômico - meu nome virava regularmente algo como "mexicano açúcar preto". Mas em fala limpa e tema calmo conseguia cerca de 100 palavras por minuto com 90% de precisão, cerca de três vezes mais rápido que minha velocidade no teclado.
O que havia dentro? Modelos ocultos de Markov (HMM) para a parte acústica e modelos de linguagem n-grama para sequências de palavras. Nem redes neurais nem aprendizado profundo. Estatística pura e teoria da probabilidade desenvolvidas nos anos 1960-80. Reconhecimento de voz usado ativamente para jornalismo já em 1997, e ninguém chamava aquilo de IA. Ia sob o rótulo de "software de escritório".
Quando hoje alguém diz que o Whisper da OpenAI (2022) é "o primeiro programa prático de reconhecimento de voz", lembro do Dragon. Funcionava no meu escritório vinte e cinco anos antes do Whisper. Só que mais lento, ajustado com cuidado a uma única voz e inútil com sotaques. A linha de descendência: Dragon 1997 → Google Voice 2008 → Siri 2011 → Alexa 2014 → Whisper 2022. A mesma classe de tecnologia, quatro gerações de melhoria.
O que levar dessa época
Os pontos centrais da parte 2:
- A retropropagação existe desde 1986. Tudo o que aconteceu em aprendizado profundo nos anos 2010 foi escalar um algoritmo de 1986 sobre hardware que então não existia. Não é um princípio novo - são transistores novos.
- Do final dos anos 1980 até o início dos anos 2010, o ML padrão industrial foi o SVM, não as redes neurais. É uma correção importante ao discurso "aprendizado profundo é aprendizado de máquina". A maior parte dos modelos em produção antes de 2012 rodava sem um único neurônio.
- Em 2000, a IA já vivia dentro do correio, dos bancos, dos buscadores e dos filtros de spam - mas, traumatizada pelo segundo inverno, ninguém a chamava de "IA". Quando o ChatGPT trouxe o termo de volta à moda em 2022, o que voltou foi a moda, não a tecnologia.
- Os invernos da IA interrompem o financiamento, não o desenvolvimento. Em ambos os invernos (1974-1980 e 1987-1993) os algoritmos-chave continuaram aparecendo: retropropagação, CNN, SVM, PageRank, HMM. Só que sem manchetes.
Na parte 3: os anos 2000 e início dos 2010 - a era dos sistemas de recomendação (Netflix Prize, filtragem colaborativa), detecção de rosto em cada câmera (Viola-Jones), a primeira geração do Tesla Autopilot e, finalmente, o ImageNet 2009, o dataset que três anos depois desencadearia a grande explosão do aprendizado profundo.
Perguntas frequentes
O que é retropropagação e por que importa?
A retropropagação é o algoritmo que permite treinar redes neurais multicamadas calculando eficientemente como ajustar cada peso para reduzir o erro. A ideia já estava no ar desde os anos 1960 (Bryson e Ho, depois Werbos em 1974), mas o artigo de Rumelhart-Hinton-Williams de 1986 na Nature a tornou operacional. Sem retropropagação não há AlexNet em 2012 nem transformers modernos.
Por que veio o segundo inverno da IA?
O mercado de sistemas especialistas entrou em colapso no fim dos anos 1980. As máquinas Lisp eram caras, as bases de regras estreitas eram caras de manter, e cada novo caso-limite exigia reescrever centenas de regras. Quando chegaram as estações de trabalho baratas e o software padrão no início dos anos 1990, os fornecedores especializados de IA faliram. O segundo inverno durou aproximadamente de 1987 a 1993 e voltou a cortar o financiamento estatal.
Se a retropropagação funcionava desde 1986, por que o AlexNet só chegou em 2012?
Faltavam duas peças: poder computacional (as GPUs com CUDA só ficaram viáveis por volta de 2007-2010) e grandes datasets rotulados (o ImageNet foi publicado em 2009). LeCun treinava o LeNet por semanas em CPU; o AlexNet rodou em duas GPUs de consumo em 2012. O algoritmo era o mesmo. O hardware mudou.
O que é uma Máquina de Vetores de Suporte e por que dominou os anos 1990 e 2000?
Um SVM encontra o hiperplano que separa duas classes com margem máxima em um espaço de alta dimensão. Dava resultados estáveis em datasets pequenos, tinha uma base matemática sólida e não exigia o ajuste fino de hiperparâmetros das redes neurais. De 1995 a 2010 aproximadamente, o SVM foi o padrão industrial do ML - classificação temática de texto, reconhecimento facial pré-AlexNet, bioinformática, escore de crédito.
O Google em 1998 era uma empresa de IA?
Legalmente, não - os fundadores o posicionavam como buscador. Em substância, sim. O PageRank é um algoritmo iterativo sobre matrizes de adjacência, exatamente o que em 2025 se chama de 'graph ML'. O filtro de spam do Gmail (2004) era um classificador bayesiano. A palavra 'IA' no início dos anos 2000 era simplesmente desconfortável - depois do segundo inverno, investidores e jornalistas se afastavam dela.
Continue lendo
A verdadeira história da IA, parte 1: perceptron, IA simbólica e o primeiro inverno (1943–1980)
A IA não chegou com o ChatGPT. O primeiro neurônio matemático foi descrito em 1943, um perceptron funcional já operava em 1958, e em 1969 as redes neurais já estavam enterradas havia quinze anos. De onde a IA moderna realmente vem.
A verdadeira história da IA, parte 5: do transformer ao ChatGPT (2017–2022) e um caso com GPT-2
ChatGPT não é a chegada da IA. É a chegada da UX sobre uma tecnologia que vinha crescendo havia cinco anos: BERT, GPT-1, GPT-2, GPT-3, InstructGPT. Eu sei porque em 2019 montei um copywriter comercial de notícias sobre o GPT-2 - três anos e meio antes de o mundo 'descobrir a IA'.
A verdadeira história da IA, parte 4: o big bang do aprendizado profundo (2012–2017)
Em 30 de setembro de 2012, o aprendizado profundo deixou de ser nicho acadêmico. O AlexNet venceu o ImageNet por uma margem que o concurso jamais tinha visto. Entre esse dia e o paper de dezembro de 2017 'Attention Is All You Need' cabem cinco anos com quase toda a mágica arquitetônica da IA moderna - de word2vec a AlphaGo e GANs.