A verdadeira história da IA, parte 3: recomendações, visão e a revolução silenciosa (2000–2012)
Em 2010 a IA já estava dentro de todos os serviços que você usava: a Netflix previa o seu gosto, o Last.fm montava as suas playlists, o Facebook reconhecia amigos nas fotos, e o filtro de spam do Gmail bloqueava bilhões de mensagens por dia. Só que ninguém chamava aquilo de IA - era 'big data' e 'aprendizado de máquina'.
Entre 2000 e 2012 a IA entrou em massa nos produtos de consumo sob nomes como 'big data', 'personalização' e 'reconhecimento de padrões'. O Netflix Prize (2006-2009) fez do filtragem colaborativa um padrão industrial, o algoritmo Viola-Jones (2001) colocou a detecção facial em cada câmera digital, e o ImageNet (2009) preparou o dataset que três anos depois desencadearia o aprendizado profundo. Quando o ChatGPT apareceu em 2022, os sistemas de recomendação já vinham decidindo havia mais de doze anos qual vídeo você assistia e o que lia.
Fatos-chave
- 2001: o algoritmo Viola-Jones detectou rostos em tempo real em hardware de consumo - até 2005 vinha em quase toda câmera digital.
- 2006-2009: o Netflix Prize - 1 milhão de dólares por melhorar as recomendações em 10% - atraiu mais de 50.000 equipes de 186 países.
- 2007: lançou o iPhone - primeiro dispositivo de massa com autocorreção estatística e reconhecimento de gestos baseado em ML.
- 2009: a professora Fei-Fei Li publica o ImageNet - 14 milhões de imagens rotuladas à mão em 22.000 categorias.
- 2011: o IBM Watson vence dois campeões de Jeopardy! - primeira demonstração de massa de uma IA respondendo perguntas em linguagem natural, onze anos antes do ChatGPT.
A década em que a IA entrou no seu bolso
Se em 2010 alguém te perguntasse "você usa IA?", você provavelmente diria que não. Na realidade, naquele ano você já:
- recebia recomendações de filme da Netflix (filtragem colaborativa),
- via quadradinhos de autofoco em torno dos rostos na sua câmera (Viola-Jones),
- deixava o Gmail filtrar bilhões de mensagens de spam (Naive Bayes),
- traçava rotas no Google Maps (algoritmos de grafos sobre dados de tráfego coletados),
- via anúncios ajustados à sua busca (regressão logística sobre 10⁹ atributos),
- ouvia playlists do Last.fm "Recommended for you" (filtragem colaborativa item-item),
- digitava no iPhone com autocorreção (modelo de linguagem estatístico).
Esta é a terceira parte da história da IA - a revolução silenciosa de 2000-2012, quando a tecnologia se tornou ubíqua e quase invisível. E é nesse período que amadureceram os ingredientes que, dez anos depois, fariam o ChatGPT decolar.
2001: Viola-Jones e um rosto em cada câmera
Em 2001, Paul Viola e Michael Jones, no Mitsubishi Electric Research Labs, publicaram o algoritmo de detecção rápida de rostos Viola-Jones. Por dentro, um classificador em cascata sobre features de Haar, treinado com AdaBoost. O grande avanço era a velocidade, e não a precisão: o algoritmo rodava em tempo real nos processadores da época.
Por 2005, vinha em praticamente toda câmera digital - aqueles quadradinhos de autofoco que se prendiam aos rostos. Um dos primeiros casos de visão computacional rodando no dispositivo final, sem ida e volta à nuvem.
Ninguém chamava essas câmeras de "AI camera". Eram simplesmente "smart camera". A palavra "IA" só voltaria ao marketing de câmeras em 2017, quando os smartphones começaram a classificar cenas com redes neurais convolucionais.
2006: Netflix Prize - 1 milhão de dólares por 10%
Em outubro de 2006 a Netflix anunciou um concurso com 1 milhão de dólares para a equipe que melhorasse o recomendador Cinematch em 10%. Dataset aberto: 100 milhões de avaliações de 480.000 usuários sobre 17.770 filmes. Até então, os sistemas de recomendação eram um assunto fechado dentro de cada empresa. O Netflix Prize escancarou a porta.
O concurso durou quase três anos. Participaram mais de 50.000 equipes de 186 países. Em 2009 venceu a BellKor's Pragmatic Chaos, uma aliança de três equipes que somaram suas soluções. Seu ensemble de mais de 100 modelos melhorou a precisão em 10,06%.
A própria Netflix nunca implantou a solução vencedora - complexa demais para produção. Mas o concurso fez duas coisas que viraram a indústria:
- Popularizou a fatoração de matrizes (SVD, ALS) como ferramenta padrão de recomendação.
- Treinou uma geração de engenheiros para trabalhar com matrizes grandes e esparsas em hardware comum.
Depois do Netflix Prize, a filtragem colaborativa entrou em cada serviço que sabia algo das suas preferências. YouTube, Amazon, Spotify, Last.fm, eBay - todos rodavam descendentes das técnicas afiadas no dataset da Netflix.
Anedota pessoal: Last.fm e a mágica de "Recommended for you"
Em algum momento de 2007 instalei o Last.fm - um serviço que "scrobblava" cada faixa que eu tocava no computador e no player. Em duas ou três semanas eu tinha um histórico de algumas milhares de músicas, e surgiu uma aba "Recommended for you".
Abri - e senti exatamente aquela sensação meio inquietante que dez anos depois os usuários do TikTok descobririam. O serviço recomendava artistas de quem eu nunca tinha ouvido falar mas que eram exatamente o meu gosto. Não o óbvio "se você curte Radiohead, escute Coldplay", mas combinações estranhas que eu não acharia sozinho - alguma banda de post-punk letão que de fato era boa.
O que tinha dentro? Filtragem colaborativa item-item. O Last.fm calculava para cada artista o conjunto de usuários que o ouviam e comparava esses conjuntos entre artistas. Se os ouvintes de A e os de B se sobrepunham bastante, A e B eram "similares", e quem amava A recebia B como recomendação. Nem rede neural, nem "compreensão" de música. Estatística pura sobre uma matriz "usuário × artista".
Em 2007 isso já rodava em um produto de consumo. Em 2024 o motor de recomendação do TikTok produz exatamente o mesmo efeito nos usuários - mas entre os dois há dezessete anos da mesma ideia base, só que em escalas cada vez maiores.
2007: o iPhone e o ML estatístico no dispositivo
Em janeiro de 2007 Steve Jobs apresentou o iPhone. Sua autocorreção, o reconhecimento de gestos multitouch e o ajuste de brilho à luz ambiente rodavam sobre modelos estatísticos treinados em dados agregados dos usuários.
A autocorreção do iPhone era um caso particularmente interessante. Dentro havia uma combinação de:
- Um modelo de linguagem de n-gramas (quais pares e trios de palavras aparecem juntos com mais frequência),
- Um modelo de erros (quais teclas os usuários costumam tocar em torno da pretendida),
- Adaptação pessoal (se você insiste em digitar "thx" - parar de "corrigir").
Nenhum dos milhões de usuários do iPhone em 2007 pensava "tenho IA no bolso". Mas era ML em produção com uma audiência diária que em três anos passaria de 100 milhões de pessoas.
2009: ImageNet - o dataset que mudou tudo
Em 2009 a professora de Stanford Fei-Fei Li publicou o ImageNet - dataset rotulado de 14 milhões de imagens em 22.000 categorias. Resultado de três anos de trabalho e de um gasto significativo em rotulagem via Amazon Mechanical Turk.
A tese do ImageNet era simples e revolucionária: à visão computacional não faltavam algoritmos, faltavam dados. A maioria dos modelos pré-2009 era treinada com alguns milhares de imagens. O ImageNet oferecia três ordens de grandeza a mais.
A partir de 2010 rodou anualmente o ImageNet Large Scale Visual Recognition Challenge (ILSVRC) sobre um subconjunto (1.000 categorias, 1,2 milhão de imagens). Em 2010-2011 os vencedores usavam SVM com features projetadas à mão (SIFT, HOG, Fisher Vectors). O erro top-5 estagnou em torno de 26%.
Vale ter esse pano de fundo na cabeça, porque em 2012 ocorrerá um evento que vai dividir a história da visão computacional em duas. Disso trata a parte 4.
2011: IBM Watson e Jeopardy!
Em fevereiro de 2011 o supercomputador IBM Watson venceu no Jeopardy! dois campeões - Brad Rutter (maior vencedor histórico do torneio) e Ken Jennings (74 vitórias seguidas). Primeira demonstração de massa de uma IA respondendo a perguntas em linguagem natural - onze anos antes do ChatGPT.
Por dentro, o Watson era um coquetel de:
- Um parser de perguntas em linguagem natural (NLP).
- Busca sobre 200 milhões de páginas de texto não estruturado, incluindo toda a Wikipédia.
- Centenas de hipóteses paralelas, ranqueadas por ML.
- Bases de conhecimento DBpedia e outras estruturadas.
O Watson não era uma rede neural. Era um ensemble de NLP clássico, recuperação de informação e aprendizado de máquina. Mas o efeito na audiência de massa foi arrebatador: uma máquina entendia a pergunta, buscava a resposta, escolhia um candidato confiante e apertava o botão. Para os espectadores de 2011 parecia exatamente o que o ChatGPT pareceria para os de 2022.
Depois a IBM tentou monetizar o Watson na saúde - e fracassou. Em 2018 a maior parte do Watson Health foi descontinuada. A mesma lição do primeiro inverno: uma demonstração brilhante em concurso ≠ um produto médico que funcione.
O que levar dessa época
Os pontos centrais da parte 3:
- Em 2010, a IA já alimentava todos os serviços diários que você usava. Busca, recomendações, spam, câmera, navegação, anúncios - tudo ML. Só que se chamava "personalização" e "big data".
- O Netflix Prize foi o divisor de águas dos sistemas de recomendação. Antes: algoritmos corporativos fechados. Depois: uma disciplina industrial aberta, com técnicas conhecidas. As recomendações de YouTube e Spotify de hoje descendem diretamente desse concurso.
- O ImageNet foi preparado exatamente quando as GPUs ficaram viáveis. Se o dataset tivesse saído em 2005, teriam treinado SVMs nele. Se tivesse saído em 2015, teríamos perdido três anos de progresso. A coincidência de big data, GPUs e algoritmos foi o que detonou a explosão de 2012.
- A revolução silenciosa ensina uma lição. As tecnologias mais bem-sucedidas raramente chegam com a etiqueta "IA". Quando um produto funciona bem, ele é simplesmente "o produto". Quando um produto precisa de marketing, ele vira "IA". Em 2010 a Netflix não chamava suas recomendações de IA. Em 2024 todo modal com três botões é "AI-powered".
Na parte 4: 2012 e o big bang do aprendizado profundo - o AlexNet vence o ImageNet, o word2vec dá significado às palavras, surgem as GANs, o AlphaGo derrota o campeão mundial de Go e, no fim de 2017, sai um único paper que cinco anos depois será a base técnica do ChatGPT.
Perguntas frequentes
O que é filtragem colaborativa e por que importa?
Filtragem colaborativa é um algoritmo de recomendação baseado não no conteúdo dos objetos, mas na similaridade entre usuários ou objetos. Se as pessoas que gostaram dos mesmos filmes que você também avaliaram bem o filme X, o sistema recomenda X. A técnica surgiu nos anos 1990, mas o Netflix Prize (2006-2009) a tornou padrão industrial. Hoje sustenta as recomendações do YouTube, Spotify, Amazon e TikTok.
Se o ImageNet foi publicado em 2009, por que o aprendizado profundo só decolou em 2012?
Hardware e um experimento decisivo. Até 2012, todos os participantes do concurso ImageNet usavam SVM com features projetadas à mão (HOG, SIFT). Em 2012 a equipe de Hinton rodou a rede convolucional AlexNet em duas GPUs de consumo e venceu o concurso por quase 11 pontos percentuais. Esse foi o momento em que a indústria virou forte para o aprendizado profundo. O ImageNet foi o combustível - o AlexNet, o fósforo.
O Netflix Prize foi realmente importante?
Sim e não. Tecnicamente, a solução vencedora (BellKor's Pragmatic Chaos) nunca foi implantada - era complexa demais para produção. Mas o concurso fez duas coisas: popularizou a fatoração de matrizes como ferramenta padrão de recomendação, e treinou uma geração de engenheiros para trabalhar com dados esparsos em larga escala. Por esses dois efeitos, o Netflix Prize reconfigurou toda a indústria de sistemas de recomendação.
O que existia antes de o Facebook reconhecer rostos nas fotos?
O algoritmo Viola-Jones (2001) sabia detectar rostos - ou seja, achar que em uma foto há um rosto, sem saber de quem. Em 2005 vinha em quase toda câmera digital (os quadradinhos sobre os rostos no autofoco). O reconhecimento facial - identificar uma pessoa específica - virou massivo depois: o Facebook lançou marcação automática em 2010. Em 2014 o DeepFace, com redes neurais, atingiu 97% de precisão - nível humano.
Por que esse período é chamado de 'revolução silenciosa'?
Porque não veio com alarde de IA. Entre 2000 e 2012, o aprendizado de máquina entrou em cada produto de consumo importante: busca, recomendações, filtros de spam, tradutores, navegação, fotografia. Mas ainda traumatizada pelo segundo inverno, a indústria insistia em chamar aquilo de 'machine learning', 'big data', 'personalização' - qualquer coisa menos IA. Quando o termo voltou à moda em 2022, muitos usuários acreditavam sinceramente estar conhecendo a tecnologia pela primeira vez - depois de tê-la usado por pelo menos dez anos.
Continue lendo
A verdadeira história da IA, parte 5: do transformer ao ChatGPT (2017–2022) e um caso com GPT-2
ChatGPT não é a chegada da IA. É a chegada da UX sobre uma tecnologia que vinha crescendo havia cinco anos: BERT, GPT-1, GPT-2, GPT-3, InstructGPT. Eu sei porque em 2019 montei um copywriter comercial de notícias sobre o GPT-2 - três anos e meio antes de o mundo 'descobrir a IA'.
A verdadeira história da IA, parte 4: o big bang do aprendizado profundo (2012–2017)
Em 30 de setembro de 2012, o aprendizado profundo deixou de ser nicho acadêmico. O AlexNet venceu o ImageNet por uma margem que o concurso jamais tinha visto. Entre esse dia e o paper de dezembro de 2017 'Attention Is All You Need' cabem cinco anos com quase toda a mágica arquitetônica da IA moderna - de word2vec a AlphaGo e GANs.
A verdadeira história da IA, parte 2: retropropagação, SVM e o segundo inverno (1980–2000)
Em 1986 as redes neurais ganharam um algoritmo de aprendizado funcional - e a maior parte da indústria não percebeu. Enquanto o mundo via os sistemas especialistas ruírem, o OCR já lia sua correspondência nos Correios, e os SVMs venciam em silêncio cada benchmark. A história da 'IA escondida' entre os dois invernos.