Uma viagem de sete décadas na Inteligência Artificial
Como um campo derivado de buscas que remontam à filosofia, à lógica e até à linguística acabou dominado por abordagens estatísticas, probabilísticas e até biológicas
A Inteligência Artificial (IA) é um assunto que fascina e causa curiosidade tanto a leigos quanto a interessados no assunto, como, provavelmente, muitos dos que ingressam na Ciência de Dados. Mas também pode gerar confusão, dada a overdose de conceitos e as notícias, algumas pessimistas, sobre os feitos da área.
No dia a dia da própria Ciência de Dados, não é raro encontrar desde descrições de vagas a conteúdos que misturam temas da estatística ou visualização de dados com a IA, como se fossem similares ou iguais. Deep learning tornou-se uma febre, um daqueles assuntos que, por causa da moda, são mais comentados do que realmente compreendidos.
Cinema, literatura, séries da Netflix, a arte e a ficção em geral, adicionam algum misticismo a mais, como se a IA um algo maravilhoso, capaz de encontrar a cura de doenças ou prever pandemias, ou uma realização nociva, com poder de acabar com empregos ou destruir a humanidade.
Para darmos alguma base histórica do que é a IA e como ela veio se desenvolvendo até nossos dias, vamos explorar desde seus primórdios até o boom e sucessos recentes.
É uma história de mais de sete décadas, que começa com uma abordagem lógico-simbólica, derivada da Matemática e da Filosofia Analítica, acaba dominada por Estatística e Probabilidade e experimenta um boom quando algoritmos inspirados inicialmente na biologia — as redes neurais — impulsionam impactos recentes no campo.
Otimismo e “invernos” lógico-simbólicos nos primórdios
A Inteligência Artificial nasceu de abordagens que tinham pouco a ver com os algoritmos de base estatística e probabilística que se tornaram onipresentes no mercado. A história é recheada de polêmicas, disputas entre correntes teóricas e altos e baixos, tanto em empolgação quanto em financiamentos.
O marco inaugural do campo é o Dartmouth Summer Research Project on Artificial Intelligence (Projeto de Pesquisa de Verão de Dartmouth em Inteligência Artificial), em 1956, nos EUA, promovido pelo Defense Advanced Research Projects Agency (DARPA).
Obviamente, muita coisa teve de ser feita antes para se chegar até esse marco. Rastreando origens, chegaremos a filósofos e grandes nomes da lógica e do raciocínio formal, como Gottlob Frege e Bertrand Russel, para ficar em alguns deles.
Também vamos esbarrar em grandes matemáticos que contribuíram para a computação antes mesmos dos computadores. Entre eles, John von Neumann (arquitetura dos computadores), Alonzo Church (cálculo lambda), Kurt Gödel (teoremas da incompletude) e, é claro, Alan Turing — gênio que não só inventou a Máquina de Turing (um computador abstrato, mas capaz de modelar qualquer computação digital) e que ainda quebrou a criptografia de guerra da Alemanha Nazista.
Turing foi também quem propôs que, em vez de nos preocuparmos se as máquinas podem pensar (algo altamente filosófico e de difícil verificação), por que não criamos um teste: se um computador conseguir se comunicar como humano, fazendo-nos acreditar que é um humano, então a máquina estaria pensando por si própria.
Com isso, foi criado o Teste de Turing, que deu origem a muitos experimentos e a uma corrida competitiva, disputada até hoje, por soluções capazes de passar em tal prova.
Mas, voltamos ao Dartmouth Summer Research Project, o evento foi organizado por outros nomes históricos da área: Marvin Minsky, do MIT, e John McCarthy, de Stanford; o pai da “Teoria Matemática da Comunicação” (hoje Teoria da Informação) Claude Shannon, também do MIT e do Bell Labs, e o cientista da computação Nathaniel Rochester, da IBM.
Só a biografia dos quatro renderia uma enciclopédia da IA e do alvorecer da computação. Minsky é um dos papas da área, criador do SNARC, um “neurocomputador” pioneiro, além de ter escrito sobre os perceptrons (redes neurais muito simples).
McCarthy é autor da linguagem de programação Lisp, uma linguagem simbólica, baseada em cálculo lambda (presente em linguagens funcionais), usada por décadas em implementações de IA pioneiras.
A McCarthy é atribuída a criação do termo “Inteligência Artificial”. Diz-se que ele criou a denominação para que o campo não fosse dominado por outra corrente forte na época, a Cibernética, que tinha Norbert Wiener como um dos maiores expoentes.
Shannon dispensa apresentações: é o autor de “A Mathematical Theory of Communication” (embora seja essencialmente probabilística), hoje chamada de Teoria da Informação, que criou as bases para a transmissão de sinais digitais e revolucionou a comunicação eletrônica.
Rochester foi arquiteto-chefe do primeiro computador científico da IBM e escreveu o primeiro assembler para computação simbólica. Assembler é uma linguagem de montagem de máquina, que evita ter de programar diretamente com 0s e 1s, mas é praticamente tão difícil quanto.
Também participaram do workshop, entre outros, Ray Solomonoff (fundador da teoria da inferência indutiva universal, da teoria algorítmica da informação e da IA baseada em aprendizado de máquina, previsão e probabilidade), Arthur Samuel (conhecido por aprendizado de máquina aplicado a jogos de tabuleiro, principalmente damas), Allen Newell (que contribuiu tanto à IA como à psicologia da cognição humana) e Herbert Simon (economista, cientista político e psicólogo cognitivo, Prêmio Nobel de Economia em 1978, outro grande nome do nascimento da tecnologia da informação).
(A quem se interessa a fundo por computação e IA, vale a pena conhecer mais sobre todos esses caras citados. O que fazemos hoje, no dia a dia, deve muito ao legado iniciado por eles.)
Os fundamentos lançados por Turing e os demais, principalmente com a Máquina de Turing e o Teste de Turing, levou muita gente a se interessar pela possibilidade de criar um cérebro artificial, agora não mais apenas na imaginação, mas por meio de transistores, válvulas e cálculos eletrônicos.
Influenciado por toda a base anterior, principalmente na crença de que era possível reduzir o raciocínio à lógica (uma busca que vem desde a Epistemologia, com Thomas Hobbes e René Descartes, já em 1600, por exemplo) e na de que o cérebro processa basicamente símbolos, nasceu o primeiro paradigma que dominou o início da IA: o simbólico.
Newell e Simon foram os grandes responsáveis pela abordagem, com a criação da Logic Theory Machine (Máquina de Teoria Lógica) e do General Problem Solver (Resolvedor de Problemas Geral), programas pioneiros da IA. Combinando símbolos em estruturas (expressões) e manipulando-os (processos), seria possível produzir novas expressões, e isso poderia ser feito por meio de tecnologia, fora do cérebro humano.
Não à toa, linguistas aderiram ao campo, como Noam Chomsky, que defende que nascemos com uma gramática universal inata no cérebro (uma ideia já um tanto ultrapassada) e que deu uma guinada na Psicologia, fazendo-a abandonar o Behaviorismo e inaugurar a Ciência Cognitiva.
Havia, na ideia, muito mais de Filosofia e da busca pelo que hoje chamamos de “IA geral” ou “IA forte” — uma inteligência artificial capaz de se igualar ou superar a inteligência humana — do que de estatística ou fins práticos que dominam o campo nos dias atuais.
A Logic Theory Machine, de Simon e Newell, teve o feito de provar 38 dos 52 dos teoremas do Principia Mathematica (1910-1913), de Russel e Whitehead, uma das bíblias da lógica filosófica e matemática, além de, segundo eles, ter até resolvido a dualidade “corpo/mente” que ocupa de filósofos da antiguidade a neurologistas atuais. Ou seja, não faltavam motivos para entusiasmo.
A limitação dos computadores da época, grandes mainframes do tamanho de andares de um prédio, porém capazes de manipular uma quantidade limitada de números e símbolos, também influenciou a teoria.
Note-se que havia um interesse bastante grande, já na época, pelo que hoje chamamos de processamento de linguagem natural, já que se pensava, basicamente, em símbolos, ou seja, conceitos, estruturas, expressões e gramáticas.
Para passar no Teste de Turing e enganar humanos, uma máquina precisava se comunicar como humano. Em decorrência, havia uma busca frenética por computadores e modelos que conseguissem processar linguagem escrita, traduzir documentos e responder perguntas.
Um dos primeiros experimentos nesse sentido foi ELIZA, um programa de processamento de linguagem natural criado por Joseph Weizenbaum no MIT, entre 1964 e 1966 (aqui, é possível testá-la). O programa é um dos primeiros chatbots da história.
ELIZA basicamente simulava conversas usando correspondência de padrões e substituição de termos. Ela foi programada para ser uma espécie de psicanalista, respondendo a perguntas de humanos (um de seus roteiros basicamente elaborava uma nova pergunta sobre o que um humano tinha acabado de responder e complementava com comentários).
O que pode nos parecer primitivo hoje, entretanto, intrigou muita gente, a ponto de alguns se convencerem de que havia alguma coisa sobrenatural acontecendo dentro da máquina. Para alguns, ELIZA teria passado no Teste de Turing.
De 1956 a 1974, euforia e otimismo imperavam na área. Os precursores da área davam entrevistas e garantiam que em uma ou duas décadas a primeira máquina completamente inteligente, a “IA geral”, capaz de pensar como um humano, estaria construída.
"As máquinas serão capazes, dentro de vinte anos, de fazer qualquer trabalho que um homem possa fazer." — Simon, 1965.
“Dentro de uma geração [...], o problema de criar 'inteligência artificial' estará substancialmente resolvido." — Minsky, 1967.
"Em três a oito anos teremos uma máquina com a inteligência geral de um ser humano médio." — Minsky, 1970.
Ouvir os pioneiros da área falando e ver computadores jogando damas ou respondendo perguntas era tão fascinante que choveu dinheiro para financiar avanços. O contexto era o da Guerra Fria e havia uma preocupação enorme do Ocidente em criar tecnologia inteligente para fazer frente à União Soviética.
Na prática, porém, o que ocorreu foi uma enorme quantidade de tentativa e erro, que revelaram muitos becos lógicos sem saída. Esbarrou-se no “problema do senso comum” e na dificuldade de se aplicar a abordagem simbólica a robôs, por exemplo, que não lidam com palavras ou símbolos, mas com noções espaciais e movimentos.
Não tardou para as previsões se mostrarem furadas e surgirem críticos. Começou-se a ver as tentativas de desenvolver a IA, ou seja, os jogos de damas e os chatbots mecânicos, como “brinquedos” movidos a muito dinheiro.
Hubert Dreyfus, um dos críticos mais mordazes, ridicularizou promessas e abriu artilharia contra a ideia de que máquinas poderiam ter intenção ou de que imitariam humanos. É um dos precursores do tratamento crítico da IA e de seus impactos.
Pesquisas da Ciência Cognitiva mostraram que o ser humano não era o “agente racional” buscado há muito tempo na Filosofia, que alimentou a lógica e teorias mais modernas, como Teoria dos Jogos, Teoria da Decisão e, principalmente, a Teoria Econômica Clássica, todas interligadas.
Começamos a descobrir que tínhamos heurísticas e vieses, racionalidade limitada e não raro agíamos mais por comportamentos inexplicáveis do que dominados pela razão e por escolhas ótimas (no sentido de otimizadas), de forma que nem nós mesmos já servíamos como modelo para uma IA sonhada.
O próprio Minsky, no que seria chamado mais tarde de “Neats and Scruffies” (em tradução livre, algo como “Arrumados e Desleixados”), discordava de linhas lógicas rigorosas. Sua abordagem, a “desleixada”, que seria a origem da cultura hacker, demonstrou que era impossível reduzir em um objeto, uma “mesa”, por exemplo, à lógica.
Para a mente humana, uma mesa é muito diferente do que uma palavra com quatro letras ou uma ilustração com quatro pés, um tampo e um encosto. A abordagem foi chamada de “desleixada” por ir contra a lógica formal rigorosa, defendida pelos “arrumados”.
O financiamento escasseou. A DARPA cortou apoios na ordem de milhões de dólares. A Inglaterra, país de Turing, fez o mesmo. A IA era um campo muito teórico e aberto e os governos queriam pôr dinheiro naquilo que desse resultados práticos.
Chegou, assim, o primeiro “inverno” da IA, que durou de 1974 a 1980. Houve, ainda, um segundo “inverno”, de 1987 a 1993, quando a IA, ainda bastante simbólica, já estava mais difundida no mundo empresarial e a crise econômica decorrente do petróleo, nos anos 70, abateu-se sobre vários países.
O computador pessoal começava a ganhar mercado e já era mais versátil do que as grandes máquinas especializadas para IA da época. Mais de 300 empresas de IA faliram até 1993 em decorrência de novos cortes de investimentos e problemas de mercado.
Para entender esse segundo inverno, vale observar a década de 1980. Ela foi dominada pelos chamados “sistemas especialistas”. Após as críticas e polêmicas da primeira onda da IA, diversos pesquisadores, mais pragmáticos, miraram esforços em construir soluções para domínios aplicados na indústria e nos negócios.
Sugiram programas, ainda baseados em lógica e símbolos, capazes de diagnosticar doenças infecciosas no sangue, por exemplo, o que era uma abordagem muito mais útil do que buscas por autômatos computacionais inteligentes.
A linguagem Lisp e hardware feito para processá-la ganharam mercado. Programas que dariam origem ao Deep Blue, o computador que derrotaria Kasparov no xadrez, em 1996 — um dos maiores feitos da IA —, surgiram nessa época.
É da mesma década, também, o Cyc, um projeto que hoje pode soar meio megalomaníaco: um enorme banco de dados para “ensinar” uma possível “IA geral”, em que eram inseridos, um a um, à mão, conceitos do conhecimento humano.
Olhando-se em retrospectiva, vê-se que faltava poder computacional, sobravam buscas grandiosas e filosóficas, como querer criar uma IA igual ou superior a humanos, e se utilizava muita linguística e lógica para tal finalidade, ao mesmo tempo em que se engatinhava no entendimento da própria cognição humana.
Uma guinada metodológica e os avanços seguintes viriam de uma turma menos filosófica e mais objetiva e pragmática, disposta a tirar a Estatística de domínios teóricos e fazê-la encarar problemas de dados do mundo real.
Estatística se torna Data Science, entra em campo e conduz o jogo
Nos anos 1950, a Estatística também estava absorta em um mundo teórico, tentando impor rigor matemático a seus modelos, depois que Francis Galton e Karl Pearson aprofundaram a abordagem — embora eles mesmos fossem mais pragmáticos do que teóricos.
O surgimento dos primeiros computadores, porém, engendrou reviravoltas na área, até chegarmos a Ciência de Dados como é conhecida.
Em 1962, John Tukey, o pai do termo “data analysis” (além de “bit” e da palavra “software”), chocava a comunidade estatística acadêmica — aquela mais preocupada com formalismo matemático — ao declarar, em “The Future of Data Analysis”, abreviado para “FoDA” (sem trocadilhos), que a Estatística deveria ir além da busca de modelos teóricos perfeitos e considerar procedimentos de preparação de dados, análise, interpretação de resultados, entre outros aspectos.
Tukey era químico de formação. Assim como Galton e Pearson, muito mais interessados no que a matemática poderia fazer pela estatística em áreas aplicadas, Tukey exortava a “Análise de Dados” como uma nova ciência e não um ramo da matemática, voltado a necessidades da sociedade.
Colegas de Tukey no Bell Labs — onde nasceu uma porção de inovações que moldaram nosso mundo atual, da Teoria da Informação de Shannon ao fax e ao transístor, do laser ao modem e ao wireless —, também sentiam essa coceira de expandir e levar a estatística para o mundo real.
John Chambers, um dos colegas, criou a linguagem de programação S, uma antecessora do R que usamos até hoje, ajudando a unir Estatística, Computação e questões práticas.
Na década de 1990, Jeff Wu, ao tomar posse na Universidade de Michigan, apresentou uma palestra inaugural intitulada “Statistics = Data Science?”, em que caracterizava o trabalho estatístico como algo envolvendo coleta de dados, modelagem e análise desses dados e tomada de decisão.
William Cleveland, outro colega do Bell Labs, já em 2001, decretava a nova área como uma junção de seis focos de atividade, com as seguintes proporções de dedicação (repare-se que “teoria” é apenas uma pequena fatia de tudo que é feito):
investigações multidisciplinares (25%)
modelos e métodos para dados (20%)
computação de dados (15%)
pedagogia (15%)
avaliação de ferramentas (5%)
teoria (20%)
Nesse período, de 1960 a 2000, nasceram muitos dos softwares estatísticos que popularizaram a abordagem e permitiram o compartilhamento de dados e experimentos entre pesquisadores e gente da indústria.
São exemplos SPSS, SAS e Minitab, que vinham desde os mainframes e S, ISP, STATA e o próprio R, mais usados nos microcomputadores ou computadores pessoais.
Os nomes dos softwares se tornaram até mais comuns do que os termos “análise de dados” ou “análise estatística” no período, normalmente significando a mesma coisa.
Outra mudança na Estatística foi sair, gradualmente, da modelagem mais “generativa” (modelos estocásticos que se ajustam aos dados para, então, fazer inferências sobre o mecanismos de geração deles) para uma abordagem mais “preditiva” (que liga menos para o mecanismo, permitindo uso de vários algoritmos, e focando na precisão da previsão).
“A comunidade estatística está comprometida com o uso quase exclusivo de modelos [generativos]. Esse compromisso levou a uma teoria irrelevante, conclusões questionáveis e impediu que os estatísticos trabalhassem em uma ampla gama de problemas atuais interessantes. A modelagem [preditiva], tanto na teoria quanto na prática, desenvolveu-se rapidamente em campos fora da estatística. Ele pode ser usado em grandes conjuntos de dados complexos e como uma alternativa mais precisa e informativa para modelagem de dados em conjuntos de dados menores. Se nosso objetivo como campo é usar dados para resolver problemas, então precisamos nos afastar da dependência exclusiva de modelos [generativos]” — Leo Breiman, em “Statistical Modelling: The Two Cultures”, 2001.
A abordagem foi ao encontro do que se praticava nos negócios. Quem lidava com problemas de dados reais e no dia a dia, sentia que a abordagem era muito mais próxima do que era feito na prática.
Toda essa mentalidade e abordagens, levaram estatísticos, principalmente os mais pragmáticos, afeitos a problemas do mundo real e à computação, a entrarem gradualmente um mundo que era da Inteligência Artificial.
O flanco atacado por estes pesquisadores e profissionais era o do Machine Learning, um dos campos que nasceu lá nos primórdios da IA simbólica, mas correu em silêncio, de onde surgiram técnicas como o reconhecimento e a classificação de padrões e otimização matemática, comuns em Data Mining (Mineração de Dados), um campo da Ciência da Computação, mas que dependia de estatística e matemática.
Quando um dos nomes da área, Tom Mitchell, formulou que “um programa de computador aprende com a experiência E, com relação a alguma classe de tarefas T e medida de desempenho P, se seu desempenho nas tarefas em T, conforme medido por P, melhora com a experiência E”, já se reconhecia uma guinada para uma definição e abordagem operacional do aprendizado de máquina, em vez de uma linha cognitiva ou inteligente à moda antiga.
Com dois objetivos claros e delimitados — classificar dados com base em modelos e fazer previsões de resultados futuros com base nesses modelos —, Machine Learning (ML) juntou gente da computação, da estatística e das probabilidades em torno de buscas pragmáticas, até resultar na Ciência de Dados e na sua lida com algoritmos de IA.
Em vez de tentar elaborar e ensinar conceitos humanos a máquinas, a abordagem visava desenvolver mecanismos estatísticos e probabilísticos, por meio dos quais seriam processados dados, que resultam em aprendizado diferente do humano, o aprendizado de máquina.
O paradigma fez com que gente da primeira onda da IA, de engenheiros a filósofos, nem sempre reconhecessem o ML como “inteligente”, por não perseguir uma “IA geral”. De alguma forma, essa visão persiste até hoje, e é associada ao que se convencionou chamar de “efeito IA”.
O “efeito IA” diz que qualquer abordagem que realize uma tarefa de IA na prática tende a deixar de ser considerada IA (talvez por uma certa perda de aura ou magia da IA primordial). No fim das contas, são só máquinas recebendo muitos dados, calculando distâncias entre esses pontos de dados e cuspindo classificações ou previsões. Não há magia ou qualquer fenômeno encantado nisso.
Entretanto, essa técnica sem aura foi a que mais levou a avanços, seja nos negócios, seja na indústria, seja em saúde e medicina, na segurança e em vários outros domínios. Também permitiu evolução gradativa de modelos e abordagens diferentes, em campos diferentes, o que deu origem aos diversos algoritmos de ML existentes:
Linear Regression
Logit Regression
Decision Tree
Support Vector Machines (SVM)
Naive Bayes;
K-Nearest Neighbors (KNN)
Random Forest
Dimensionality Reduction Algorithms
Gradient Boosting:
Gradient Boosting Machine (GBM)
Extreme Gradiente Boosting (XGBoost)
Light Gradient Boosting Machine (LightGBM)
CatBoost
Vale lembrar que algoritmos de redes neurais, que hoje estão muito associados ao Deep Learning, também são usados e aprimorados nessa época, mas ainda não há todo o frenesi atual no campo.
Outro aspecto fundamental para a área foi uma virada de concepção filosófica da racionalidade. É interessantíssimo e engraçado ao mesmo tempo: enquanto na Psicologia Cognitiva se derrubava a imagem do ser humano como agente racional, reforçada pela Economia Clássica e pelos campos da Teoria dos Jogos e Teoria da Decisão, já citados, na Inteligência Artificial ou, mais especificamente, no aprendizado de máquina, a teoria do agente racional, depois chamado de “agente inteligente”, serviu como uma luva.
Ou seja, à medida que uma busca de séculos sobre a razão humana caía por terra, começava-se a ver que máquinas eram perfeitas para a ideia de racionalidade, capaz de buscar decisões “ótimas” (de outro modo: frias e calculadas, sem emoções e distrações).
Essa visão é responsável, de certo modo, pela ideia de que máquinas são ou serão mais “eficientes” do que humanos para diversas tarefas, podendo substituí-los — o que leva a uma série de debates, questionamentos e receios quanto ao futuro.
A visão do agente racional ou agente inteligente em IA é consolidada no livro Artificial Intelligence: A Modern Approach de Stuart Russel e Peter Norvig, de 2003, uma “bíblia” da IA na atualidade (há versão em português). É usado em universidades mundo afora e leitura obrigatória a todos que se interessam por IA. Cobre praticamente todo o campo, de forma abrangente e clara.
(Apenas como curiosidade, Norvig, um senhor de cabelos brancos, conhecido por suas camisas coloridas, diretor de pesquisa no Google, é outro cara a ser conhecido por quem gosta de computação e IA. O site dele — não ligue para o visual, é o contrário das camisas — é uma ótima fonte a respeito).
[...] depois de cerca de 14 anos tentando fazer os modelos de linguagem funcionarem usando regras lógicas, comecei a adotar abordagens probabilísticas [...]. E eu vi todos ao meu redor fazendo a mesma troca. (E eu não vi ninguém indo na outra direção.) Todos nós vimos as limitações das ferramentas antigas e os benefícios das novas.
E embora possa parecer grosseiro e anti-intelectual considerar uma medida financeira de sucesso, é importante notar que a descendência intelectual da teoria de Shannon [Teoria Matemática da Comunicação] cria vários trilhões de dólares de receita a cada ano, enquanto a descendência das teorias de Chomsky [LinguísticaGenerativa] geram bem menos de um bilhão.
— Peter Norvig, defendendo a abordagem estatística da IA de críticas do linguista Noam Chomsky, ou, de outro modo, defendendo a abordagem estatística contra a abordagem simbólica da IA.
Correndo por fora, as redes neurais passam à frente e chegam ao topo
O século XXI é o que marca o crescimento da Ciência de Dados nos negócios. E é quando a IA é mais um apelido para técnicas que visam trazer mais resultados comerciais do que responder buscas como as do passado.
As abordagens baseadas em estatística se consolidam como mainstream (vide-se o mecanismo de busca do Google, um dos pioneiros) e o conceito de Deep Learning explode, não só como técnica da moda, mas trazendo resultados surpreendentes.
Note-se que nosso dia a dia na Ciência de Dados praticamente não tem mais buscas filosóficas ou de uma inteligência similar à humana. Estamos preocupados em escolher o melhor modelo, atingir as melhores taxas de performance em classificação ou em previsão e, de preferência, trazer mais receita à empresa.
Para chegar até este cenário, alguns ingredientes foram fundamentais:
avanço da Internet e dos dispositivos de captura de dados;
big data, isto é, toneladas de dados do mundo real, como nunca antes tínhamos produzido e armazenado;
poder computacional, agora não só por meio de CPUs, mas também de GPUs e computação em nuvem;
empresas de tecnologia concentrando a pesquisa e desenvolvimento em aprendizado de máquina;
o avanço de outro paradigma, o das redes neurais, agora profundas (com muitas camadas), capazes de feitos notáveis em IA especializada.
Vamos tratar de cada um desses pontos. Mas, antes, vamos relembrar um pouco da história das redes neurais. Elas são um conceito que, ao contrário da abordagem simbólica, calcada em lógica, nasceu inspirada na biologia ou na neurociência. A base teórica é do fim do século XIX.
A teoria entende que o cérebro é formado por muitos neurônios e que o comportamento humano é provocado pela ativação de grupos desses neurônios. Se esse mesmo mecanismo fosse aplicado de forma artificial, por meio de circuitos (neurônios) e corrente elétrica (ativação), seria possível construir redes neurais artificiais. Parece ser uma abordagem condizente com nossa visão atual, mas foi encarada com ceticismo até boa parte do século XX.
Antes do marco da IA simbólica em Dartmouth, experimentos biológicos em ratos já demonstravam parte da teoria, mas foram Warren McCulloch e Walter Pitts, ligados à Neurociência e à Cibernética, em 1943, que desenvolveram um primeiro modelo computacional para redes neurais baseadas em matemática e algoritmos. Isso abriu rota para a pesquisa em redes neurais artificiais.
Em 1958, Frank Rosenblatt, às vezes chamado de “pai do deep learning”, criou o perceptron, uma rede neural simples para reconhecimento de padrões. Era um começo promissor, mas Rosenblatt esbarrou em duas limitações: a impossibilidade de processamento de um tipo de circuito (XOR ou “ou exclusivo), usado em redes neurais de uma única camada, e falta de poder computacional para redes neurais com mais camadas.
Marvin Minsky e Seymour Papert destacaram os dois problemas em 1969, o que provocou uma estagnação de pesquisas na área. A questão do XOR só seria resolvida em 1975 e desenvolvida na década seguinte, com a retropropagação (backpropagation), um conceito fundamental para redes neurais profundas.
Apesar de avanços no processamento paralelo distribuído nos anos 1980, associado ao conexionismo, o problema do poder computacional teria de aguardar até o século XXI para ser efetivamente resolvido.
Até chegarmos mais perto dos nossos dias, houve uma série de avanços no campo. Aplicou-se redes neurais ao aprendizado supervisionado (em que humanos ajudam a máquina a aprender, por meio da rotulagem de dados, por exemplo) e, com sucesso crescente, ao aprendizado não supervisionado (em que a máquina aprende sozinha a partir dos dados recebidos).
Evoluiu-se algoritmos de Feed Forward Neural Networks (FFNN), rede em que o processamento ocorre sempre para “frente” (forward) em uma sequência de neurônios. Depois, o Recurrent Neural Network (RNN), em que o processamento passa pelos neurônios várias vezes. Também a Convolutional Neural Network (CNN), muito usada em processamento de imagens, e as Long Short Term Memory (LSTM), um tipo de RNN especial, capaz de lembrar do passado e encontrar padrões ao longo do tempo.
A revolução das redes neurais, porém, veio no século XXI, com a junção dos 5 fatores apontados anteriormente. A Internet e dispositivos de captura de dados preparam as bases para que coletássemos dados sem precedentes, inclusive (e principalmente) de nós mesmos, isto é, dos nossos comportamentos e sentimentos. Big data foi o resultado: a necessidade de repositórios e técnicas de processamento de dados em escala, que fugiam a padrões computacionais anteriores.
O poder computacional veio com CPUs mais poderosas, clusters delas e, em seguida, das GPUs, unidades usadas para processamento gráfico, que se demonstraram eficientes às redes neurais. (Andrew Ng é um dos envolvidos na descoberta, por volta de 2008).
O quarto fator, talvez um dos mais fundamentais, é o dinheiro. Redes neurais deixam de ser um assunto do Departamento de Defesa ou das Universidades e foram adotadas pelas big techs e startups nascentes, como Google, Facebook, Amazon, entre várias outras.
Além disso, elas passaram a atrair a maioria dos grandes pesquisadores da área e, com isso, produzir pesquisas de ponta, de preferência aplicáveis a problemas de mercado, que lhes deram enorme vantagem competitiva. Segundo a Radical AI Networks, um grupo crítico da IA, de 2018 a 2019, 58% dos artigos mais citados nas duas principais conferências de IA do mundo tinham pelo menos um autor afiliado a uma das big techs, enquanto na década anterior eram apenas 11%.
Tudo isso leva ao quinto ponto, em que muitos dados, muito poder computacional, refinamento de técnicas e ambiente propício à experimentação levam à construção e aprimoramento de redes com cada vez mais camadas, chegando aos bilhões delas, como é o caso do GPT-3, um dos frenesis do momento.
Os avanços foram rápidos e com menor distância de tempo entre eles. Em 2006, a Netflix promoveu um concurso, com prêmio de um milhão de milhão dólares, para aprimorar seu algoritmo de recomendação em até 10%, com redes neurais vencendo a disputa.
Em 2009, foi lançado o ImageNet, um dos maiores bancos de dados de imagens rotuladas do mundo, o que impulsionou treinamento e competições de redes neurais de visão computacional. Três anos depois, em 2012, Alex Krizhevsky venceu um dos concursos da ImageNet com precisão de 84% (anteriormente, a precisão alcançada chegava a 75%). Há um boom de deep learning a partir de então.
Ian Goodfellow e outros lançam o conceito Generative Adversarial Network (GAN), capaz de sintetizar dados reais — o algoritmo por trás do sucesso dos deep fakes, por exemplo. (Comentamos um pouco sobre GANs no artigo Dados sintéticos: por que vamos ouvir falar cada vez mais sobre eles).
O AlphaGo, da Google e DeepMind, vence o campeão humano do jogo Go em 2016, um jogo mais complexo do que o xadrez, o que causa furor e empolgação na área. Na época, achava-se que o feito só seria possível anos à frente.
A sensação do momento, é claro, é o GPT-3, o modelo de geração de linguagem natural mais poderoso já construído, uma rede neural com 175 bilhões de parâmetros, treinada em terabytes de dados da Internet, capaz de escrever e sumarizar textos (inclusive código), responder perguntas, entre outras habilidades.
A diferença dela, para aquelas primeiras tentativas da IA simbólica de produzir autômatos capazes de escrever e falar, é que não tem nada de lógica simbólica, conceitos humanos ou apenas estatística inferencial no capô. O mecanismo é um emaranhado de pesos e cálculos em camadas, difícil até de ser intuído e compreendido por humanos, que deriva de modelos neurais da neurociência, mas que hoje configuram construtos totalmente inéditos, bem diferentes até do cérebro humano.
Para coroar a abordagem das redes neurais, em 2018, um trio de caras persistentes e sobre os quais também vale se aprofundar — Yoshua Bengio, Geoffrey Hinton e Yann LeCun — ganharam o prêmio Turing, o maior prêmio da computação, que, não por coincidência, leva o nome do gênio Alan Turing (detalhe: vários outros nomes que aparecem neste artigo, não por acaso, também detém o prêmio).
O trio trabalhou em pesquisas mesmo nos “invernos” da IA simbólica e, por décadas, correu por fora do circuito, defendendo o modelo de redes neurais. Após praticamente 30 anos, a abordagem é o maior sucesso da área, conquistando cada vez mais domínios e adeptos.
“Eu acredito que o aprendizado profundo será capaz de fazer tudo [...]
“O cérebro humano tem cerca de 100 trilhões de parâmetros ou sinapses. O que agora chamamos de modelo realmente grande, como GPT-3 , tem 175 bilhões. É mil vezes menor que o cérebro. O GPT-3 agora pode gerar um texto de aparência bastante plausível e ainda é minúsculo em comparação com o cérebro.
“Para coisas como GPT-3 [...] está claro que ele deve entender muito para gerar esse texto, mas não está muito claro o quanto ele entende. Mas se algo abre a gaveta e tira um bloco e diz: ‘Acabei de abrir uma gaveta e tirei um bloco’, é difícil dizer que não entende o que está fazendo.
“[...] meu palpite é que, no final, vamos perceber que os símbolos simplesmente existem lá fora, no mundo externo, e fazemos operações internas em grandes vetores.
“A maioria das minhas visões contrárias da década de 1980 agora são amplamente aceitas. É muito difícil agora encontrar pessoas que discordem delas. [...]”
— Geoffrey Hinton, em entrevista à MIT Technology Review.
Indo além
Há muitas linhas do tempo (nenhuma “completa”, o que é quase impossível) e boa documentação que ajudam a entender toda essa história e mais detalhes dela. Não devemos ter percorrido nem 10% da vastidão do assunto, que, como vimos, remonta à Filosofia.
Para quem quer uma visão introdutória com referências, a Wikipedia em inglês, para as entradas “Artificial Intelligence”, “Machine Learning” e “Deep Learning”, fornece um bom começo, com referências que permitem consultar e checar a base de muitas informações.
O artigo “50 Years of Data Science”, de David Donoho, dá uma boa noção da evolução da Estatística até Data Science e sua entrada no Machine Learning.
Um mergulho a mais requer conhecer os artigos de muitos dos nomes citados neste texto (cabe notar: é um campo masculino, branco e predominantemente norte-americano, que hoje também é motivo de críticas no desenvolvimento da IA). Vários deles têm sites próprios ou hospedados nas universidades onde atuaram ou atuam, com PDFs ou versões em HTML acessíveis de seus artigos.
A quem quer se meter na aridez filosófica da área, um bom começo, com vasta bibliografia, embora o texto seja exigente e requeira conhecimentos prévios, é a entrada “Artificial Intelligence”, na Stanford Encyclopedia of Philosophy, da Universidade de Stanford.
Esse texto percorreu uma história conceitual e, ao mesmo tempo, a evolução técnica da IA, relatando o que foi concretizado até o momento.
Em um próximo artigo, exploraremos um outro lado do assunto: as buscas por uma IA consciente ou com “alma” (ou a “IA geral” ou “IA forte”, mais tecnicamente) e as inevitáveis discussões éticas que rondam o campo, além das ficções e mitos criados sobre agentes superinteligentes ou comandados por uma “singularidade tecnológica”.
Artigo escrito por Rogério Kreidlow, jornalista, que gosta de observar a tecnologia em relação a temas amplos, como política, economia, história e filosofia.