O fascínio humano por previsões (e o que Data Science tem a ver com isso)
Reflexões sobre nosso desejo por bolas de cristal; Ciência, Matemática e Estatística como persistências nesse domínio; Sistemas Complexos que nos desafiam e o que realmente buscamos
Prever o futuro é algo que nos fascina, provavelmente, desde a Revolução Cognitiva1, algo entre 70 e 30 mil anos atrás, quando passamos a ter noção da passagem do tempo. Não era para menos: éramos um animal insignificante em meio a um mundo natural desconhecido, exigente e hostil, e precisávamos sobreviver. Qualquer artefato ou poder que nos permitisse ir além de nossas heurísticas cerebrais (um bom mecanismo de cálculo de probabilidades e decisão, porém a curto prazo), era uma vantagem e tanto.
Milênios depois, um desses artefatos (ou um conjunto deles), que pode até parecer feitiçaria, mas que leva Matemática sob o capô, tem o nome de Data Science. Tudo bem, isto não nos permite ver o futuro como se estivéssemos assistindo a um seriado de nossas vidas, nem nos dá o poder (ainda) de interferir no que irá acontecer.
Mas é um campo de uma insistência maior chamada Ciência, que, insatisfeita com qualquer justificativa e dada a refutações, vai avançando em domínios cada vez mais difíceis, a ponto de, quem sabe um dia, nos ajudar a resolver as duas maiores pretensões humanas: felicidade constante e vida eterna2.
É pouco matemático ou científico pensar nesses termos tão filosóficos? O que isso teria a ver com algoritmos ou qualquer técnica de Data Science? Obviamente, o texto não é sobre técnicas da Ciência de Dados, mas uma maneira de observar como a área tem muito mais relação com grandes questões — “para onde vamos”, por exemplo — do que pode parecer à primeira vista.
Nos primórdios, só imaginação
Por milênios, previsões foram assunto para profetas ou sacerdotes, muito mais do que de gente ocupada com o mundo do trabalho. Atribuíam-se aos deuses bem-aventuranças, como uma colheita melhor, um inverno ameno, a cura da uma doença de um ente querido, bem como desgraças, como uma praga de gafanhotos, uma seca, guerras, sofrimento e a morte.
Provavelmente, por meio de tentativa e erro, como ocorreria com o uso de ervas medicinais e curandeirismo, mas na maior parte baseada apenas em intuição e imaginação — potencializadas por êxtases, delírios e terrores individuais ou coletivos —, prever ou predizer envolvia criar narrativas com fins moralizantes, pré-legislativos, enfim, reguladores da vida em grupo, sem medida de confiança entre o que se previa e o que aconteceria de fato.
Além disso, muitas dessas narrativas eram bastante ambíguas e sujeitas a interpretações conflitantes e belicosas, até porque havia poucas questões racionalizados. Havia todo um mundo físico e natural a ser conhecido e domesticado. Toda a computação existente era executada por meio das mesmas heurísticas cerebrais que nos ajudam (e não raro nos enganam) desde que existimos.
Decisões para impedir ou acelerar acontecimentos previstos iam na mesma linha. Técnicas rudimentares para o que era mais concreto e mundano. Rezas, sacrifícios e todo tipo de ritual para o que era mais “espiritual” e muito mais distante de qualquer possibilidade de controle.
Com exceção de poucos privilegiados, a humanidade mais se resignou e aceitou seu “destino” durante boa parte de sua existência do que se mostrou inconformada e disposta a vasculhar soluções possíveis. Até porque estava bem mais ocupada em sobreviver do que se dar ao luxo de elaborar abstrações.
Essa mentalidade, retroalimentada (afinal, se deuses tudo sabe e tudo governam, o que sobraria para nós?), perdurou sem grandes sobressaltos até idos dos séculos XVI e XVII.
As portas para uma nova forma de encarar as coisas, entre elas o futuro — que, gradualmente, até os dias atuais, deixaria de ser destino para se tornar possibilidade —, foram abertas pelo que chamamos de Ciência Moderna, com a Idade Moderna.
A partir desse momento, entra em cena a maior “exterminadora” de crendices e magia que se conhece, algo que parece tão enigmático quanto, mas que não tem nada de sobrenatural, apenas um rigoroso processo racional, algo que quando conquista um domínio, torna-se praticamente imbatível: Matemática.
Matemática contra imaginação
Paradoxalmente, foi vasculhando os céus que encontramos maneiras de, mais tarde, lidar melhor com a incerteza, que tem tudo a ver com futuro. Foi na Astronomia que métodos como o de mínimos quadrados3 foi descoberto (ou inventado?4), algo entranhado na Matemática, mas que aos poucos ajudaria a dar origem a uma das ferramentas mais poderosas que temos para lidar com previsões: Estatística.
A Estatística se mostrou uma daquelas coisas que conseguimos generalizar para quase todas as áreas do conhecimento humano e que é parte indissociável do método científico. Por sua relação com a precisão numérica, relaciona-se extremamente bem com sistemas determinísticos, por exemplo.
Entretanto, ela brilha mesmo em sistemas do mundo real não determinísticos, mas probabilísticos, principalmente aqueles que tendem a distribuições normais: crescimento da população (Geografia), variações do Produto Interno Bruto (PIB) de um país, taxa de contaminação em doenças (Epidemiologia) ou índices de doenças cardíacas relacionadas à obesidade (Medicina), geração ou distribuição de energia (Engenharia), até preferências do eleitorado (Ciência Política) ou nosso comportamento (Psicologia).
Boa parte da qualidade de vida que experimentamos no século XXI deve-se muito à Estatística, por ter possibilitado a governos e outras instituições entender o que acontece na realidade, para, então, formular políticas e estratégias de mitigação de problemas e, ao mesmo tempo, acompanhar a evolução das melhorias desenvolvidas. Prognosticar cenários (outro nome para tentar prever o futuro) é uma das partes inerentes dessas aplicações.
(Vale lembrar que, apesar de seus inestimáveis benefícios, em seus primórdios, no século XIX, a Estatística também flertou com fins nada nobres: vontade de “melhorar a sociedade” por meio de eugenia, o que é tema para outra história).
Tudo isto ocorreu antes e independentemente de computadores, Internet e bancos de dados eletrônicos. Porém, se Estatística roda sobre a Matemática, e computadores são excelentes para isso, e se ela necessita de dados para retornar resultados, e computadores, de novo, são ótimos para armazenar e relacionar mais e mais dados, faltava os computadores surgirem para reavivarmos esperanças em prever o futuro.
Chega-se, assim, ao Big Data e às origens de Data Science, resumida no clássico diagrama de Venn de Drew Conway, de 2010. Por nascer em uma era pró-mercado, não demorou para a área associar-se a outro desses campos multidisciplinares — uma das grandes invenções do capitalismo norte-americano —, que hoje perpassam quase todos os domínios da vida: Marketing.
Na década de 1980, empresas dos EUA já debatiam sobre como analisar dados captados de scanners de códigos de barra, onde se acreditava haver um número de possibilidades ocultas a explorar sobre tendências de vendas — novamente, tentar prever o futuro.
Em 1994, a revista BusinessWeek estampava matéria de capa sobre um tal de “Database Marketing”. Anos antes (o relato mais preciso parecer ser de 1990) surgia a pegajosa história da correlação entre vendas de fraldas e cervejas nos Estados Unidos, um mito que permeia diversos textos sobre marketing e dados (o viés da correlação como causalidade também já aflorava nessa lenda).
Reza a lenda — ela também, uma criação “marqueteira” — que, por meio de mineração de dados (data mining, uma espécie de “tio” de Data Science), descobriu-se que pais jovens, ao comprarem cerveja em determinado dia e horário (há versões que citam fins de semana, sexta-feiras, fins de tarde etc.), tendiam a comprar também fraldas, e que uma rede varejista teria, então, reorganizado suas lojas para deixar os dois produtos mais próximos, lucrando muito com isso.
O que ocorreu na realidade, segundo a fonte que parece mais confiável sobre o assunto, é uma história mal contada e bem menos empolgante do que essa versão de sucesso comercial. Mas o caso ilustra uma ambição que impulsiona startups, alimenta o hype da Ciência de Dados e demanda mais e mais data scientists.
O que a Econometria já fazia com séries temporais e com regressão, para tendências no mundo financeiro ou análise de risco, por exemplo, Data Science extrapolou para uma gama de outros domínios, principalmente comportamento do usuário.
Como o principal produto oferecido via web é, originalmente, conteúdo, a Economia da Atenção foi dissecada por meio de mapas de calor de navegação em páginas, quantidades de cliques, áreas mais clicadas, tempo de permanência em tela, de leitura ou de visualização de vídeos.
Na sequência, com o e-commerce, conseguiu se cruzar estes dados de uso com os de compra e “otimizar jornada de usuário” — na prática, padronizá-la — para que aplicativos fossem mais fluídos, mais “intuitivos” (exigem menos do sistema racional e impulsionem tomadas de decisão por meio do sistema emocional), visando, novamente, aumentar o consumo.
Uma vez descobertos padrões (eventos que se repetem), ficou fácil transformar a análise preditiva em decisões prescritivas. É o que é feito com os sistemas de recomendação ou os sistemas que enviam o motorista de Uber mais próximo do passageiro, por meio das rotas de trânsito mais rápidas.
Nesse âmbito, com poder computacional e um oceano de dados, também ficou fácil não apenas analisar e passar relatórios adiante para que gestores tomem decisões, como era feito em Business Intelligence (este, uma espécie de “primo” mais velho de Data Science).
Pode-se aplicar e aprimorar algoritmos de Machine Learning e, mais recentemente, de Deep Learning, para fazer muito do trabalho sozinho, algo necessário na economia de escala em que vivemos.
Recurrent Neural Network (RNN) é um desses algoritmos que potencializa a análise de séries temporais que já vinha sendo feita lá na Econometria, garantindo ganho de escala em previsões. Differentiable Neural Computers (DNC) parece um modelo capaz de ir além ao lidar com escalas de tempo longas.
Muito do que esses algoritmos fazem, na prática, é, com base em dados de uma sequência temporal anterior, reconhecer e projetar o que vem a seguir. A capacidade da Google em autocompletar uma frase digitada em seu campo de busca, de certa forma, é resultado disto. É como se a máquina tivesse o poder de adivinhação, aproximando-se da feitiçaria lá do começo, mas baseada na “aniquiladora de mitos” Matemática.
Olhando em retrospecto, até pode parecer que chegamos no limite. Com base em dados de uma tempestade ou ciclone que se aproxima, já sabemos que usuários não só irão estocar água e papel higiênico, mas qual quantidade irão estocar e qual filial da rede varejista será mais impactada pela busca desenfreada por esses mantimentos. Conseguimos saber com precisão até quantas unidades serão vendidas em cada ponto de vendas ou entregues por meio de pedidos. Parece que domamos inclusive a previsão do temporal, um dos grandes exemplos de força da natureza.
Até que em um belo dia surge um pequeno vírus, como a Covid, e deixa tanto nós quanto nossos algoritmos preditivos completamente perdidos, sem conseguir enxergar um palmo à frente do tempo.
É um choque de realidade: ainda não conseguimos prever se uma nova guerra irá acontecer nos próximos cinco anos, não conseguimos chutar com precisão quem irá ganhar o campeonato do ano que vem, não sabemos o que nos reservam as próximas eleições, só nos resta recorrer aos deuses, lá do início, para tentar ganhar na loteria ou para que nossos investimentos em ações não derretam da noite para dia sem explicações.
Não temos nenhuma garantia de que nossa vida será mais feliz no próximo ano ou se ainda estaremos vivos até lá. Ou seja, felicidade constante e vida eterna continuam bem distantes, apesar de nossos avanços computacionais, de toneladas de dados e de matemáticos quebrando a cabeça há séculos.
Complexos, dinâmicos e caóticos
Entramos no domínio dos Sistemas Complexos, onde o todo é mais que a soma das partes (a chamada propriedade emergente), onde há troca de informação (ou matéria ou energia) constante com o ambiente, o qual, para complicar, podem ser outros sistemas complexos. Ou nos vemos às voltas com os sistemas onde impera o caos determinístico (aqueles onde o bater de asas de uma borboleta em um continente pode provocar um furacão em outro).
Se no capítulo anterior nossas ferramentas, que podemos resumir em Data Science, podem, em determinados casos, parecer bazucas para se matar mosca, aqui são como pazinhas de matar moscas tentando derrubar pterodáctilos. Simplesmente, seria ingenuidade tentar fazer uma previsão com o que temos à mão neste contexto (às vezes, um feiticeiro ainda é mais viável, pelo menos para aliviar o desespero).
A meteorologia é um destes sistemas que esmiuçamos desde os primórdios. Mas da reza e rituais aos cálculos computacionais, o que conseguimos é prever a probabilidade de chover amanhã em uma determinada região, sem a certeza se irá chover mesmo em um ponto mais específico. Qualquer coisa para além de quinze dias já se torna desperdício de recursos. Uma alteração sensível nas partículas das nuvens podem causar reviravolta no sistema a ponto de termos novamente de estocar papel higiênico.
Sistemas que nascem do comportamento humano ampliam as dificuldades de conhecimento. Cultura, linguagem, sistemas sociais e mercados encaixam-se nessa categoria. O mercado de ações, principalmente, é um destes sistemas esmiuçados à exaustão ao longo de décadas e que volta e meia nos passa a perna, descaradamente, com nossa pretensão de previsões (ganhar dinheiro parece ser a prioridade número um enquanto vida eterna e felicidade permanecem longínquas).
Em 1927, a alta da Bolsa de Valores de Nova York parecia um fato a ser perpetuado no futuro, conforme narra o livro Capitalismo na América: Uma História, de Alan Greenspan (ex-presidente do Federal Reserve de 1987 a 2006) e Adrian Wooldridge.
Muita gente foi incentivada a investir em ações. Os preços pareciam alcançar “um planalto elevado permanentemente”. Na sequência, o mercado caiu 37%, mas voltou a subir, como se estivesse tudo de volta ao “normal”.
A retomada foi breve e a queda seguinte foi vertiginosa. O forte relacionamento entre papéis ditos “tóxicos” muito alavancados, como ocorreu também em 2008, torna sistemas como estes muito vulneráveis: uma queda pode puxar outra até levar todo o mercado (sistema) ao caos.
Alguns experimentos engraçados foram realizados para mostrar a imprevisibilidade do mercado de ações. Na década de 1970, uma simulação de 100 macacos jogando dardos nas páginas financeiras de um jornal, para selecionar ações, mostrou que eles se saíram tão bem quanto especialistas munidos de dados, previsões e experiência.
O mesmo experimento, repetido de 1964 a 2010, demonstrou desempenho maior para os macacos — mas a carteira de ações em que eles jogavam teria ajudado com o resultado.
Em 2012, experiência parecida foi feita com um gato. Investidores se propuseram a enfrentar um grupo de estudantes e um gato chamado “Orlando” no gerenciamento de investimentos. O carteira selecionada pelo gato rendeu mais — e os “deuses” da sorte certamente deram risadas de nós.
Casos engraçados à parte, a Covid demonstrou como um “Cisne Negro” — o autor do conceito a considera um “Cisne Branco” — desnortear tanto nós mesmos como nossos algoritmos. Em questão de dias, séries históricas de vendas em restaurantes, agências de turismo ou frequência em academias praticamente foram quebradas, enquanto o consumo de conteúdos via internet e entregas a domicílio por aplicativos dispararou exponencialmente.
Imagine-se o caso hipotético de uma pesquisa sobre mobilidade urbana sendo executada entre 2019 e 2021 e tomada de assalto pela pandemia. Consideram-se os dados de apenas dois anos? Joga-se fora toda a pesquisa? Tenta-se normalizar dados de 2020? Os resultados, projetados para o futuro, serão confiáveis?
O caso de algoritmos preditivos, que usam dados temporais para previsão, pode ser ainda mais complicado. Os dados de 2020 deveriam ser excluídos da base de treinamento ou de testes? Eventos dessa magnitude parecem ter o poder de “emburrecer” até a Inteligência Artificial.
Chegamos ao nosso limite, então? Devemos reconhecer a derrota? Jamais conseguiremos realizar previsões em sistemas complexos, dinâmicos e caóticos? Melhor nem gastarmos energia e ficarmos confortáveis nos domínios onde só há Curvas de Gauss? Incerteza é uma força indomável, a qual, como nossos ancestrais, resta temermos e nos resignarmos?
Para onde vamos?
Uma vez picado pelo vírus da Ciência, o ser humano vai continuar insistindo em “melhorar” sua vida, e isto passa pela busca da felicidade constante e da vida eterna citadas no início.
Quem garante que chegamos a possíveis limites? Melhor: há limites para o conhecimento? Para uma analogia, quando Galileu teve de se explicar à Inquisição, no século XVII, chegava a ser pecaminoso pensar que a Terra girasse ao redor do Sol. Hoje, o absurdo seria o contrário.
Mesmo em uma área “dura” como a Matemática, onde não é todo dia que se faz uma nova descoberta significativa, que leva tempo para acontecer e, principalmente, para que seus avanços se tornem engenharia e sejam testados em batalha, vale lembrar que problemas como os dos sistemas complexos já vem sendo estudados.
Entram nisso Teoria de Sistemas Dinâmicos, Teoria Ergódica (propriedades estatísticas desses sistemas) e Teoria das Bifurcações (que estuda sistemas fortemente sensíveis a variações, como na ecologia, em que uma pequena interferência pode levar, com o tempo, à extinção de uma espécie).
Quem apostaria contra que em alguns séculos a humanidade, já equipada com computadores quânticos, não possa encontrar o fio (ou alguns fios) da meada que relacione “entradas” a “saídas” nesses sistemas?
Pensando-se em sistemas humanos, como cultura, mercado e conflitos, como o historiador Yuval Harari trata em Homo Deus: uma breve história do amanhã, em que discute a questão da felicidade e vida eternas, quem dirá que não implantemos em nós nanorobôs capazes de nos monitorar a nível bioquímico e que não usemos dados captados por essas células inorgânicas para prever o surgimento ou a disseminação de doenças epidêmicas? Ou que não consigamos rastrear até surgimentos de tendências da moda?
Obviamente, não sairemos implantando dispositivos no corpo do dia para a noite, como o próprio historiador contextualiza. A mudança sempre é gradativa, às vezes imperceptível, em nome da qualidade de vida (da busca pela felicidade e vida eternas): um chip que ajude a monitorar condições clínicas de pacientes crônicos, depois outro que pode monitorar e melhorar as condições de sono, talvez um que lance substâncias na corrente sanguínea para controlar neurotransmissores em pessoas com psicopatologias. Não é nada de outro mundo, apenas avanços com base em dados biométricos.
O que Data Science tem a ver com isso? Parece que nem precisamos de um sofisticado modelo preditivo para palpitar que a área tende a estar e continuar no centro ou pelo menos relacionada a todas estas questões e discussões.
Ela acompanhará os avanços da Matemática e provavelmente será responsável por implementar muitos deles na prática, por meio da computação, já que é agnóstica e útil a diversos domínios, das finanças à produção industrial, de tráfego a saúde, de comunicação a psicologia. Seu poder é fazer a ligação entre abstrações dos números e aspectos (dados) da realidade.
Qual outro jeito haveria, afinal, de persistirmos no caminho aberto pela Ciência: voltarmos novamente aos rituais, rezas e feitiçaria de nossos antepassados? Não parece que estejamos interessados ou que seria “eficiente” à nossa visão. Além disso, a Ciência de Dados não só será a implementadora de avanços nestas questões, mas estará no centro das discussões sobre se tudo isso será ético ou não, o que é outra longa e pertinente história.
A bola de cristal deixou a ficção ou feitiço para ganhar materialidade, e novas esperanças, na junção de dados, poder computacional e modelos matemático-estatísticos.
Artigo escrito por Rogério Kreidlow, jornalista, que gosta de observar a tecnologia em relação a temas amplos, como política, economia, história e filosofia.
Revolução Cognitiva é um conceito utilizado pelo historiador Yuval Harari no livro Sapiens: uma breve história da humanidade. Trata-se do surgimento da linguagem e das novas formas de pensar e de se comunicar — principalmente, de abstrair — que ela possibilitou, o que permitiu a humanos formarem grupos cada vez maiores e ter vantagem sobre outras espécies. Não confundir expressão utilizada para designar movimento científico dos anos 50, que deu origem à ciência cognitiva.
Ambos os temas, felicidade eterna e vida eterna, também são tratadas por Harari no livro Homo Deus: uma breve história do amanhã, como, possivelmente, as maiores buscas da humanidade após esta já saber lidar com guerras, fome e pestes, o que pode levar humanos, via biotecnologia e tecnologia da informação, a modificar a si mesmos a ponto de se tornarem trans-humanos ou pós-humanos.
Em History os Statistics before 1900, Sthephen M. Stigler traça um histórico de como estudos em Astronomia abriram portas para a Estatística. O método de mínimos quadrados vem desta ciência.