“Tretas” de família entre Ciência de Dados e Método Científico
Os desafios, questionamentos e amadurecimentos que a jovem Ciência de Dados vive ao ser confrontada com os legados do "avô", o Método Científico, e da "mãe", a Estatística
O que Ciência de Dados e Método Científico têm em comum? São a mesma coisa ou, ao menos, parecidos? Ciência de Dados pode ser considerada “Grande Ciência”, aquela que busca a cura de doenças (em nossos arquétipos, praticada por especialistas de jaleco branco, em laboratórios, por meio de tubos de ensaio e microscópios)? É como a Estatística, não mais que uma ferramenta do Método Científico? Ou seria apenas mais uma prática do mercado, quando muito uma engenharia baseada em probabilidades em vez de regras?
Questões como essas talvez intrigam menos cientistas de dados do mercado do que acadêmicos de áreas relacionadas, como da Estatística (principalmente) ou de disciplinas calcadas no Método Científico, mas que também se valem de computação e dados de forma intensiva, como Física, Astronomia e Biologia.
Para quem busca apenas correlação entre tuítes raivosos e churn de clientes em um produto, tais questionamentos podem, realmente, nem passar pela cabeça. “Eu sigo algumas etapas, procuro assegurar alguma qualidade dos dados e passo horas tentando tornar a regressão mais precisa, para mostrar resultados ao gerente ou ao CEO. O que isso tem a ver com método científico?”, pode-se perguntar o profissional absorto em tarefas do dia a dia.
A relação entre Ciência de Dados e Método Científico é umbilical, praticamente uma história de família. Como tal, tem momentos ternos e conciliadores, mas também intrigas, disputas e brigas geracionais. Na condição de “filha” de uma dama respeitada e resguardada (a Estatística) e “neta” de um poderoso e influente senhor (o Método Científico), a Ciência de Dados herda jeitos e costumes de ambos, mas, como toda jovem, é dada a rebeldias, ressentimentos familiares e à vontade juvenil de “mudar o mundo” — no que puxou ao avô.
Conhecer como essa novela se desenrola ajuda a enxergar a Ciência de Dados além do último framework da moda, saber o que é importante cultivar dessa relação, separar discussões profundas de polêmicas infrutíferas e imaginar como os próximos capítulos dessa série irão se desenrolar. Vamos começar com a genealogia dos antepassados.
Ancestrais e o nascimento do avô
Ciência vem de “scientia”, do latim, que significa “conhecimento”. Nossa vontade de obtê-lo deve ser um ancestral primitivo do “vovô” Método Científico. Imagina-se que cálculos de um proto-matemático hindu ou estudos da pólvora de um alquimista chinês também façam parte da linhagem. Mas, de documentado mesmo, sabemos que são “tataravós” do Método descobertas feitas por alguns gregos famosos.
Um membro importante da família certamente vem de Alexandria, no Egito, onde Euclides (fl. 300 a.C.) fez contribuições à Geometria, Teoria dos Números, Física Óptica etc. — Matemática está no DNA do Método. Outro familiar conhecido vem das conjeturas de Aristóteles (384-322 a.C.), o filósofo que praticamente classificou o conhecimento em áreas que estudamos até hoje, da Lógica à Poética, da Metafísica à Ética. Trezentos anos antes de Cristo, Aristóteles já diferenciava peixes de mamíferos aquáticos com um método um tanto rudimentar, mas que perdurou por dois mil anos e praticamente fundou a Lógica: o “silogismo”, a conhecida dedução de que se “todo homem é mortal e Sócrates é homem, então Sócrates é mortal”.
Muito desse conhecimento, principalmente mais “quantitativo”, acabou desenvolvido por árabes e persas, na esteira do Império Romano do Oriente, depois que o do Ocidente (a Europa), mais ocupado com a prática do que com teorias, esqueceu-se de traduzir escritos do grego para o latim e se fragmentou nos feudos da Idade Média. Ibn Al-Haytham ou, latinizado, Alhazen (965-1040), físico e matemático persa, que fez importantes contribuições à Óptica, é um dos nomes do período. No século XI, já acreditava que hipóteses deveriam ser provadas por meio de experimentos, de forma sistemática.
Tal conhecimento foi recuperado pelo Ocidente com as Cruzadas contra o Islã e, por fim, virou objeto de estudos de monges dedicados à Escolástica, a filosofia medieval patrocinada pela Igreja, que misturou pensamento racional de Platão e Aristóteles com a fé cristã. A Universidade de Oxford, na Inglaterra, teve uma participação especial nisso: foi lá que dois escolásticos franciscanos, Roberto Grosseteste (1168-1253) e seu discípulo, Roger Bacon (1214-1294), uniram observação, hipóteses e experimentação com rigor matemático para investigar a natureza, no que é considerado um início do método científico moderno.
É interessante como estudos da Física Óptica estão relacionados ao passado do Método Científico (a luz está no cerne das descobertas de Einstein e da Física Quântica, hoje na vanguarda do conhecimento). Pois foi olhando por lunetas e telescópios avançados para a época, e alicerçado em Matemática e não mais em crenças, que Galileu Galilei (1564-1642) quase acabou na fogueira da Inquisição, mas comprovou por experimentos a teoria de Copérnico, de que a Terra gira em torno do Sol, além de fazer uma séria de outras contribuições. É convenção que a mãe do Método Científico, a Astronomia, deu à luz o filho nessa época.
A essa altura, a Europa já havia iniciado as Grandes Navegações e esbarrado em um novo continente (1492), que lhe proporciona riqueza em abundância (essencial para sociedades desenvolverem conhecimento). A prensa móvel de Gutenberg (1400-1468), por sua vez, alavancava uma reviravolta na disseminação do conhecimento (e de teorias da conspiração).
A criança era disputada desde então. Incomodado com a filosofia que vinha desde os Escolásticos, calcada no mundo das ideias de Platão e no silogismo de Aristóteles, Francis Bacon (1561-1626) defendeu que o conhecimento deveria servir para o “homem dominar a natureza”. Em seu “Novo Organum” — “Organum” é o corpo de conhecimento aristotélico —, lançou as bases do Empirismo moderno, calcado no ceticismo (olhar a natureza sem crenças), na experiência sensorial (observação) e na indução (analisar as partes, os casos particulares, para só então generalizar o todo), o que está na essência da filha do Método Científico, a Estatística. (Só havia um problema, o do “cisne negro”, também conhecido como problema da indução. Se eu observo um, cem, mil, um milhão ou um bilhão de cisnes brancos, posso generalizar que não há cisnes negros? Um problema de ciência e lógica.)
Então, chegou René Descartes (1596-1650). Ele juntou Geometria com Álgebra e nos deu as coordenadas gráficas que até hoje usamos na visualização de dados. Foi ele quem propôs decompor problemas maiores em partes menores. Conhecido pelo “penso, logo existo”, um lema racionalista, decretou que o objetivo do conhecimento era encontrar leis universais, por meio de equações matemáticas, que explicassem todas as coisas — diferente de Francis Bacon, ele acreditava na razão em detrimento da observação, no método dedutivo (ir do todo para as partes), algo característico de sua área, a Matemática. A teoria de Descartes ficou conhecida, um tanto pejorativamente, como “Determinismo Mecanicista”, foi um cânone até o início do século XX e ganhou até um certo “revival” com Big Data e Ciência de Dados.
Auguste Comte (1798-1857) atuou basicamente como marqueteiro de tudo isso com o Positivismo, levando a visão de Bacon e de Descartes (de que se descobriria leis universais para tudo, descritas por fórmulas matemáticas) das Ciências Naturais às então nascentes Ciências Sociais, principalmente à Sociologia. A corrente virou até religião, a Religião Humanista, que tem sua crença central na racionalidade e na Ciência Clássica, foi adotada pela Maçonaria e se embrenhou em ideologias políticas (a proclamação da República do Brasil e o “Ordem e Progresso” de nossa bandeira são feitos positivistas).
Tudo isso fluiu para o mundo prático com o “progresso” científico e tecnológico (à custa, não se pode esconder, de destruição da natureza, problemas urbanos e várias outras questões). Mais tarde, o termo desembocou no conceito de “razão instrumental” e que, em seu cúmulo, segundo críticos, foi caminho ao Holocausto.
Os problemas em aberto da Filosofia e da conceituação do Método Científico, o “progresso” — nessa altura, Darwin (1809-1882) já dissera que descendemos de primatas e a Relatividade Geral de Einstein (1879-1955) desbancava a Gravidade de Newton — e os horrores da Segunda Guerra deram origem a várias escolas de pensamento, entre elas o Positivismo Lógico, principalmente em Viena, na Áustria, que encarou problemas como o da indução (“cisne negro”), mas ainda calcada numa visão de que tudo era passível de verificação (“verificabilidade”) de forma objetiva (separação de pesquisador e objeto) e empírica (dos casos individuais para as generalizações).
Com a Guerra, muitos pensadores, matemáticos, físicos e filósofos envolvidos direta ou indiretamente com essas questões acabaram migrando aos EUA, onde trabalharam, como cientistas, na indústria da Guerra e em universidades americanas, fazendo contribuições aos avanços da Teoria da Informação, Teoria dos Jogos, Computação Teórica, Estatística e, mais tarde, na indústria da Computação. (A Ciência de Dados herda muito de tudo isso).
Descendente do Positivismo Lógico, mas superando-o, Karl Popper (1902-1994) foi quem fechou muitas das pontas em aberto do Método Científico, como a questão do “cisne negro”. Em vez da “verificabilidade”, ele se concentrou na “falseabilidade” como essência da Ciência. Popper conciliou as “teorias”, as narrativas que criamos na tentativa de explicar o mundo, como “conjeturas”, ideias iniciais, meio malucas às vezes, que nos propomos a testar por meio de experimentos rigorosos, ou as deduções que posteriormente fazemos sobre os resultados encontrados, que são “eternas teorias provisórias”, passíveis de serem refutadas a qualquer momento por outros experimentos e comprovações. O método é conhecido como “hipotético-dedutivo”.
A partir disso, pôde-se afirmar que uma teoria possível de ser falseada por meio de experimentos é, de fato, “científica”, enquanto que teorias que não podem ser falseadas, que vão da Astrologia à Psicanálise (o que deixou muita gente furiosa com Popper) são narrativas, filosofia, “religião”, mitos — pseudo-ciência. O progresso do conhecimento, dessa forma, acontece por via negativa: tentativa (teorias provisórias, calcadas em experimentos) e erro (refutações, também com base em experimentos), sem nunca se chegar a conhecimento “totalizante” capaz de explicar tudo.
Atualmente, o ensino tradicional e nosso desejo por fórmulas prontas ainda colocam o Método Científico como um passo a passo fixo, mais ou menos com cinco etapas: a) deparar-se com um problema ou dúvida; b) formular hipóteses (conjecturas) sobre por que a questão ocorre; c) coletar dados e realizar experimentos empíricos, observacionais; d) analisar os resultados obtidos, para saber se validam ou refutam as hipóteses formuladas; e) divulgação dos resultados para que outros interessados possam verificar, refazer os experimentos ou dar continuidade aos estudos.
Na prática, não existem etapas definidas. Como disse Carl Sagan, astrônomo e grande divulgador científico: “A ciência é uma forma de pensar, muito mais do que um corpo de conhecimento” (um artigo na Discovery Magazine é bem menos polido). Tem mais a ver com o perfil procurado em ambientes de negócio atualmente:
ser criativo, curioso — ser instigado pela “irritação da dúvida”, como diria Charles Sanders Peirce (1839-1914);
afastar crenças e preconceitos (subjetividade) ao lidar com fenômenos;
ser empírico e analítico, o que tem a ver com rigor e disciplina na experimentação e na análise de resultados;
ser intelectualmente honesto, difundindo o que foi encontrado, inclusive com erros e imprecisões, para que outros possam verificar e dar continuidade aos estudos.
Eis os melhores momentos da história do Método Científico, o influente e poderoso avô da família. A filha, Estatística, foi educada para ser a queridinha do papai (dar continuidade ao seu legado, mas nunca se sobrepondo a ele) e, exceto por seu relacionamento, tem sido um orgulho da família.
A filha CDF (e o parceiro heterodoxo)
O Método Estatístico ficou bom em raciocínio e até em criatividade. Seu negócio é olhar o quadro geral, observar onde há problemas ou dúvidas, usar a imaginação para unir teorias, olhar com ceticismo uma questão que parece resolvida, dar continuidade a pontos em aberto de descobertas anteriores, formular hipóteses e elaborar conclusões generalizantes, quem sabe formular uma teoria mais consistente a partir dos resultados. É o mundo do avô.
No entanto, havia algo para o qual ele não tinha tanta paciência: a necessidade de contabilizar casos, calcular intervalos de confiança, enfim, lidar com números, antes de tirar conclusões. Não à toa, sentiu-se atraído por uma dama elegante, a Matemática. Método Científico e Matemática estão muito à frente de seu tempo e preferem cultivar uma relação aberta com outras áreas. De seu relacionamento, porém, nasceu uma filha exemplar, educada aos moldes do pai, porém mais centrada e recatada: a Estatística.
A filha seguiu à risca a tradição familiar. Completou o pai na questão da quantificação e realizou o grande feito de aplicar rigor e precisão herdados da mãe sobre feitos do genitor. Meticulosa e organizada, criou formas de lidar com um aspecto fundamental do conhecimento sobre o mundo real: a quantidade de incerteza existente em eventos. Além de filha preferida, tornou-se queridinha dos seguidores do patriarca, por avançar em seu legado sem jamais maculá-lo.
Tome-se como exemplo da importância da Estatística a criação mais desejada de nossos dias. Não é o próximo iPhone nem qualquer gadget ou aplicativo consumidor de atenção. É a vacina contra a Covid. O Método Científico, com sua sabedoria, é quem conecta estudos passados, permite relacionar a doença atual com surtos de outras doenças, monta a lógica de criação de uma vacina e não se cansa de pensar a respeito. Pode usar e abusar de abordagens dedutivas, hipotético-dedutivas, abdutivas ou mesmo analogias para imaginar saídas. Mas é a filha, com pé no chão, seriedade e calcada na inferência indutiva — seu rigor às vezes até frustra a imaginação do pai —, quem calcula a eficácia da vacina, se ela causa efeitos colaterais, quais as chances destes se manifestarem ou por quanto tempo a imunidade é garantida, em média.
A parte empírico-analítica herdada do pai é onde a Estatística mostrou a que veio. Trouxe contribuições como significância estatística e probabilidade ao mundo do pai. Mostrou que dificilmente há certeza (ou incerteza) absoluta, “sim ou não”, “preto no branco”, ou relações de causa-efeito simples. Apurou o olhar quantitativo sobre fenômenos.
Há quem desdenhe dela, geralmente por não conseguir acompanhar o raciocínio, quando afirma algo como: “A probabilidade de desenvolver câncer de pulmão é quase 20 vezes maior em fumantes de cigarro em comparação com não fumantes”. Outros caçoam se diz: “Há probabilidade significativa de um impacto catastrófico de um meteorito com a Terra em algum momento dos próximos 200 mil anos”. Mas a Estatística foi educada nos moldes aristocráticos da mãe. É séria, preocupada e nada versada em piadas.
Ela deixou de ficar chateada com seu próprio jeito. Entende que muito do que afirma não é intuitivo ou, como a questão do meteorito, muito distante das dimensões e da imprecisão humana. Às vezes, é obrigada a acrescentar algo como, no caso do cigarro: “Indivíduos que fumavam mais de um maço de cigarros por dia e que pararam de fumar no último ano tiveram taxa de mortalidade maior do que aqueles que continuaram a fumar no mesmo período”.
“Então, é melhor continuar fumando do que parar no último ano!”, concluirá um desavisado ou tendencioso. A Estatística deixou estas explicações com o pai, mais disposto à comunicação e às polêmicas. “É que a maioria dos que pararam de fumar já tinham sido diagnosticados com alguma doença”, diria o patriarca, ao que a filha chamaria de “viés sistemático”.
Da hipótese nula (a ser refutada) à variabilidade natural, aleatória ou sistemática em um conjunto de dados, do nível de confiança (que separa ocorrências significantes daquelas que se devem ao acaso) aos conceitos de população e amostra, a Estatística foi invejável em honrar a família.
Um único fato que parece tê-la desabonado em círculos tradicionais foi se relacionar com um rapaz mais novo, inicialmente tímido (mas muito ambicioso) e pouco ortodoxo para os padrões da família, chamado Computação. Más línguas dizem que ela se uniu a ele por interesse, mas, entre discussões, arroubos conservadores dela e de inovação dele, ambos continuam juntos e tiveram uma filha, que é o assunto dessa trama: a Ciência de Dados.
Na infância, a menina ficou sob a saia da mãe e, de certa forma, se viu limitada pelo pai. Mas na adolescência e, agora, na juventude, tem dado uma de influenciadora, arrebanhando seguidores (também detratores) e, em um típico arroubo juvenil, começou a dar sinais de querer “mudar o mundo”.
Há quem diga que há muito da gana do avô e da heterodoxia do pai em seu jeito. Uns especulam que o pai a influenciou demais nos últimos anos, o que teria aumentado divergências com a mãe e o avô. Outros aventam que, no fundo, a garota tem uma competição velada com a mãe, a quem respeita e deve muito, mas que considera limitada, como se tivesse a missão de superá-la. Há quem opine, ainda, que a Ciência de Dados é apenas uma jovem, como várias outras, tentando encontrar seu lugar ao sol e se deparando com escolhas e responsabilidades da vida, e que é natural que haja desentendimentos geracionais. O fato é que, entre mimada e resoluta, inteligente e rebelde, a moça tem dado o que falar em relação ao passado da família.
“Tretas” da neta
A maior polêmica em que a Ciência de Dados se meteu foi dar mais importância à última palavra de seu nome do que a primeira, o que se apelidou de “data first” (“dados primeiro”). No avô, havia um capricho com a parte criativa do processo, a dúvida ou problema inicial, as conjecturas e interpretações dos resultados, capazes de formularem “Grandes Teorias”. Na mãe, habitou o cuidado com a parte empírico-analítica, rigorosa e trabalhosa (que o marido, esperto, impulsionou com lógica e circuitos eletrônicos).
A neta alterou o peso das etapas consolidadas pelo avô e, dizem alguns, exagerou nas heranças do pai. Com uma dieta gordurosa em dados, capturados na maioria das vezes sem planejamento e sem finalidade específica, a parte criativa das hipóteses e teorias parece ter diminuído de importância frente ao trabalho de calcular distâncias entre esses dados.
Na maioria dos casos, ela justificou: mal se sabe o que há nessas massas de dados. Não eram mais informações captadas em formulários bem estruturados a partir de uma amostra de entrevistados. Eram milhões ou bilhões de inputs. Às vezes, a tarefa era cruzar isso com outra base de dados menos estruturada, contendo sentimentos, informações da previsão do tempo ou qualquer coisa mais esquisita.
Então, a abordagem mudou de algo planejado, destinado a validar ou refutar hipóteses, para a prática de encontrar correlações, agrupamentos, distâncias entre os pontos de dados. A partir dos achados iniciais, poder-se-ia fazer perguntas aos dados. E se descobriu que muitos dados e muita análise às vezes causavam mais confusão e incerteza do que as pesquisas dos tempos da mãe e do avô. Motivada a encontrar ouro em dados, a Ciência de Dados não raro se viu minerando um lixão deles.
A maior apologia ao “data first”, a tendência de confiar nos dados e não mais em teorias e intuição, veio de um artigo polêmico de Chris Anderson, autor do conceito de “cauda longa”, na revista Wired, em 2006. O artigo decreta: “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete” (“O fim da teoria: o dilúvio de dados torna o método científico obsoleto”). A defesa atiçou uma cultura nascida no Vale do Silício de que basta ter mais e mais dados e injetá-los em algoritmos de aprendizado de máquina para que tudo, finalmente, seja descoberto e revelado por meio de correlações, sem precisarmos de narrativas sobre os achados.
As evidências apareceriam do agrupamento, comparação e diferenciação dos dados. Descobrir-se-ia naturalmente correlações ocultas, inimagináveis. A jovem ganharia poderes consideráveis sobre seus antepassados: o de “revelação” sobre o que havia escondido em emaranhados de dados aparentemente sem sentido e — há muito desejado — o poder de “previsão” sobre o futuro.
De forma realista, dados e algoritmos, na forma de big data e machine learning, ajudaram-nos a avançar sobre domínios complexos, como a economia e nosso comportamento. No extremo, porém, passou-se a acreditar quase religiosamente que dados, algoritmos e correlações iriam contar “toda a história”, o que culmina no termo dataísmo.
O termo foi descrito em 2013 como a “filosofia de nossa época” por David Brooks, colunista do New York Times. Mais tarde, foi tratado como uma nova “religião” pelo historiador Yuval Harari, no livro Homo Deus, de 2016. Segundo o historiador, o dataísmo considera a humanidade um grande sistema de processamento de dados, de forma que seus seguidores entendem que podem interligar cada vez mais esse sistema (indivíduos) e otimizá-lo. (Interpretar isso como uma vontade de “engenharia social”, conforme o sentido do temos nas Ciências Sociais, não seria mera coincidência). O fim seria a, ao mesmo tempo sonhada e temida, singularidade tecnológica.
Essa visão, de que toda a realidade se resumiria em informação (dados), bastando algoritmos de machine learning para descobrir seus padrões e relacionamento e, então, responder às perguntas fundamentais (“quem somos, de onde viemos, para onde vamos”), despertou a ira de seguidores do avô Método Científico, desde seus pares até serviçais. Foi como uma falta grave de um plebeu na etiqueta da família real britânica.
Entretanto, a abordagem de Anderson não foi tão inovadora em relação à história do Método Científico. O que Francis Bacon fez com o indutivismo foi propor que se deixasse de lado noções pré-concebidas (teorias) para se basear puramente em dados coletados de experimentos. Trata-se de uma abordagem “de baixo para cima” (das partes para o todo, do particular ao universal), diferentemente do método dedutivo (Aristóteles, Descartes) ou hipotético-dedutivo (Popper). Newton fez a mesma coisa, tanto que declarou “Hypotheses non fingo” (em latim, algo como “Não enquadrei nenhuma hipótese”) em um ensaio anexado à sua grande obra, Philosophiae Naturalis Principia Mathematica (na época, Ciência ainda era Filosofia Natural).
Anderson, como um bárbaro, um rinoceronte na sala de cristais do conhecimento, foi além: “Fora com todas as teorias do comportamento humano, da linguística à sociologia. Esqueça a taxonomia, ontologia e psicologia.” Para ele, o Google produziu mais conhecimento sobre comportamento humano (no consumo de propaganda, para variar) do que qualquer narrativa humanista, ao cruzar petabytes de dados com matemática aplicada, sem nenhuma hipótese prévia nem grandes teorias causais.
Também citou John Craig Venter, um biotecnólogo contemporâneo ou “cientista empreendedor”, que colocou máquinas para varrer baldes de água coletados do oceano e ou bolsões de ar, o que o levou a descobrir mais “espécies novas”, segundo Anderson, do que se optasse por abordagens tradicionais. (Há quem alegue que o biólogo apenas gerou uma imensa quantidade de dados de várias fitas de DNA que flutuavam nesses meios, sem jamais entender de fato que espécies são essas, o que fazem etc., perguntas que só podem ser respondidas por meio de teorias, que Anderson criticava).
A ala mais preocupada com o legado do avô encontrou outras questões problemáticas na novata e empolgada Ciência de Dados e seus arroubos juvenis de que estaria superando o patriarca.
Primeiro, parece que, num assomo de rebeldia prática que herdou do pai, acreditou que o conceito de “amostragem”, tão bem cunhado pela mãe, já não fazia sentido. Big data permitia, agora, trabalhar com populações inteiras, sem recortes — como se ter mais dados fosse o mesmo que ter todos os dados, o que objetivamente é impossível e, se tentado, pode descambar a um novo recorte subjetivo, uma preferência, uma nova “teoria”, decorrente da arrogância de se declarar uma grande quantidade de dados como “todos os dados” — uma daquelas chatices filosóficas que gente próxima do avô já estava banguela de ruminar.
Outro “deslumbramento” é o de que a Ciência de Dados, por ter uma dieta de dados barata, abundante e, às vezes, pouco nutritiva, poderia abrir mão do rigor do avô e do cuidado meticuloso da mãe com a precisão para, de novo à maneira do pai (Computação), mais versado na incerteza do mundo real, contentar-se com uma certa confusão e imprecisão como suficientes.
Isso tem funcionado bem para o mercado. Não é preciso acertar de primeira nem ser perfeito para recomendar um novo produto na Amazon ou um novo seriado na Netflix; aprende-se à medida que o usuário realiza eventos (clica, assiste, rola a tela).
A questão é como transpor essa imprecisão para domínios críticos da humanidade, coisa de “gente grande”, como adeptos do avô gostam de dizer. Exemplos: saúde (medicina, indústria farmacêutica, controle sanitário, produção de alimentos), aviação, engenharia pesada, geração de energia, aplicações militares, onde um erro milimétrico pode implicar em prejuízos ou, em última instância, sofrimento e morte de humanos e outros seres vivos.
Uma terceira quebra do legado familiar seria dar mais valor às correlações em dados do que à busca de causas a partir deles, que marcou a vida do avô. Por um momento, na adolescência ingênua da Ciência de Dados, pareceu que bastava medir distâncias entre conjuntos de dados para obter revelações e predições.
“Alto lá!”, alertaram guardiães da tradição familiar. Não é tão simples, apenas a partir de dados, dizer que comer gordura piora a saúde (azeite de oliva e ômega 3 são tipos de gorduras que, ao contrário, fazem bem à saúde). Mas estes parecem exemplos óbvios demais, como se sempre soubéssemos.
O problema é quando encaramos domínios pouco ou completamente desconhecidos e inferimos que a queda de vendas se deve à forte correlação positiva com um fator externo, quando, na verdade, uma mudança no produto é que foi mal recebida pelos clientes. É de onde vem as correlações espúrias, que podem ser encontrados em vários fatores completamente não relacionados e aleatórios: consumo de margarina vs. divórcios, gastos com ciência vs. suicídios ou, o mais clichê, filmes de Nicolas Cage vs. afogamentos em piscinas.
O livro Big Data: The Essential Guide to Work, Life and Learning in the Age of Insight apresenta os três casos acima (população vs. amostra, confusão e correlação) como características dos dados massivos que temos à disposição hoje. Pesquisadores que lidam com o Método Científico, por sua vez, têm analisado criticamente essas tendências.
Ainda, há outra implicação. O avô cultivou um critério chamado “reprodutibilidade”, a possibilidade de repetir experimentos, para que os mesmos possam ser revisados por outros pesquisadores (a chamada “revisão por pares”), que torna a Ciência mais segura.
Os avanços da Ciência de Dados têm se mostrado problemáticos quanto a isso. Há diversos artigos debatendo o assunto e vários exemplos. O fato de algoritmos de aprendizado de máquina abrigarem uma gama de especificidades e processarem quantidades enormes de dados têm feito com que experimentos realizados com boa precisão em um determinado ambiente e momento tenham resultados diferentes quando repetidos em outras circunstâncias. Como confiar nos resultados? Como delegar à máquina qualquer tomada de decisão?
Em um artigo em seu blog, em 2017, Ali Rahimi, pesquisador de Inteligência Artificial no Google e, atualmente, na Amazon, em parceria com Ben Recht, afirma — com enfoque positivo — que o aprendizado de máquina tornou-se uma “alquimia”. Não que a alquimia não tenha tido valor algum à humanidade. Na tentativa de transformar metal ordinário em ouro ou de encontrar a pedra filosofal, o elixir da vida eterna, proto-cientistas arriscaram a vida entre vapores de chumbo e risco de explosões para criar bases da Química moderna.
O que Rahimi evoca é que, enquanto estamos construindo serviços de “compartilhamento de fotos”, está tudo bem com essa “alquimia”. A questão é quando ela começa a ser escalada para a saúde e a política, por exemplo. “Eu gostaria de viver em um mundo cujos sistemas são construídos com base em conhecimento rigoroso, confiável e verificável, e não em alquimia”, afirma, lembrando da submissão de um artigo a uma conferência de processamento neural que tinha uma “política rigorosa” de entrada, o que, em um primeiro momento frustrou os pesquisadores, mas serviu para mantê-los “honestos”, opina.
Em outro artigo recente, “Big data: the end of the scientific method?” (em tradução livre, “Big data: o fim do método científico?”, de 2019, na The Royal Society Publishing, dois pesquisadores, Sauro Succi e Peter V. Coveney, tentam esgotar, com enfoque mais atual, questões relacionadas ao big data.
Para eles, a fusão das novas metodologias da Computação com a “grande teoria” da Ciência têm potencial de superar paradigmas, mas precisa avançar obstáculos que não encaramos com profundidade neste mundo de algoritmos fascinantes e avalanches de dados gratuitos: não linearidade (“efeito borboleta”), não localidade (“emaranhamento” de efeitos) e hiper-dimensões (fenômenos dinâmicos podem ter muito mais do que as três dimensões que nos são intuitivas), características típicas de sistemas complexos, como a Economia, a Política, enfim, nossos comportamentos grupais e sociais.
Os autores elencam quatro pontos que resumem muito do nosso “bater cabeça” entre aplicações práticas, focadas em resultados rápidos, de mercado, e o debate entre Grande Ciência, rigor, metodologias, enfim, tudo o que tem gerado polêmica sobre a Ciência de Dados em relação a seus antepassados:
sistemas complexos são fortemente correlacionados, portanto (geralmente) não obedecem a estatísticas gaussianas (a “curva em forma de sino” das distribuições normais);
nenhum dado é grande o suficiente para sistemas com forte sensibilidade a imprecisões de dados (o problema de acreditarmos, ilusoriamente, que muitos dados nos dão a população, ou seja, todos os dados);
correlação não implica causalidade, a ligação entre os dois tornando-se exponencialmente mais tênue com o aumento do tamanho dos dados (medir tudo pode levar à confusão total, o que esbarra no problema de fazer escolhas, recortes, ter opiniões e tomar decisões além dos dados puros);
em um mundo de capacidade finita, muitos dados são tão ruins quanto nenhum dado.
Os pesquisadores enfatizam que há uma distância considerável entre perseguir “resistência zero às vendas” (Ciência de Dados como a conhecemos, aplicada a problemas de produtos e de negócio, principalmente em marketing) e campos onde “insight e compreensão” — a Física, a Química, a Biologia, mas também as Ciências Sociais, a Economia etc. — são a maior busca.
“Se as melhores mentes forem empregadas em grandes corporações para descobrir como persuadir as pessoas a clicar em anúncios online em vez de resolver problemas científicos básicos, não se pode esperar que [a Ciência] mude muito nos anos que virão”, afirmam. Mesmo assim, concluem, na esperança de reconciliação familiar: “Em vez de tornar a teoria, a modelagem e a simulação obsoletas, o BD [Big Data] deve e será usado para complementá-lo e aprimorá-lo”.
Pelo jeito, o avô terá bastante trabalho pela frente ainda, ao estudar a própria Ciência de Dados.
A família é mais que a soma dos indivíduos
Até o momento, a Ciência de Dados, como jovem que é, parece tentar conquistar o mundo à sua maneira. Tenta se diferenciar da mãe e do avô, às vezes olhando demais para o próprio umbigo, como se o passado não interessasse mais — algo típico de novas gerações. As novidades e desafios também a influenciam a trilhar esse caminho e a praticar muito mais do que refletir sobre a prática.
Com a maturidade, porém, que só vem com tempo, tentativa, erros e aprendizado, é provável que ela encontre seu lugar de contribuição na história da família, sem maculá-la. O caminho é, provavelmente, nem só ao avô, nem só à mãe, nem ao pai, nem a si mesma: é a melhor combinação de todos.
Negócios, onde a Ciência de Dados cresceu, podem ter dado a pista. Ela entra como etapa importante na lida com o legado da mãe (estatística) e do pai (big data e algoritmos de aprendizado de máquina), mas recorre a outros, que aprenderam com o avô, na exploração de domínios específicos, seja em Negócios (Administração, Economia ou até mesmo Ciências Sociais), seja na Física, na Biologia ou na Química.
Grandes avanços são mais acúmulo de pequenos e trabalhosos incrementos — vide-se Einstein trabalhando sobre os legados de Max Planck, Niels Bohr e tantos outros — do que rupturas simples e completas. Nesse sentido, talvez a Ciência de Dados ajude a evoluir a percepção sobre grandes massas de dados e sobre a complexidade com a qual lida, o que contribuiria tanto com a Estatística quanto com o Método Científico.
O compartilhamento de conhecimento é um ponto em que a jovem se destaca em relação à família, para ficar em uma vantagem. O aprendizado de máquina, por exemplo, evoluiu muito mais por meio de uma metodologia apelidada de Common Task Framework do que por métodos tradicionais. O que é isso? Nada mais que as competições do Kaggle ou de empresas data-driven, que permitem que uma quantidade massiva de pessoas desempenhem tarefas e ajudem a aprimorar modelos, muitas vezes por meio de competições e com direito a prêmios em dinheiro. Mais cabeças pensantes e milhares de tentativas, muitas delas sobre tentativas anteriores, podem ser úteis (às vezes, levar ao “estado da arte”) em vários domínios.
Os desafios são grandes e não param de crescer. Para começar, temos sensores mais potentes do que nunca e para tudo, e eles não param de evoluir. Serão cada vez mais onipresentes (captarão dados em ambientes os mais diversos e continuamente), em grandes ou minúsculas proporções (vide-se sondas espaciais ou nanorobôs). Isso significa mais dados, talvez zetta ou yottabytes deles, que podem, quem sabe, até levar à revisão ou aprimoramentos de conceitos da estatística frequentista. Para referência, as lunetas de Galileu, “primitivas” perto do que temos, fizeram uma revolução.
Resultados de experimentos também poderão estar à disposição para uso e consumo (em “produção”) muito mais rapidamente do que antes, talvez sem revisões por pares ou testes exaustivos, o que nos leva a novas fronteiras. Avanços como IoT (Internet of Things, Internet das Coisas) podem alavancar isso em alguns anos ou décadas, dada a competição acirrada não só em mercados mais “pops” (fintechs, e-commerces etc.), mas em relação a negócios que têm ciência de ponta em seu core, ou seja, muito mais críticos.
Aqui, a sabedoria do avô e o juízo da mãe serão diferenciais ao crescimento da Ciência de Dados. Do avô, mais do que seguir cegamente etapas, cabe à Ciência de Dados dar continuidade a uma “mentalidade científica”, que, por alto, abrange:
permitir a criatividade, a curiosidade, a dúvida, a busca pela “verdade” (debater sobre isso também é saudável), o mais livre possível de crenças, preconceitos, ideologias ou outros fundamentalismos;
ser empírico e analítico sem deixar de ser crítico, mantendo o rigor com ferramentas, métodos e dados utilizados;
cultivar — talvez o ponto mais importante — humildade e honestidade intelectual para reportar resultados, não apenas para dizer o que queremos (ou outros queiram) ouvir, mas principalmente o que ninguém quer ouvir, os erros, as inseguranças, imprecisões, a necessidade de se avançar mais.
Da mãe, cabe levar o rigor com os números, mas, principalmente, suas limitações. Estatística, vale lembrar, não é sobre ter certeza, é sobre diminuir incertezas. Ceticismo e persistência analítica podem ajudar nesse aspecto. Nem sempre há bala de prata sobre porque o modelo está performando mal (como lunetas de grande alcance, podem ser sensíveis a pequenos deslocamentos) ou porque algo estranho ocorre com os dados. Tudo é tempo, raciocínio, ou seja, trabalho e refinamento.
Mesmo em negócios voltados à oferta de conteúdo e pouco críticos, esse espírito por parte da Ciência de Dados pode ter grandes contribuições. Pode ter a função de colocar os pés da equipe no chão, tornar mais realistas e racionais “teorias” que nascem de expectativas, crenças, apostas ou até medos sobre porque o mercado está se comportando de tal maneira ou sobre porque o crescimento vertiginoso do último trimestre não está se repetindo.
Por fim, conhecer os legados da família da Ciência de Dados — prática, história e filosofia da Ciência, quem sabe um pouco de Epistemologia e Lógica, nossa busca por “verdade”, certeza e exatidão (no limite, impossíveis) — ajuda adeptos a não serem apenas entusiastas ou operadores. Até para que uma frase famosa do escritor escocês Andrew Lang não sirva de chapéu: “Alguns usam a estatística como os bêbados usam postes: mais para apoio do que para iluminação”.
Ao que tudo indica, o ancião da família está muito bem de saúde e não dá sinais de parar com sua curiosidade de decifrar o universo. A mãe cultiva um legado fantástico, sabe de sua importância e, caprichosa que é (quem sabe, em colaboração com a avó da Ciência de Dados) faça avanços para entender ainda melhor a incerteza. O pai, mesmo que com alguma demora (ele resmunga, expõe a dificuldade que a engenharia é, mas no fim dá um jeito) continua ambicioso e determinado a transformar a realidade em escala. À Ciência de Dados, não faltam referências e inspirações para estabelecer seu legado.
A trama familiar tem tudo para continuar rendendo ótimas temporadas futuras.
Referências
Artificial Intelligence and Philosophy of Science from 1990s to 2020
Data science: developing theoretical contributions in information systems via text analytics
Getting Insights Using Data Science Skills and the Scientific Method
How Reproducibility Crisis is Eating Away the Credibility of Machine Learning Technology?
Scientific Research and Big Data (Stanford Encyclopedia of Philosophy)
What difference does quantity make? On the epistemology of Big Data in biology
Artigo escrito por Rogério Kreidlow, jornalista, que gosta de observar a tecnologia em relação a temas amplos, como política, economia, história e filosofia.