Uma abordagem conceitual sobre Modelos
Modelos são a alma da Ciência. Permitem a mágica de unir Matemática (perfeita) à Realidade (imperfeita). Também podem ser reduções burras do mundo. Modelos vão muito além do que são em Data Science...
“Modelo” é, possivelmente, um dos termos mais citados na Ciência de Dados e em Machine Learning. Se fôssemos fazer uma nuvem de palavras, provavelmente “modelo” ofuscaria muitas outras expressões usadas no dia a dia da área. Desde o estudo e, depois, na prática, lemos e ouvimos tanto falar em “modelo” que o termo pode, inclusive, perder o sentido, por causa da repetição.
Chamamos de modelo as linhas de código em um Jupyter Notebook qualquer ou o esquema gráfico que nos faz conhecer um determinado processo. Embalamos como modelo a previsão de vendas, de fraudes ou a classificação de usuários que tendem a comprar novamente conosco.
Pela força do hábito, corremos o risco de deixar de enxergar e pensar na realidade para transformarmos tudo em modelos, sempre construtos mentais. Fórmulas, equações, grafos e esquemas gráficos nos confortam, nos dão segurança e nos permitem uma sensação de poder sobre a realidade, sem precisarmos sujar as mãos nela.
Por conta disso, raramente (a não ser a quem vêm de um background de Ciências e Engenharia e levou a sério as aulas teóricas), paramos para nos deter sobre o que é “modelo”, refletir sobre sua essência e o que eles implicam ao conhecimento.
Há um bocado para pensar (e até se divertir, para quem gosta de exercícios mentais) por aqui. Podemos até nos meter em pântanos ou desertos filosóficos intermináveis, há tempos discutidos na Filosofia da Ciência.
O que pretendemos, porém, é mais modesto: dar uma visão geral e uma abordagem conceitual do que são modelos, na Matemática, na Ciência, na Estatística, abordarmos algumas particularidades de modelos na Ciência de Dados, principalmente em Machine Learning e discutirmos implicações da modelagem, as quais embutem problemas e riscos.
Conceito
A definição mais óbvia, do senso comum, é a de que modelo é uma representação da realidade, seja por meio de fórmulas matemáticas, esquemas gráficos (desenhos), simulações computacionais, maquetes físicas, moldes e formas padronizados, entre tantos outros construtos que nossa imaginação seja capaz de criar.
É o que, geralmente, nos basta para nos virarmos no dia a dia e intuirmos o que alguém está querendo dizer quando pronuncia “modelo”, em sentido científico, de engenharia, computacional, industrial, até artístico, em alguns casos.
Podemos dar um passo para trás e olharmos para nossa própria cognição, também. Modelos são maneiras de apreendermos e abstrairmos aspectos da realidade, física ou imaginada, para nossa compreensão. São construções mentais que utilizamos, necessariamente, para entender (ou, melhor, para tentar entender) o mundo externo, o que inclui a natureza e outras pessoas, e, em alguns casos, nosso mundo interno, psicológico.
Em sentido amplo, são “reduções” da realidade externa ou interna, o que vai ao encontro da definição mais formal de modelo em disciplinas exatas e científicas.
Nestes campos, é comum querer entender ou definir, operar, quantificar, visualizar ou similar algum objeto, fenômeno ou processo. Correspondendo a estas intenções (verbos), constrói-se, então, modelos conceituais (entender e definir), operacionais (operar), matemáticos (quantificar), gráficos (visualizar) e computacionais (simular).
“Partes significativas da investigação científica são realizadas em modelos, e não na própria realidade, porque ao estudar um modelo podemos descobrir características e averiguar fatos sobre o sistema que o modelo representa: os modelos permitem o ‘raciocínio substituto’” — Chris Swoyer, em “Structural representation and surrogative reasoning”, 1991.
Assim, a figura a seguir é um modelo (visual), que representa, graficamente, aspectos da atmosfera terrestre e do clima:
Da mesma forma, a equação abaixo também é um modelo (matemático), que representa o equilíbrio radiativo, de maneira muito simplificada, da Terra:
A Matemática tem uma importância fundamental para modelos formais da Ciência e Engenharia. Apesar de haver modelos que resumem processos (fluxos), por exemplo, são os modelos que empregam Matemática que costumam comprovar teorias científicas. Do contrário, ficaríamos apenas em narrativas, que podem descambar para ficções.
Como disse John von Neumann, um dos pioneiros da computação e de outras áreas, em 1955:
“[...] as ciências não procuram explicar, dificilmente tentam interpretar, principalmente fazem modelos. Por modelo entende-se uma construção matemática que, com a adição de certas interpretações verbais, descreve fenômenos observados. A justificativa de tal construção matemática é única e precisamente que se espera que funcione — isto é, descrever corretamente os fenômenos de uma área razoavelmente ampla.” — John von Neumann.
Durante boa parte da História, justificamos fenômenos e imaginações por meio de narrativas, muitas delas com alguma lógica interna própria, que as tornavam mais “críveis”, mas ainda assim narrativas. É o caso dos mitos, das religiões e de toda a Filosofia (uma narrativa mais racional, muitas vezes calcada em silogismos) produzida até a atualidade.
A partir do Iluminismo, começando com Galilei, Kepler, depois avançando para Newton, por volta dos séculos XVI e XVII, e com um boom nos séculos XIX e XX, desenvolveu-se o que chamamos de Ciência Moderna, fundindo a Matemática cada vez mais no entendimento da Realidade e como uma linguagem (ou engenharia reversa) para entender o que chamamos de natureza ou mundo objetivo.
Devemos muito do conforto, segurança e qualidade de vida de que desfrutamos atualmente a inúmeros modelos matemáticos, ferramentas basicamente abstratas, mas com um poder significativo de decupar e interferir sobre a realidade. E, cada vez mais, avançamos sobre uma base de modelos já construídos.
Há, inclusive, campos bastante avançados e teóricos da Matemática que lidam com modelos, como a Teoria dos Modelos, estudada em Lógica Matemática. (Lógica, por si só, é um campo tão vasto que demandaria algumas vidas para ser desvendado. Aliado à Matemática, então, é tarefa muito mais monumental que dominar a Ciência de Dados).
Modelos matemáticos aplicam-se a sistemas dinâmicos (fluxo de um líquido, reprodução de seres vivos etc.), Teoria dos Jogos (que podem incluir tanto jogos lúdicos, como xadrez, a relações econômicas, políticas e até crimes), à própria Lógica (gramáticas de linguagens, por exemplo) e, é claro, à Estatística.
Ora entendida como disciplina à parte, ora como um ramo aplicado da Matemática, Estatística tem uma relação umbilical com a Ciência, de modo que modelos estatísticos alimentam muitas vertentes científicas, das chamadas Ciências Naturais, onde estão a Física, a Astronomia, a Química, a Biologia etc., às Ciências Sociais, onde estão a Sociologia, Economia, Antropologia, entre outras.
Modelos estatísticos são modelos matemáticos especiais, e o que os coloca nessa posição é que não são determinísticos, algo certo e preciso como 2 + 2 = 4. Como muitos dos eventos da realidade também não são determinísticos, a Estatística aplica-se muito bem a eles, permitindo prevê-los, estimá-los ou descrevê-los.
Negócios, basicamente Marketing e Vendas, onde a Ciência de Dados mais tem atuado e evoluído na prática, na verdade diz respeito a muito do que as Ciências Sociais estudam, onde a Estatística é uma ferramenta quantitativa necessária.
Quem faz tal leitura é Sanjiv Ranjan Das, professor de finanças e Ciências de Dados na Universidade de Santa Clara (EUA), que tem um livro online com reflexões e práticas sobre Data Science.
“A ciência de dados trata da quantização e compreensão do comportamento humano, o Santo Graal das ciências sociais.” - Sanjiv Ranjan Das.
A Inferência Estatística, que vimos nos testes A/B, em Devemos muito aos Testes A/B, e que nos possibilita, como sociedade, atestarmos a eficácia e segurança de vacinas como a da Covid, por exemplo, é basicamente sobre modelos e modelagem.
Assim como um modelo estatístico é uma representação formal de uma teoria, todos os testes de hipótese estatística e todos os estimadores estatísticos são derivados por meio de modelos estatísticos.
Muito disso alimenta a Ciência de Dados, pelo fato desta lidar com inferências e muita Estatística pura. Mas há algumas percepções interessantes em relação à área, principalmente quando falamos de Machine Learning.
Na Ciência de Dados
Como um campo que utiliza (e também dá continuidade e avança) à Estatística, a alguma Matemática além da Estatística e alia algoritmos e poder computacional a isso, a fim de prever e explicar fenômenos da realidade, Data Science carrega embutido o conceito e a necessidade de modelos.
O interessante é que, como um avanço das áreas de onde emana, a Ciência de Dados, especialmente em relação ao Machine Learning, soma uma camada a mais particularidades. É comum falarmos tanto de modelos como de algoritmos de Aprendizado de Máquina (ou até meramente Estatísticos) como sendo a mesma coisa, no dia a dia.
De forma mais rigorosa, há diferenças, como explicam a Microsoft e este artigo. Algoritmo é a estrutura, o mecanismo, a “máquina”, por onde passarão os dados. Sem dados (entradas), o algoritmo não faz nada. É apenas uma estrutura lógico-matemática-probabilística, digamos. Modelo, por sua vez, é o padrão que emerge dos dados treinados por meio do algoritmo, desse mecanismo.
Na prática, em uma explicação simplória, algoritmo é a “receita” que você aplica para gerar aprendizado a partir de determinados dados (o conjunto de testes). Modelo é o resultado do aprendizado, que, então, você aplica para que a máquina raciocine (faça previsão, classificação etc.) sobre novos dados, estes desconhecidos, provenientes da realidade, como a natureza, nosso comportamento como indivíduos ou como sociedade.
Exemplo básico. Você quer diferenciar usuários de acordo com suas reações emocionais, expressas em comentários. A partir de um conjunto de comentários de treinamento, que permitirá ao algoritmo diferenciar reações negativas de positivas, será gerado um modelo que permitirá classificar, automaticamente, novos comentários, que dirá, com base no aprendizado, se esse novo comentário é positivo ou negativo.
É claro que há um bocado de complexidade a mais para se operacionalizar esse raciocínio. Requer ter muitos comentários. Ter uma base, um padrão, para definir o que é positivo ou negativo. Saber em relação ao quê (marca, serviço etc.) o sentimento é positivo ou negativo. Entender de processamento de linguagem natural e de algoritmos aplicados a ela. Mas, em resumo, essa é a noção de modelo que se observa no Aprendizado de Máquina.
Um cientista de dados provavelmente gerará inúmeros modelos ao longo do aprendizado e da carreira, alguns muito simples, alguns extremamente complexos e desafiantes, outros frustrantes, que não dizem nada sobre a realidade ou, pior, dizem algo “errado” sobre ela.
No entanto, a menos que se trate de um pesquisador, atue em empresas que ditam tendências ou faça parte de comunidades sérias de código aberto, um cientista de dados raramente irá criar algoritmos ao longo da carreira. Na maioria dos casos, irá aprender sobre algoritmos já criados e utilizá-los, talvez com ajustes, para a geração de modelos.
Modelos podem ser vários, dependendo da natureza do que se está tratando. Algoritmos são em menor número e facilmente agrupáveis em grandes categorias, que da Ciência de Dados já conhecem de olhos fechados:
Aprendizado Supervisionado
Regressão
Classificação
Aprendizado Não Supervisionado
Clusterização
Redução de dimensionalidade
Aprendizado por Reforço
Aprendizado Supervisionado, basicamente, é quando você fornece determinadas características de treinamento ao algoritmo para que ele, a partir do aprendizado destas características, classifique algo em categorias (positivo e negativo, por exemplo) ou prediga, por correlação, a probabilidade de algo estar mais próximo ou distante de um determinado padrão (regressão).
Um exemplo intuitivo é a previsão do tempo. Perguntar se vai fazer calor ou frio amanhã é um típico caso de classificação. Envolve categorias (calor ou frio). Querer saber qual a temperatura mais provável amanhã é um típico caso de regressão, que pode nos indicar que a temperatura será algo entre uma máxima e uma mínima. Envolve uma escala numérica (temperatura em graus).
Aprendizado Não Supervisionado é quando o algoritmo aprende características de um conjunto de dados por conta própria, a partir de cálculos de distâncias entre pontos de dados, e os agrupa (clustering) ou resume (redução de dimensionalidade) de alguma forma. Muito associado ao Big Data (imensas quantidades de dados não rotulados).
Segmentação de clientes e sistemas de recomendação são situações em que o aprendizado não supervisionado se aplica.
Aprendizado por Reforço, também chamado de semi-supervisionado, é o caso de algoritmos que ficam melhores no aprendizado à medida em que se deparam com dados novos e desconhecidos. Por meio de “recompensas” e “punições”, ele fica cada vez melhor em diferenciar determinados dados de outros e ter mais precisão em tarefas.
Obviamente, essas são explicações de alto nível. Sob o capô, como se costuma dizer, o que acontece é uma série de pequenos cálculos, Matemática e Estatística, de novo, que fazem todo o trabalho sujo e sem graça.
A Ciência de Dados às vezes acaba lidando menos com essa camada (embora tenha de entendê-la) e mais com o que acontece a partir disso: os modelos gerados, o padrão de aprendizado, e, principal e fundamentalmente, se ele está correspondendo à realidade ou não.
Por isso, não adianta o algoritmo ser perfeito em sua execução (ou gastar-se tempo e energia enormes com eles) se o resultado não diz nada ou, como já comentamos, fornece resultados equivocados sobre o que se espera.
Isto nos leva a uma parte crítica e que requer atenção com modelos. Dito de outro modo: eles não são balas de prata e, como quase tudo, carregam tanto benefícios como consequências indesejáveis.
Implicações
Assim como modelos nos dão um poder enorme de entender e interferir na realidade, também trazem embutidos riscos na mesma proporção. Da mesma forma que podem prever um fenômeno natural ou social (ou, no mercado, por que clientes têm tais comportamentos), também podem ser simplificações grosseiras que nos fazem criar uma representação pouco correspondente à realidade — e, às vezes, agirmos equivocadamente com base nessa representação.
Cientistas, estatísticos e filósofos da ciência experientes estão para lá de familiarizados com estes riscos e os têm debatido há tempos.
O estatístico George E. P. Box ficou famoso por comentar, duas vezes, em um artigo no Journal of the American Statistical Association (Jornal da Associação Americana de Estatística), nos EUA, em 1976, que “todos os modelos estão errados”.
“Uma vez que todos os modelos estão errados, o cientista não pode obter um ‘correto’ por elaboração excessiva. Pelo contrário, seguindo Guilherme de Occam, ele deve buscar uma descrição econômica dos fenômenos naturais. Assim como a capacidade de conceber modelos simples, mas evocativos, é a assinatura do grande cientista, a superelaboração e a superparametrização costumam ser a marca da mediocridade.
“Como todos os modelos estão errados, o cientista deve estar alerta para o que está errado. Não é apropriado se preocupar com ratos quando há tigres no exterior.”
Na verdade, a proposição já vinha antes dele e, depois, acabou sendo reelaborada pelo próprio Box, outras duas vezes, no livro Empirical Model-Building and Response Surfaces, de 1987, de que, mesmo assim, “alguns modelos são úteis”.
“Lembre-se de que todos os modelos estão errados; a questão prática é o quão errados eles devem ser para não serem úteis.
“[...] todos os modelos são aproximações. Essencialmente, todos os modelos estão errados, mas alguns são úteis. No entanto, a natureza aproximada do modelo deve ser sempre levada em consideração [...]”
Dez anos depois, Box ainda insistiria que “qualquer modelo é, na melhor das hipóteses, uma ficção útil — nunca houve, ou jamais existirá, uma distribuição exatamente normal ou uma relação linear exata”.
A insistência diz respeito a uma questão crítica de qualquer modelo estatístico ou científico: o trade-off entre simplicidade, normalmente pretendida na teoria, e complexidade, encontrada na realidade.
Modelos científicos, talvez por essa busca ter sido herdada da Matemática (em sua origem teórica, idealista, platônica, afeita à perfeição), normalmente nascem com a intenção de serem o mais simples e, ao mesmo tempo, abrangentes ou generalizantes possíveis.
Não é à toa que há toda uma estética, uma beleza, na fórmula da Teoria da Relatividade Geral de Einstein, que diz que energia é igual à massa multiplicada pela velocidade da luz ao quadrado (E=mc2). É concisa e poderosa. Até então, não refutada por qualquer outra teoria.
Por outro lado, há a realidade, na maioria dos casos muito mais complexa do que modelos. Principalmente em se tratando de fenômenos complexos, como interações sociais e econômicas, com os quais a Ciência de Dados mais lida, há muita incerteza envolvida em qualquer tentativa de se modelar fenômenos.
Tome-se, por exemplo, um dos grandes desejos, quase fetiche, de nossos dias: prever preços de ações, obviamente para poder lucrar, e muito, com elas (se for no curto prazo, melhor ainda). Por mais esforço, intenções, gênios, PhDs e, inclusive, muito dinheiro que já se tenha empregado ao longo do tempo para tal façanha, sucessos se deveram mais a inconsequências e acasos do que a modelos.
Em 2008, uma combinação de gênios e modelos matemáticos em grandes instituições financeiras com trambiques na classificação de risco de investimentos levou o mundo a uma crise global sem precedentes, das quais até hoje alguns países ainda se recuperam.
Ou, para ficarmos em um exemplo recente, o que dizer dos diversos modelos que tentaram lidar com previsões epidemiológicas na pandemia de Covid-2019? Um artigo opinativo na Scientific American, “The Truth about Scientific Models”, de Sabine Hossenfelder, aborda um pouco da desconfiança que isso criou à própria Ciência.
“Os modelos nem sempre prevêem o futuro. Isso não os torna não científicos, mas os torna um alvo para os céticos da ciência [...]
“Os cientistas distinguem os modelos bons dos ruins por meio de métodos estatísticos que são difíceis de comunicar sem equações. Esses métodos dependem do tipo de modelo, da quantidade de dados e do campo de pesquisa. Resumindo, é difícil. [...]”
Em relação a sistemas complexos, a questão dos modelos gerou até o Paradoxo de Bonini. Basicamente, o paradoxo diz que, à medida que tentamos tornar o modelo de um sistema complexo mais completo, menos compreensível ele se torna.
Ou seja, se queremos modelar um fenômeno como interações sociais ou econômicas à perfeição, corremos o risco de ter um ótimo modelo… que ninguém entenderá. Se buscarmos simplificar o modelo para o entendermos melhor, jogaremos boa parte da realidade fora e, consequentemente, o modelo terá falhas, cada vez mais sérias quanto mais simplificado for.
Até poesia foi associada a respeito:
“Se for simples, é sempre falso. Se não for, é inutilizável” — Paul Valéry.
A questão dos modelos também remete à relação “Mapa-Território”, muito citada em relação à Estratégia, como na Guerra e em Negócios, e sobre a qual também se produziu literatura a respeito (Jorge Luis Borges, em “On Exactitude in Science”, de 1946, por exemplo).
Basicamente, como mapas são modelos e territórios são realidades, nem sempre é fácil saber até que ponto um mapa é “bom o suficiente” ou não para nos ajudar a conhecer ou percorrer o território.
Na Ciência de Dados, há outras questões a serem consideradas quanto às implicações intrínsecas de modelos. Como já dito, algoritmos podem funcionar à perfeição, e mesmo assim, gerarem modelos que não servem para nada ou que estão equivocados. Isso pode ocorrer por alguns fatores:
qualidade dos dados, o que remete à clássica declaração, atribuída ao técnico da IBM George Fuechsel: “Garbage in, garbage out” (“Entra lixo, sai lixo”);
seleção e parametrização do algoritmo ou dos algoritmos utilizados para a modelagem;
questões inerentes à modelagem, em relação à sua correspondência com realidade que se pretende prever, estimar (inferir) ou descrever, ou vice-e-versa;
vieses cognitivos humanos na interpretação de resultados obtidos a partir dos modelos, como o viés de confirmação ou viés de confiança, em que subestimamos ou superestimamos, confirmamos ou negamos algo, com base em crenças e emoções e não em análise racional e cética (espírito científico, em resumo).
Cada um desses tópicos rende um artigo à parte, dado que todos são importantes e têm suas dificuldades e particularidades de resolução.
Rapidamente, podemos comentar que qualidade dos dados é muito mais uma questão de governança, arquitetura e engenharia de dados; começar certo desde começo. A velha questão de que não adianta dispor de uma fazenda de sensores de última geração capturando petabytes de impulsos, para depois perdermos horas analisando e descobrindo que quase tudo é ruído e não sinal (até porque nem definimos, de antemão, o que seria sinal a nós mesmos).
Seleção e parametrização de algoritmos são questões técnicas, por especialidade, da Ciência de Dados. Tem a ver com a seleção de algoritmos que performam melhor para determinadas modelagens.
“A maioria dos problemas em inferência estatística podem ser considerados problemas relacionados à modelagem estatística. Eles são tipicamente formulados como comparações de vários modelos estatísticos.” — Konishi e Kitagawa, em Information Criteria and Statistical Modeling, 2008.
A terceira questão tem muito mais a ver com conhecimento de negócio, da área em que se está atuando, e com experiência do que outras coisas. Pode-se ter os melhores dados e a melhor técnica (algoritmos, conhecimento) e aplicá-los a problemas mal definidos — a dificuldade que tratamos no artigo “A etapa difícil (e a razão de existir) da Ciência de Dados”.
“[A] tradução do problema do assunto para o modelo estatístico é muitas vezes a parte mais crítica de uma análise” — Sir David Cox, estatístico, em Principles of Statistical Inference, 2006.
Vieses cognitivos dizem respeito à maneira como encaramos a realidade e entendemos nós mesmos. Muito, muito difíceis de contornarmos em nós mesmos e quase impossível de serem contornados em terceiros, principalmente leigos na lida científica, o que requer ceticismo, honestidade intelectual e até um certo perfeccionismo benéfico equilibrado com desapego, no sentido de saber que qualquer teoria, qualquer modelo e quaisquer confirmações logo poderão ser refutadas por outra teoria e modelos mais assertivos.
Todos os pontos rendem longos debates e podemos aprofundá-los em outras abordagens. Por ora, nos introduzem a implicações de modelos e modelagem na Ciência de Dados.
Considerações
Como se vê, a palavra com que temos contato frequente ao aprendermos Data Science e que talvez repetimos à exaustão ao trabalhar na área tem implicações mais profundas e debatíveis do que a noção que costumamos formar, de modelos como desenhos que representam a lógica de algoritmos de Machine Learning ou de Deep Learning, esteticamente até agradáveis, como este:
O que podemos resumir dessa abordagem é que modelos nos são muito úteis (e poderosos) na compreensão e para interferirmos na realidade. Por meio deles, através da Ciência, obtivemos mais conforto, segurança, saúde e qualidade de vida ao longo do tempo.
Entretanto, eles não são todo-poderosos, inabaláveis ou indestrutíveis. Como muitas de nossas criações, são sujeitos a limitações, consequências indesejáveis, erros ou podem nos levar a interpretações distorcidas ou equivocadas da realidade, muitas vezes sem nos darmos conta.
Apesar de estarmos avançando, parece que ainda não somos tão bons em intuir e detectar essas limitações e problemas de modelos como somos capazes de gerá-los tecnicamente e de apostarmos neles.
Não é uma mensagem para pararmos de persistir na busca, é claro, mas, sim, para seguirmos em frente, tentando confrontar tais problemas e resolvê-los, mesmo que parcialmente. Mais do que isso: para seguirmos em frente tendo noção, honestidade e bom senso sobre a existência de tais benefícios e implicações.
Artigo escrito por Rogério Kreidlow, jornalista, que gosta de observar a tecnologia em relação a temas amplos, como política, economia, história e filosofia.
Como sempre, excelente abordagem!