Muito além da profissão mais sexy do século
Como Big Data criou um ecossistema profissional, ajudou a definir o escopo da Ciência de Dados e a ver que o setor não depende de “gênios” ou “unicórnios”, mas de times diversificados
Era outubro de 2012. Havia cinco anos que Steve Jobs apresentara o iPhone ao mundo. Ainda estávamos às voltas com o sucesso no uso de dados da eleição e reeleição de Barack Obama nos Estados Unidos. Nem sonhávamos com o caso Cambridge Analytics no horizonte e o clima era o que predominava no início deste século: otimismo, euforia e até uma certa ingenuidade em relação à tecnologia e à disrupção. Startups que já haviam se tornado big techs entravam na maturidade no Vale do Silício.
É nesse contexto que Data Science é apelidado de “o trabalho mais sexy1 do século XXI”. O artigo de Thomas H. Davenport (acadêmico e autor americano conhecido por tratar da “economia da atenção”) e D.J. Patil (primeiro cientista-chefe de dados do Governo dos EUA, com passagem por empresas como o Linkedin), intitulado “Data Scientist: The Sexiest Job of the 21st Century”, na Harvard Business Review, catapultou o hype em torno da área, aumentando, também, a proliferação de estereótipos a respeito.
De repente, surgiam conteúdos que faziam parecer que toda empresa precisava, para ontem, de PhDs em Física e Matemática Pura para solucionar problemas de negócios que, como ouro na América Espanhola, habitavam algum eldorado escondido em bancos de dados e data warehouses. Que haveria “gênios” ou profissionais “unicórnios” capazes de fazer alquimia com big data, computação e estatística, capazes de colocar organizações na vanguarda da concorrência.
O marketing exagerado em torno da área não era à toa. Empresas, de fato, estavam se deparando com uma quantidade cada vez maior de dados gerados e armazenados e necessitavam ou queriam extrair informação e conhecimento deles. Portanto, precisava-se de uma forma de atrair profissionais capacitados, muitos dos quais, se existiam, orbitavam em sua maioria ambientes acadêmicos. Vendas de soluções de big data também ajudavam a impulsionar a demanda por técnicos que soubessem lidar com as novidades.
Nada melhor, porém, do que cavalos testados em batalha. Uma década depois, o mercado aprendeu com os erros, os acertos e tem percebido que o trabalho com dados é complexo, detalhista, sujeito a efeitos colaterais e que não são gênios, pós-doutores, unicórnios, em resumo, indivíduos isolados ou mesmo departamentos desgarrados do resto da organização que farão negócios serem data-driven ou, mais contemporâneo, “informados por dados”. (Aos poucos, nos demos conta que o mundo era bem mais imprevisível do que achávamos e redescobrimos que intuição, feeling, perspicácia e “apostas” continuavam a ter seu lugar.)
Esse amadurecimento ajudou a entender melhor o papel do cientista de dados nas organizações e, consequentemente, a alocá-lo de forma mais produtiva e condizente com suas características. Ao mesmo tempo, mostrou a necessidade de diversas outras funções relacionadas a dados, que, se tratadas adequadamente, ajudam não só o trabalho de data scientists, mas impulsionam organizações a extraírem “riqueza” de dados.
Estamos falando de data engineers (engenheiros de dados) e data ops, data analysts (analistas de dados), ML e DL engineers (engenheiros de Machine Learning e de Deep Learning), pessoas de governança e segurança de dados ou mesmo business analysts (analistas de negócios), data product managers (gestores de produtos de dados) e até designers de dashboards. Quem sabe, não estejamos prestes a ver a consolidação de novos papéis de dados no futuro próximo?
Entender a função de cada profissional e como, conforme seu estágio de maturidade, organizações podem aproveitá-los permite trabalho mais qualificado tanto para o negócio como para a própria Ciência de Dados. A aspirantes ou a data scientists em início da carreira, saber disso permite entender como empresas e startups mais avançadas estão se estruturando e como cada um desses papéis têm sua importância, à medida que a atenção sobre todo o ciclo de vida de dados avança.
Data mining, business intelligence e outras origens
Assim como no Big Bang, quando o universo não passava de um núcleo denso e amorfo, a computação também começou sem distinguir especializações, quando muito nas mãos de engenheiros elétricos que também eram matemáticos e cientistas da computação. Até porque computadores, em seus primórdios, lá nos anos 1950, não passavam de “calculadoras mastodônticas”, que haviam migrado do uso militar para o acadêmico, ainda sem grande utilidade nem viabilidade à maioria dos negócios.
Bancos de dados, principalmente relacionais, a partir da década de 1960, ajudaram nessa aproximação. Em tal contexto, os DBAs (database administrators, administradores de bancos de dados) podem ser entendidos como um primeiro papel operacional na origem da cadeira que viria a resultar no big data. Esse profissional era e ainda é, em muitas organizações, o guardião tanto da parte técnica como de gestão (metadados, relacionamento, segurança, privacidade etc.) de dados.
Mais ou menos nesta época, na Estatística, que desde o início se interessava e dependia de computadores, John Tukey — um pioneiro da ciência da computação — reforçou e difundiu a análise exploratória de dados (EDA, de “Exploratory Data Analysis”), que depois viria a definir muito do trabalho de data analytics, de que o mercado se apropriou.
Do lado de negócios, especialmente relacionado à tomada de decisão, também emergiria o papel de Business Intelligence (inteligência de negócios), que se utilizava da análise de dados, a parte de data analytics, mas que focava mais na extração de conhecimento capazes de impulsionar decisões de negócios. Data warehouses, depósitos de informações e de relatórios detalhados no âmbito de empresas, surgiram como causa e consequência nesse contexto.
O conceito de big data, na sequência dos avanços anteriores, explodiu com sensores e dispositivos conectados à Internet. Em algumas décadas, não se estava mais só inserindo informações de clientes em formulários, mas recebendo quantidades imensas de bytes captados de scanners de código de barras, sensores de movimento, sensores térmicos, câmeras, rastreadores de cliques e digitação de usuários.
O marketing e a vontade de entender comportamentos do consumidor em níveis cada vez mais granulares foi um grande impulsionador da Ciência de Dados como é conhecida atualmente. O artigo que elevou data scientists a profissionais mais “sensuais” do século, inclusive, relata bem como a área ganhou importância em torno de testes com anúncios personalizados de acordo com preferências de usuários.
Num aspecto mais técnico, relacionado à Ciência da Computação e à Estatística, o conceito de data mining (mineração de dados) também caminhou junto dos demais. Predominou por um bom tempo como padrão da área e é uma das origens de Data Science. Faz parte do que se convencionou chamar de KDD (Knowledge Discovery in Databases, em tradução livre: “Descoberta de conhecimento em bancos de dados”) e gerou até padrões para a indústria, como o CRISP-DM (Cross-industry standard process for data mining), de 1996.
Inclusive, as etapas de data mining do CRISP-DM em pouco se diferem, a grosso modo, da rotina de Ciência de Dados atual: business understand (entendimento de negócios), data understanding (entendimento de dados), data preparation (preparação de dados), modeling (modelagem dos dados), evaluation (avaliação) e deployment (implantação em produção).
A diversidade de papéis em dados
O artigo de Davenport e Patil elenca características de um cientista de dados bem sucedido: “um híbrido de hacker de dados, analista, comunicador e consultor confiável”. E completa: “a combinação é extremamente poderosa — e rara.” Parecia algo como um nerd rockstar. A verdade é que o mercado acabou se deparando com necessidades e skills que não cabiam em um perfil só.
Um papel que se mostrou fundamental a quem começou a contratar data scientists e tentar explorar dados mais a fundo foi o de data engineer (engenheiro de dados). Um pouco DBA dos tempos atuais, é o profissional muito mais focado em entender do armazenamento e do fornecimento de dados para análises e tomadas de decisões, seja por humanos ou, cada vez mais, por máquinas. É a pessoa que vai entender de data lakes em nuvem, por exemplo, repositórios que vão além de data warehouses e se propõem a armazenar todos os dados brutos de uma organização.
Em contextos mais avançados, pode aparecer, também, uma função chamada data ops, uma espécie de devops de dados. Devops, para simplificar, pode ser entendido como um papel que junta o antigo sysadmin (administrador de sistemas) com operador de sistemas e um pouco desenvolvedor de software. É um conector de “encanamentos” que procura deixar toda a parte mais hard de desenvolvimento de software automatizada e suavizada, para que tudo ocorra bem e seja operado continuamente na colocação de software em produção. Data ops é um pouco esse papel em organizações que fazem uso intensivo de dados e que precisam desse pipeline bem azeitado.
Em torno da engenharia de dados e data ops, podem gravitar, também, outros papéis mais técnicos, de gestão ou até “políticos”. Na parte técnica, é o caso de funções de segurança da informação (desenvolvedores focados em implementação e manutenção de padrões de criptografia, por exemplo). Em termos de gestão, arquitetos de dados ou mesmo cientistas da informação — profissional mais “clássico”, às vezes um pouco relegado atualmente — podem ser importantes na organização de informações para além da parte técnica.
No aspecto político, governança — um termo que não tem nada de novo, mas ganha importância à medida que organizações escalam e se veem em apuros com massas de dados — é uma área cada vez mais em evidência. Governança está mais para padrões do que para um papel em específico, e, para ser efetiva, depende desde compliance e jurídico até educadores e disseminadores de cultura de dados em empresas. Com regulamentações como o GDPR e a LDPG, estes papéis ganham importância já nas etapas de origem dos dados, como captação e armazenamento, até políticas de uso, de tratamento e publicação de informações.
À primeira vista, pode até parecer burocrático tantas siglas e funções, e confuso ou até limitador à parte técnica que papéis mais de gestão e de política passem a dominar tantos aspectos. Entretanto, organizações que conseguem avançar e amadurecer nesse sentido evitam problemas de captura, armazenamento e uso de informações e ganham vantagem competitiva na extração de conhecimento. A Ciência de Dados só tem a agradecer porque se vê mais amparada por dados de qualidade e mais segura para tratá-los.
Passando para outra ponta do processamento, o da utilização de dados para agregar valor ao negócio, abre-se possibilidade para outra gama de papéis. O cientista está situado aqui, mas um papel auxiliar e talvez tão importante quanto é o de de data analyst. Às vezes, pode parecer que ambos, data scientist e data analyst, fazem a mesma coisa. Outras, que fazem coisas muito diferentes.
Uma boa metáfora para entender as particularidades é a deste artigo, replicado na Towards Data Science: no contexto de uma fortificação ou castelo, analistas de dados irão vasculhar o perímetro conhecido e soar alarmes se algo estiver errado ou significar uma oportunidade, enquanto o cientista de dados é mais como o explorador que sairá do castelo e se embrenhará na floresta para averiguar sons estranhos que ocorrem à noite ou para ver se descobre algo de valioso que agregue vantagens na defesa ou em ações ostensivas do castelo.
Startups e empresas com uma cultura de dados implantada podem contar com dezenas ou centenas de data analysts, cada um focado em um ou em um grupo de indicadores de produto ou de negócio, tentando obter fatos e insights dos dados. É algo que se vê, por exemplo, na área financeira, com fintechs e corretoras digitais. Pense no data analysts um pouco como um operador na Bolsa de Valores. Não é seu papel construir a maquinaria em que investidores operam, mas analisar e aproveitar, por meio de gráficos e dados, oportunidades de mercado. O objetivo não é o de construir software funcional ou implementar um algoritmo de machine learning sofisticado. Muitas vezes, projeções sobre séries temporais ou alguma clusterização de dados já “domesticados” pode ser o suficiente para perceber o que está acontecendo, tomar alguma decisão ou, então, demandar um estudo mais aprofundado — onde um data scientist brilhará.
O data analyst é o profissional mais interessado em pegar a ponta final de um pipeline de dados, na forma de um dashboard, uma planilha ou relatório, e se debruçar em cima para saber como operações, vendas e problemas se comportaram no passando e estão se comportando no presente. Desse trabalho, podem surgir novas ideias para a criação ou consolidação de um indicador, por exemplo, que, mais tarde, um time dedicado, com ajuda da Ciência de Dados, pode implementar e automatizar.
Próximo do data analyst pode aparecer o papel de business analyst ou BA (analista de negócios), mais tradicional. Enquanto o data analyst está mais focado no monitoramento e entendimento de dados quantitativos que um negócio gera, o business analyst é o profissional que ajuda a entender a lógica de um processo de negócio, funções do negócio, requisitos legais e operacionais, enfim, que pode ajudar a entender e a arquitetar conceitos e mecânicas de processos, os quais impactarão dados existentes ou gerarão novos dados. Em startups que estão ganhando escala, é uma função importante no entendimento e na arquitetura de novas funcionalidades de produtos que envolvem rotinas de negócios — como um banco digital que está interessado em oferecer empréstimos ou investimentos por meio do produto.
Data scientists têm o escopo de suas tarefas e responsabilidades muito mais claro onde os papéis acima já existem. Tal escopo, como na metáfora do castelo, envolve explorar a floresta no entorno para descobrir ameaças e oportunidades, e ajudar a implementar automatizações para mitigá-las ou aproveitá-las. Aqui, entram estudos mais aprofundados, por meio de limpeza e preparação de dados, análise exploratória, implementações e testes de algoritmos de machine learning até código em produção, se o objetivo for tomada de decisão automatizada (recomendações de compra, perfilamento de clientes etc.).
Em relação à implementação de modelos, podem entrar em cena ML ou DL engineers (engenheiros de machine learning e de deep learning). Dado o avanço de algoritmos e as peculiaridades de sua implantação e acompanhamento em escala, é natural que tenha surgido especialistas em atuar na implementação desses algoritmos e de “tuná-los” quase à perfeição. Pode ser um papel com forte background de desenvolvimento de software e com conhecimento estatístico no que diz respeito aos algoritmos, mas não necessariamente skills de explorador de negócios, já que o foco, neste estágio, é colocar código para rodar.
Indo um pouco além, em organizações mais maduras no uso de dados, cientistas de dados e ML ou DL engineers podem atuar em times e agregar perfis diferentes: alguém mais voltado à exploração e descoberta, alguém mais focado na preparação dos dados, alguém mais especializado na implementação de algoritmos. Também há a escala de juniores, plenos e seniores, que soma variedade às funções. Enquanto juniores podem trabalhar com limpeza e tratamento de dados e plenos em implementação de algoritmos, seniores podem estar debruçados em um paper científico que trata do estado da arte em um problema de otimização, por exemplo.
Nessa organização de times ou squads de dados, outro papel que também ganha importância é o de data product manager (gestor de produto de dados). É quem conduz a visão do todo (missão da organização, objetivos do negócio) enquanto o time mergulha nas partes. Pode ser um papel fundamental no conhecimento sobre a tomada de decisão baseada em dados, para que as análises e implementações sejam otimizadas e alinhadas com o que o negócio pretende. É um papel que tem despontado em big techs como Amazon, Uber e similares, onde o uso de dados é vital para o negócio.
Também não é de estranhar se encontrarmos designers trabalhando para melhorar a visualização de dados, por meio dos cada vez mais populares dashboards (painéis com gráficos). Ou profissionais que fazem um papel de relações públicas na organização, no sentido de comunicar resultados de análises ou de educar demais profissionais sobre a importância de dados e os resultados que geram. Inclusive, o papel de educação para uso e entendimento de dados é um dos que vêm ganhando força nesta terceira década do século XXI — a chamada “data literacy” (alfabetização de dados).
Somando, não diminuindo
Se a Inteligência Artificial ameaça empregos em diversas indústrias, ao menos na indústria que a implementa o risco parece distante, como se pode ver a partir da diversidade de papéis citados. Apesar de inovações como AutoML (automatizações que ajudam na implementação de machine learning) serem tendência, o que se percebe é que negócios baseados em dados têm criado uma série de outras funções que há alguns anos não existiam, e que têm se tornado fundamentais, muito demandadas e com vagas não preenchidas.
Quase uma década após ganhar status de o “trabalho mais sexy do século”, a Ciência de Dados ajudou na descoberta de quão necessários são esses demais papéis. Ajudou a entender que dados precisam estar organizados, seguros e bem geridos e a serem entregues de forma eficiente para análise. Ajudou a aproximar outros profissionais do mundo quantitativo. Demonstrou a necessidade de haver papéis de gerenciamento, tomada de decisão e de educação sobre dados nas organizações. O futuro pode revelar ainda mais especializações, à medida que essa indústria se torna mais abrangente, complexa e crítica.
A um aspirante ou a um data scientist em início de carreira, entender essa variedade de papéis e entender como organizações os aplicam é um diferencial tanto para executar seu trabalho como para colaborar com outras pessoas e times (ou até para migrar de função). Nada impede, além da vontade e de condições para aprender, que um data scientist migre para a engenharia de dados ou para uma função de ML ou DL engineer. Ou que passe a gostar de acompanhar dados relacionados a negócios, como data analyst. Ou — e tem sido comum — migrar para um papel de data product manager ou para papéis mais situados na governança.
O que era sexy na verdade ficou bem mais sério e fundamental: criou oportunidades, aproximou áreas e diversificou organizações.
Artigo escrito por Rogério Kreidlow, jornalista, que gosta de observar a tecnologia em relação a temas amplos, como política, economia, história e filosofia.
É curioso perceber que já em 2009 o então economista-chefe do Google, Hal Varian, em um artigo na McKinsey & Company, também antevia: “Eu continuo dizendo que o trabalho sexy nos próximos dez anos será o de estatísticos”, referindo-se ao trabalho com dados.