Voz sintética: maravilha tecnológica, embaraço ético
Como você reagiria se alguém falecido ligasse pedindo ajuda? Deep Learning está gerando voz cada vez mais idêntica à de humanos: a tecnologia por trás disso e suas implicações inevitáveis
Após o feriado de Sete de Setembro, grupos de caminhoneiros fecharam rodovias pelo Brasil em protestos contra o Supremo Tribunal Federal (STF) e em apoio ao presidente Jair Bolsonaro.
Ao pedir, em uma mensagem de áudio, na noite do dia 8, que os caminhoneiros liberassem as estradas, apoiadores resistiram a atender ao presidente. Motivo: quem garantiria que o áudio não era do humorista Marcelo Adnet se passando por Bolsonaro?
É que Adnet já havia espalhado outra gravação, imitando o presidente, dizendo que o outro áudio (do próprio presidente) é que era falso, e que era para os caminhoneiros “permanecer aí e começar a dançar a macarena”.
O caso rendeu reclamações de um lado e risadas de outro. Políticas e humor à parte, porém, como seria uma situação dessas se qualquer uma das falas fosse gerada por uma Inteligência Artificial anônima?
A possibilidade não só já existe como está cada vez mais aprimorada e sendo aplicada em setores como games, TV e cinema, além de algumas brincadeiras e chantagens de que já se tem notícia.
Em outra situação, essa sem pegadinha, por exemplo, o Mercado Livre fez um vídeo em homenagem ao Dia dos Pais, este ano, com o ex-jogador de futebol Zico.
Na produção, Zico é levado ao Maracanã, enquanto conta que seu pai nunca viu nenhum de seus gols. Para sua surpresa, ao entrar em campo, ouve a voz do pai, realista, dizendo que a única coisa que lhe faltou foi ver um gol do filho. Detalhe: o pai de Zico faleceu em 1986.
A voz de Seu Antunes, pai de Zico, foi gerada por meio de uma rede neural. Um vídeo do arquivo pessoal de Zico foi usado para extrair as características da voz do pai dele e criar um dicionário personalizado dessas características. Com isso, bastava aplicar qualquer texto para que a IA por trás do feito o reproduzisse na voz de Seu Antunes, como descreve o Tecnoblog.
O resultado não impressiona apenas pela tecnologia, mas pela verossimilhança e emoção que a voz sintetizada consegue transmitir a nós, humanos.
Outros casos tão impressionantes quanto não faltam. Na Coréia do Sul, um documentário possibilitou um “reencontro” de uma mãe com um avatar realista de sua filha, falecida aos sete anos.
Outro documentário, este sobre o chefAnthony Bourdain, morto em 2018, provocou discussões sobre ética ao também usar voz sintética. O cineasta diz ter fornecido horas de palestras do chef a uma empresa de IA. Em seguida, um algoritmo deu vida à leitura de alguns trechos de seus escritos.
Todos esses casos podem ser considerados, tecnicamente, “deep fakes”, apenas em áudio e não em imagens, nas quais ficaram popularizados, como é o caso destas fotos de pessoas, gatos ou cavalos que não existem ou deste (e muitos outros) vídeos de Obama falando o que nunca disse.
O que tem permitido esses resultados que tanto nos provocam emoções como nos levam a questionamentos são os avanços em Deep Learning, principalmente das chamadas Generative Neural Networks (GANs) ou redes adversárias generativas.
GANs compõe um tipo de modelo de aprendizado profundo com duas redes. Uma rede discriminatória, a adversária, é treinada com base em dados reais (como a voz do pai do Zico extraída de um vídeo antigo) e uma rede generativa, que gera dados novos, sintéticos — ou fakes, de onde vêm o termo deep fakes.
Os dados sintéticos gerados são avaliados pelo discriminador, que diz se eles se parecem com os dados reais recebidos no treinamento ou não.
Conforme a rede aprende, aprimora-se nesse processo de gerar novos dados e classificá-los, conseguindo resultados que parecem “mágicos”, apesar de ser só matemática e poder computacional nos bastidores.
A revolução das GANs foi proposta em 2014 por Ian Goodfellow e outros neste paper. Desde então, houve uma explosão de interesse, melhorias e derivações em torno da técnica.
Para entender melhor o que elas significam para a geração de voz sintética, vale voltar um pouco no tempo.
Antes dos avanços atuais, uma das formas mais comuns de gerar voz é a chamada abordagem concatenativa, como explica este artigo. É a técnica encontrada, por exemplo, em atendentes virtuais por voz de empresas telefônicas.
Essa técnica requer um grande banco de dados de sequências de falas pré-gravadas. A partir de um texto, essas sequências de falas são reordenadas (concatenadas) de forma a gerar orações inteligíveis a humanos.
O resultado possibilita a transmissão de informações, mas peca na falta de naturalidade e “jogo de cintura”. A voz produzida, em geral, é robótica, não necessariamente no tom, mas na formulação das frases e no encadeamento de palavras.
As dificuldades não param por aí. Se quisermos uma fala mais séria, precisamos de um grande banco de dados de gravação com uma pessoa cuja voz tenha essa característica. Se quisermos algo mais descontraído, temos de gravar tudo de novo com outra pessoa.
Uma outra abordagem é chamada de paramétrica, que gera voz por meio de modelos estatísticos. Através de parâmetros (de onde o nome), é possível manipular uma voz para que tenha outras características daquele em que foi gravada.
A abordagem, mesmo assim, não permite produzir voz artificial indistinguível da de um determinado locutor humano, por exemplo.
Deep Learning avançou sobre essa lacuna. Com pequenas amostras da voz de alguém, qualquer novo conteúdo de voz exclusivo e dinâmico pode ser criado com muita rapidez, inclusive em tempo real.
O algoritmo aprende à medida que gera fala, capturando mínimos detalhes, como entonações, pausas entre palavras e frases, volume, ênfase, entre outros.
Na prática, isso permite que o Sílvio Santos, por exemplo (substitua por quem você achar mais conveniente), continue falando eternamente, mesmo que ele não exista mais. Para isso, basta ter amostras de sua voz.
O modelo aprende a maneira como ela funciona, digamos. A partir daí, basta fornecer qualquer texto para que seja lido como se Sílvio Santos o estivesse lendo.
Ou basta acoplar a voz a outro modelo generativo como o GPT-3 para que mágica maior aconteça: um Sílvio Santos etéreo, holográfico, vindo, quem sabe, do Metaverso, existindo para sempre.
Em se tratando de reconhecimento de fala, outro campo do Processamento de Linguagem Natural, o Facebook anunciou ano passado um modelo não supervisionado, chamado “wav2vec 2.0” (código no Github), capaz de aprender diretamente com outros dados de fala.
O mais comum nessa técnica é que primeiro se converta a fala para texto (speech-to-text) para depois reconhecê-la novamente por meio de fala (text-to-speech).
O modelo do Facebook economiza uma etapa (speech-to-text) e acelera o processo. Segundo a empresa, o avanço é útil principalmente na tradução de idiomas que tem poucas bases de voz descritas para ajudar no treinamento de modelos.
Uma gama de empresas de IA tem crescido e desenvolvido o campo, de olho no mercado promissor que essa tecnologia gera. WellSaid Labs, Reespecker, Resemble AI, VocaliD AI e Sonantic são exemplos.
WellSaid Labs fornece serviços de locução personalizados produzidos por IA. A empresa é solicitada para produzir vozes para cursos virtuais, peças publicitárias, entre outros.
A produção de voz sintética acaba sendo mais barata do que contratar locutores humanos. Em alguns casos, também é possível contratar apenas as “características da voz” de um locutor humano e deixar que a voz sintetizada a partir desses dados gere novas falas, a partir de entradas textuais.
Exemplo hipotético: o humorista Adnet licencia as características de sua voz a uma empresa dessas. A partir dos dados da voz, a empresa pode produzir as paródias, piadas e zoações que quiser, como se fosse o humorista, sem precisar dele nunca mais — o que já nos coloca questionamentos.
Em matéria à MIT Technology Review, a WellSaid Labs diz que o mais importante nesse tipo de trabalho acaba sendo encontrar boas vozes humanas que sirvam para o treinamento dos modelos.
Uma ou duas horas de gravação da voz bastam para que se gere voz sintética. Entretanto, há todo um processo de ajustes posteriores, que pode levar mais uma semana, para que a fala seja inconfundível com a da pessoa real que emprestou a voz.
Os mesmos princípios são aplicados para dramas de TV, filmes, personagens de videogames e outros conteúdos audíveis. A Sonantic tem um vídeo de exemplo sobre voz sintética gerada para games.
Tudo isso nos fornece insumos para pensarmos nas implicações éticas e sociais das aplicações de voz sintética. É claro que aproveitadores antecedem qualquer tecnologia e já utilizavam truques de clonagem de voz (às vezes imitações baratas) para aplicar golpes há tempos.
Entretanto, a fidelidade que o avanço do Deep Learning em voz sintética entrega faz pensar sobre seu uso para tornar fake news ainda mais poderosas, para plágios que podem afetar quem sobrevive de sua voz ou, simplesmente — o que é mais provável que aconteça —, desempregando dubladores, artistas, locutores e atendentes de call centers.
Um exemplo, sem maiores consequências, mas que demonstra esse poder de ambiguidade e confusão, ocorreu com o comentaria de MMA Joe Regan.
Ele é um podcaster popular e seus mais de 1.300 episódios foram usados por engenheiros de uma empresa para treinar um modelo que passou a imitar perfeitamente sua voz.
O próprio Regan reagiu com bom humor à brincadeira, mas o fato deu o que pensar e falar, como comenta a The Verge.
Em outro caso, essa com consequências sérias, um húngaro utilizou voice deep fake para se passar pelo executivo de uma empresa alemã e conseguir que um CEO lhe transferisse 243 mil dólares.
É o primeiro relato de uso dessa tecnologia para o crime. A história completa é contada na Forbes.
Perigos como esse demonstram porque a OpenAI tem relutado em abrir o GPT-3 e seus derivados, com DALL-E, para uso massivo.
Na situação hipotética mais extrema, ferramentas como essas, como deep fakes em áudio e vídeo, além do poder de geração de texto de modelos como GPT-3, podem levar a um aumento de casos de disseminação de “mentiras hiperrealistas”, digamos, sobre quaisquer fatos, teorias e ideias.
A chamada epistemologia social, o conhecimento que consideramos correto e válido como sociedade em um determinado período de tempo, é suscetível de ser jogada por terra e profundamente reformulada, não sem conflitos e disputas pela “verdade”, a cada nova grande onda de informações novas, como ocorreu na Reforma Protestante, por exemplo.
O que vemos ocorrer com fake news produzidas por humanos poderá se tornar um processo escalado por máquinas com as ferramentas que Deep Learning já nos oferece.
Como lidaríamos com áudios falsos de candidatos presidenciais, mas perfeitamente verossímeis, sendo distribuídos para eleitores às vésperas de uma eleição? Como verificar as consequências disso depois?
Para ficar em um contexto ainda mais sutil, tomemos outro contexto, o do mercado. E se gente de má-fé usar da tecnologia para distribuir falar de acionistas de empresas, presidentes de bancos ou pessoas em posições importantes à economia?
A veracidade das informações pode até ser apurada e corrigida, mas certamente algum estrago já estará feito entre quem, na ânsia do momento, vendeu ativos diante de uma ameaça ou comprou achando que se tratava de oportunidade.
No limite, um ciclo de áudios hiperrealistas falsos (assim como vídeos ou conteúdo escrito de mesma natureza), pode nos levar a duvidar de tudo e não saber mais em quais fontes de informações confiar, o que nos lançaria em uma selva.
Provavelmente, é claro, não haverá uma enxurrada de vozes falsificadas do dia para a noite e a própria sociedade, o mercado e a tecnologia tratarão de encontrar caminhos para mitigar o problema.
Mas discussões servem, justamente, para considerarmos estas possibilidades radicais. Bastaria algum algoritmo acessível, poder computacional (que já pode ser comprado na Amazon), dados de vozes reais, treinamento do modelo e textos, que a voz sintética tratará de tornar audíveis.
Some-se algum esquema de monetização disso e tem-se tanto grandes oportunidades como riscos significativos à vista.
Em outro cenário, fora de um apocalipse de fake news, há a questão dos plágios. Assim como copiamos conteúdo textual e fotográfico sem maiores consequências, a voz sintética pode levar a uma banalização do plágio de vozes conhecidas ou, apenas, de vozes padronizadas para determinadas situações.
Por exemplo, uma empresa quer fazer um anúncio numa rede social de uma oferta tentadora. Com a popularização da técnica, ela pode recorrer a dados de uma voz jovem e animada, de um canal do Youtube ou de um podcast do Spotify, para impulsionar um clipe ou anúncio em áudio, sem pagar locutores ou mesmo contratar serviços especializados.
Mesmo que esse cenário venha a ser regulamentado, para evitar uso indiscriminado de vozes disponíveis na web, há a outra questão — mais pertinente, certamente inevitável, já que não há nem como nem por que evitar a inovação — daqueles que dependem da voz para sobreviver, como locutores, dubladores, cantores etc.
Pode-se chegar a um ponto que haverá mais e mais vozes padronizadas disponíveis em bancos de dados para treinamento, a ponto de limitar o trabalho desses profissionais.
O avanço da tecnologia certamente levará, também, a que se possa produzir vozes do zero, cada vez menos dependendo de humanos para o treinamento inicial de modelos.
Digamos que a partir de um banco de dados de muitas vozes, construa-se algum algoritmo ou técnica que extraia todas as características daquelas vozes e permita mixá-las ou variá-las entre uma e outra, além de alterar timbres, pausas e outras nuances?
Isso abriria campo para que vozes puramente digitais, indiferenciáveis de vozes humanas, pudessem ser geradas. Algo como “this voice does not exist”, parafraseando os gatos.
Esse é mais um daqueles tópicos em que a imaginação é infinita, como já vimos em muitos assuntos relacionados à Inteligência Artificial.
Como Natural Language Processing (NLP) é um tópico bastante especializado do Machine Learning, hoje dominado pelo Deep Learning, que requer grandes bases de dados e extensivo poder computacional, além de conhecimento, é provável que estas tecnologias não cheguem em forma técnicas a serem construídas por cada empresa, mas venham prontas, da parte de grandes players, apenas para serem usadas, o que pode acelerar sua adoção.
O que cabe a cientistas de dados e interessados no Machine Learning é estarem cientes dessas implicações, caso venham a lidar com tais técnicas.
Provavelmente, como já se tem visto com big techs depondo à justiça e a parlamentares americanos, a tecnologia será cada vez mais chamada ao debate se suas criações resultarem em efeitos colaterais.
Outro campo que pode surgir, se alguns desses cenários relatados gradualmente se concretizarem, é o de combater tais mentiras hiperrealistas em conteúdos, o que também exigirá emprego de IA.
Como vários pesquisadores, praticantes e debatedores da área concordam, estamos apenas na infância desses avanços em Deep Learning.
É provável que vejamos demonstrações cada vez mais frequentes de tecnologias maravilhosas e usos nem tanto. Haverá muito para acompanharmos, debatermos e pensarmos logo à frente.
Artigo escrito por Rogério Kreidlow, jornalista, que gosta de observar a tecnologia em relação a temas amplos, como política, economia, história e filosofia.