Deepfakes: quando uma imagem não vale nada
- Criado em 04/11/2019 Por LinkLei
"Deepfakes" é o nome para imagens falsas e gravações sonoras altamente realistas; eles são representações digitalizadas e personalizadas. Os Deepfakes são feitos usando a tecnologia de reconhecimento e reconstrução facial e de áudio baseada em IA; Os algoritmos de IA são usados para prever movimentos faciais e sons vocais. Em sua coluna de Inteligência Artificial, Katherine B. Forrest explora as questões legais que podem surgir à medida que os deepfakes se tornam mais prevalentes.
Uma imagem pode valer mais que mil palavras, ou nada. Os Deepfakes - fitas de vídeo ou áudio altamente realistas e personalizados, mas totalmente falsificados - estão mudando o valor e a confiabilidade das evidências de vídeo e áudio.
"Deepfakes" é o nome para imagens falsas e gravações sonoras altamente realistas; eles são representações digitalizadas e personalizadas. Os Deepfakes são feitos usando a tecnologia de reconhecimento e reconstrução facial e de áudio baseada em IA; Os algoritmos de IA são usados para prever movimentos faciais (boca, mandíbula, olhos, etc.), bem como sons vocais.
Os vídeos do Deepfake são criados tirando uma imagem ou videoclipe de um indivíduo - fazendo ou dizendo qualquer coisa. Através da dissecação e desmontagem cuidadosas de cada pixel de uma imagem, ou da dissecação de um pequeno clipe de áudio de uma voz, e usando a tecnologia preditiva de IA, o software pode criar um doppelgänger fazendo algo totalmente diferente da imagem ou do clipe de som original. De fato, o que o doppelgänger pode estar fazendo na fita falsa é limitado apenas pela imaginação do criador.
Você não precisa ser um tecnólogo para acessar o software de prateleira para criar deepfakes, cada vez mais está disponível gratuitamente on-line. O aprendizado de máquina da IA permite sua criação. Assim como o cérebro aprende a reconhecer e identificar uma pessoa por exposição repetida, o criador de um deepfake simplesmente reúne um conjunto de dados que consiste em várias imagens (fotografias ou videoclipes) de uma pessoa alvo (por exemplo, uma figura política bem conhecida) e o alimenta em um programa habilitado para IA. Esse programa compara a imagem de destino com uma imagem de base (por exemplo, um ator fingindo fazer e dizer algo que o político nunca diria ou faria; ou um vídeo de uma câmera de segurança mostrando o rosto de um verdadeiro criminoso). O software usa o aprendizado de máquina para comparar iterativamente as imagens e criar efetivamente um substituto da imagem de destino na imagem de base. O software aprende com essas imagens como o rosto aparece em várias posições diferentes e é capaz de imitar essas posições na imagem base. Um dos primeiros usos do deepfakes foi alterar imagens pornográficas com o rosto de atrizes conhecidas.
Estão sendo desenvolvidas tecnologias e técnicas para detectar falhas profundas - reconhecendo uma voz ou imagem como falsificada. Alguns desses esforços parecem bastante básicos e manuais: fazer com que os humanos façam uma análise cuidadosa de imagens suspeitas ou gravações de som e identificando possíveis erros que os revelam falsos. Mas também existem comparações de pixels computadorizadas que podem ser feitas: capturar uma imagem de base e analisá-la em busca de bits ausentes, condensados ou defeituosos.
Também está sendo desenvolvida tecnologia para marcar novos clipes de vídeo e áudio com indícios de autenticidade. Essa nova tecnologia estará buscando melhorias na própria tecnologia deepfake e fornece apenas uma solução parcial. Além disso, qualquer certificação de autenticidade é útil principalmente para novos áudio e vídeo - enquanto danos imediatos podem advir de clipes de áudio e vídeo supostamente “descobertos” e “antigos” criados muito antes dos deepfakes entrarem em cena.
Quantas vezes já ouvimos “vamos para a fita”, “ver para crer”, uma “imagem vale mais que mil palavras”? Estamos acostumados a aceitar o que vemos com nossos olhos e ouvimos com nossos ouvidos como "verdade" e, por esse motivo, em contextos legais, fitas de áudio e vídeo podem ser uma evidência poderosa. Um áudio ou fita de vídeo de boa qualidade pode mostrar quem disse o quê a quem, quem estava presente em um local específico e quem tomou uma ação específica. O áudio e as fitas de vídeo são usados pelas partes em inúmeros processos legais, bem como por promotores, juízes e júris.
Em um caso criminal, uma fita de vídeo de eventos pode ser a arma de fumar que faz a diferença entre uma acusação ou investigação encerrada, um apelo ou ir a julgamento, uma condenação ou absolvição. Imagine uma fita de vídeo que mostra o réu segurando uma arma em um vestíbulo no momento em que um assassinato ocorreu naquele local; ou comprar uma quantidade de medicamentos em um local onde ocorreu uma venda conhecida de medicamentos. Em um ambiente civil, imagine uma fita de vídeo que mostre que uma pessoa usou um epíteto racial ou praticou um ato inadequado no escritório. Se essas imagens visuais de pessoas são falsas, elas podem resultar em enormes danos, incluindo a condenação e o encarceramento da pessoa errada.
É claro que deepfakes fora dos procedimentos legais também podem causar grandes danos: fitas falsas de candidatos políticos dizendo ou fazendo coisas que nunca disseram ou fizeram para influenciar o resultado de uma eleição é um mal com o qual todos devemos nos preocupar. Mas também existem questões de segurança nacional: os deepfakes estão sendo usados para mostrar às autoridades governamentais aparentemente tomando ações militares (por exemplo, autorizando um ataque militar) que nunca tomaram.
Os deepfakes estão mudando nossa capacidade de confiar em evidências de áudio e vídeo: o que assumimos ser verdade pode de fato ser ficção.
O que significa o surgimento de deepfakes para advogados e juízes? Em 2019, isso significa que é preciso ter consciência de que elas existem e antecipar desafios (tanto bem fundamentados quanto oportunistas) à autenticidade de áudio e fita de vídeo. Podemos esperar que o desenvolvimento de uma indústria caseira de pessoas que supostamente consigam distinguir uma falsificação de uma fita autêntica e que tenham uma nova série de especialistas na sala de audiências. Podemos precisar desenvolver protocolos para históricos claros da cadeia de custódia para fitas de áudio e vídeo; esses históricos registram os metadados demonstrando que uma fita saiu de um servidor específico e foi transmitida de maneira controlada.
Em casos criminais, isso significa que os réus podem argumentar que, mesmo que apareçam em fita, “não fui eu”; nos casos em que o público estiver pagando pela defesa e pelos custos associados, os juízes deverão aprovar os custos de teste da autenticidade. Isso pode se tornar caro e até que a tecnologia avance e não seja garantido que resulte em uma resposta clara. Os juízes serão confrontados com perguntas sobre a possibilidade de um réu argumentar que um ataque profundo é a razão pela qual o júri vê seu rosto na fita, em um esforço para levantar uma dúvida razoável.
Em casos civis, sem dúvida haverá desafios de Daubert e Frye à experiência daqueles indivíduos proferidos como especialistas em diferenciar real de falso; e o ônus financeiro de empreender esse exercício pode acabar se tornando um custo que certas partes são incapazes de suportar. A incapacidade de contestar efetivamente uma fita falsa suspeita ou real pode fazer a diferença entre ganhar e perder um caso.
Estamos entrando em uma nova era na qual o que vemos não pode ser comparado ao que devemos acreditar . Advogados e juízes precisarão acompanhar os desenvolvimentos nessa área para enfrentar os desafios.
Katherine B. Forrest é parceira do departamento de litígios de Cravath, Swaine & Moore. Mais recentemente, atuou como juíza distrital dos EUA no distrito sul de Nova York e foi ex-vice-procuradora geral adjunta da Divisão Antitruste do Departamento de Justiça dos EUA.