Paul Watzlavick, teórico da comunicação, publicava em 1976 o livro “A Realidade é Real?” (Relógio D’Água, 1991). É um livro que fala sobre a forma como, individualmente, percebemos o mundo. Quatro décadas depois, a pergunta está mais atual que nunca. A ajudar à confusão, a tecnologia permite hoje fazer coisas impensáveis, algumas delas não exigem mais do que um smartphone.

Numa era em que qualquer pessoa lida constantemente com conteúdos manipulados - sejam notícias falsas, fotografias adulteradas com Photoshop ou os populares filtros de aplicações como o Snapchat ou o Instagram - a discussão em torno do que é a realidade salta para a ordem do dia.

A realidade virtual está cada vez mais próxima da realidade real de cada dia e não apenas pela sua quase omnipresença, mas também pelo quão refinados estão os métodos - afinal, se qualquer um se consegue transformar em cão, perder quilos ou cicatrizes com a ajuda do smartphone, de que não serão capazes entidades interessadas em manipular a realidade?

Há, hoje, toda uma panóplia de instrumentos para manipular quer áudio, quer vídeo. O desenvolvimento de gráficos e da inteligência artificial estão a permitir a criação de vídeos realísticos de figuras públicas a dizer coisas que nunca disseram. É o futuro das fake news, prenuncia o Guardian, jornal de referência britânico.

Se depois das polémicas que ainda hoje ensombram a eleição presidencial norte-americana do ano passado a lição foi não acreditar em tudo o que se lê, o futuro reserva-nos dias em que talvez não seja possível acreditar sequer no que se ouve ou naquilo que se vê, já que mesmo que pareça, mesmo que se assemelhe, há uma cada vez maior probabilidade de não ser.

As investigações nesse sentido, nos laboratórios das universidades, estão a desenvolver sistemas cada vez mais potentes, capazes de simular discursos ou de os adulterar de forma cada vez menos percetível ao olho humano. É o caso do Face2Face, desenvolvido na Universidade de Stanford, nos Estados Unidos, que permite, em tempo real, pegar no vídeo de uma qualquer pessoa (imagine-se, um vídeo de Vladimir Putin no Youtube, como no exemplo apresentado) e pôr uma outra pessoa a dizer coisas que, no output, isto é, no produto que sai do sistema, pareçam ter sido ditas por Putin. Ou Trump, ou António Costa e qualquer outra figura pública (ou não pública) cuja cara esteja disponível em vídeo.

Se pensarmos no assunto, a manipulação de rostos em tempo real não é hoje algo reservado à Academia ou a laboratórios de malévolos cientistas loucos. Pelo contrário, como qualquer adolescente lhe terá o prazer de demonstrar, segurando não um supercomputador secreto dos serviços militares norte-americanos, mas algo tão simples (mas tão poderoso) como um telemóvel. Pergunte-lhe pelo Snapchat (ou pelas Insta Stories, que lhe vieram morder o monopólio) e descubra o mundo da caracterização virtual, da dissimulação e do face swapping, ou troca de caras, em que, pegando numa foto qualquer, qualquer um pode ser quem quiser, dentro de certas limitações técnicas que ainda tornam o processo em algo que grita manipulação.

Olhemos, por exemplo, para o smile vector, um bot, isto é, uma inteligência artificial, que se dedica a fazer publicações na rede social Twitter pondo toda a gente a sorrir. O sistema é simples: pega numa imagem, examina-a e põe um sorriso (ou tira um sorriso) da cara de alguém. Se alguns exemplos são provas de que ainda há muitos quilómetros pela frente, outros mostram que o futuro é agora.

Os resultados não são perfeitos, mas o facto de o processo ser todo automatizado, revela a sofisticação da inteligência artificial, que usa uma rede neural baseada no deep-learning (aprendizagem profunda). E dão para tudo: debates presidenciais com um Donald Trump careca, vídeos mudos que ganham sons ou fotografias que ganham luz.

O caminho está a ser percorrido a grande velocidade. E das fotos adulteradas (com ferramentas muito mais poderosas que uma aplicação de telemóvel, mas igualmente acessíveis), o salto para o vídeo não é assim tão grande (o próprio Snapchat que temos descrito permite fazer vídeos, seja com a cara de um gorila, seja com o rosto do melhor amigo, no autocarro de regresso da escola.

Entrando no campo do processo, o Face2Face, de Stanford, pega na expressão facial do “ator” (input), enquanto este fala para uma simples webcam e modela essas expressões diretamente no rosto do “dador”, ou vítima, que passa a ser uma espécie de marioneta digital (output). Claro, ainda há um outro pormenor: a voz, todavia, também aí há progressos e o mundo da realidade virtual torna-se tão maravilhoso quanto assustador.

Uma equipa de uma outra universidade norte-americana, desta feita no Alabama, consegue, com apenas três a cinco minutos de áudio com a voz da “vítima” (input), criar uma voz sintetizada (output) capaz de enganar tanto os humanos como os computadores, diz o Guardian. “O atacante pode falar para um microfone e o software vai converter a voz para que as palavras soem como se tivessem sido ditas pela “vítima”.

A Lyrebird, uma startup canadiana, tem estado a desenvolver esta tecnologia com um outro objetivo: ter famosos a ler audiolivros ou a dar voz a personagens de videojogos. Porém, como lembra Olivia Solon, jornalista do Guardian em São Francisco, Estados Unidos da América, apesar de as intenções até parecer ser divertidas, manipular voz e imagem possibilita a criação de declarações falsas ditas por figuras públicas.

Significa isto, por exemplo, que não será tecnicamente difícil pôr o líder da Coreia do Norte a declarar guerra aos Estados Unidos, ou vice-versa. Os resultados de um evento dessa natureza são imprevisíveis, sobretudo neste mundo de redes sociais, onde tudo se partilha rapidamente, muitas sem a devida verificação, proliferando quer em sites pouco fidedignos, quer mesmo em órgãos de comunicação tradicional.

O projeto “Sintetizar Obama”, da Universidade de Washington traz um vislumbre das capacidades de um computador para aprender a imitar qualquer um, simplesmente a partir de dados áudio. No vídeo, os investigadores explicam como, pegando num discurso, é possível pegar em imagens de outro e pôr Obama a dizer determinadas coisas num contexto completamente diferente. Com catorze horas de som, o sistema aprendeu a falar como o ex-presidente dos Estados Unidos, tornando-se capaz de os replicar.

É claro: ainda há um caminho a percorrer, o Obama virtual ainda tem uma voz algo robótica e a entoação das expressões faciais ainda parece pouco natural. Todavia, está perto. Demasiado perto, pode mesmo dizer-se.

E é aqui que entram os jornalistas. “Os media têm um papel fundamental no combate às fake news”, já que permitem informar os cidadãos, contextualizando-os e permitindo que possam fazer escolhas acertadas, dizia em maio Patrícia Silveira, professora auxiliar de comunicação, ouvida pela agência Lusa por ocasião de um debate sobre notícias falsas, em Lisboa.

Com a “erosão da confiança nos media e a crescente proliferação de boatos através das redes sociais”, escreve o Guardian, será cada vez mais importante ter organizações de media a escrutinar conteúdo que se assemelha à realidade, quer pelo som, quer pela imagem.

As pistas podem estar nos pormenores: os metadados do ficheiro (informação que diz onde e quando foi gravado o som ou o vídeo), por exemplo, podem ser uma ajuda. Mas também, saber quem esteve presente no evento e até como estava a meteorologia nesse dia. Todos estes aspetos podem ser indicadores, sinais que se acendem se algo não estiver certo.

Mandy Jenkins, da Storyful, empresa que se dedica a recolher histórias das redes sociais, ouvida pelo jornal britânico, diz que as pessoas devem também ter atenção à iluminação do vídeo, à coerência na dimensão de todos os elementos presentes, à sincronização do áudio com a imagem. É que estes são os cada vez mais pequenos pormenores que a tecnologia ainda não conseguiu dominar, podendo neles residir o indício de que algo está errado.

Não nos podemos esquecer, porém, de que mesmo que um dado vídeo não passe pelo crivo de uma redação rigorosa, nada o impede de que essas mesmas imagens não possam ser publicadas nas redes sociais e partilhadas quase infinitamente, sem intermediação. A viralidade desse conteúdo pode ter graves consequências diplomáticas (como o exemplo que demos acima), mas também políticas ou de relações públicas.

“Já vemos isso acontecer e nem sequer é preciso áudio ou vídeo adulterado para fazer as pessoas acreditar nalguma coisa que não seja verdade”, disse Jenkins ao Guardian. “Isto tem potencial para tornar tudo pior”.