“Neural Voice Camouflage” disfarça palavras com ruído personalizado
O Grande Irmão está ouvindo. As empresas usam “bossware” para ouvir seus funcionários quando estão perto de seus computadores. Vários aplicativos “spyware” podem gravar chamadas telefônicas. E dispositivos domésticos como o Echo da Amazon podem gravar conversas diárias. Uma nova tecnologia, chamada Neural Voice Camouflage, agora oferece uma defesa. Ele gera ruído de áudio personalizado em segundo plano enquanto você fala, confundindo a inteligência artificial (IA) que transcreve nossas vozes gravadas.
O novo sistema usa um “ ataque adversário ”. A estratégia emprega aprendizado de máquina – no qual os algoritmos encontram padrões nos dados – para ajustar os sons de uma maneira que faz com que uma IA, mas não as pessoas, a confunda com outra coisa. Essencialmente, você usa uma IA para enganar outra.
O processo não é tão fácil quanto parece, no entanto. A IA de aprendizado de máquina precisa processar todo o clipe de som antes de saber como ajustá-lo, o que não funciona quando você deseja camuflar em tempo real.
Assim, no novo estudo, os pesquisadores ensinaram uma rede neural, um sistema de aprendizado de máquina inspirado no cérebro, para prever efetivamente o futuro. Eles o treinaram em muitas horas de fala gravada para que ele possa processar constantemente clipes de áudio de 2 segundos e disfarçar o que provavelmente será dito em seguida.
Por exemplo, se alguém acabou de dizer “aproveite o grande banquete”, não pode prever exatamente o que será dito em seguida. Mas levando em conta o que acabou de ser dito, bem como as características da voz do locutor, produz sons que vão atrapalhar uma série de possíveis frases que podem se seguir. Isso inclui o que realmente aconteceu a seguir; aqui, o mesmo orador dizendo, “isso está sendo cozido”. Para os ouvintes humanos, a camuflagem de áudio soa como ruído de fundo e eles não têm problemas para entender as palavras faladas. Mas as máquinas tropeçam.
Os cientistas sobrepuseram a saída de seu sistema à fala gravada enquanto ela estava sendo alimentada diretamente em um dos sistemas de reconhecimento automático de fala (ASR) que podem ser usados por bisbilhoteiros para transcrever. O sistema aumentou a taxa de erro de palavras do software ASR de 11,3% para 80,2%. “Estou quase morrendo de fome, pois conquistar reinos é um trabalho árduo”, por exemplo, foi transcrito como “im mearly starme my scell for threa for this conqernd kindoms as harenar ov the reson” (veja o vídeo acima).
As taxas de erro para fala disfarçada por ruído branco e um ataque adversário concorrente (que, sem capacidade preditiva, mascarou apenas o que acabara de ouvir com ruído reproduzido meio segundo atrasado) foram de apenas 12,8% e 20,5%, respectivamente. O trabalho foi apresentado em um artigo no mês passado na Conferência Internacional sobre Representações de Aprendizagem, que revisa as submissões de manuscritos.
Mesmo quando o sistema ASR foi treinado para transcrever a fala perturbada pela Neural Voice Camouflage (uma técnica que os bisbilhoteiros poderiam empregar), sua taxa de erro permaneceu em 52,5%. Em geral, as palavras mais difíceis de interromper eram as curtas, como “o”, mas essas são as partes menos reveladoras de uma conversa.
Os pesquisadores também testaram o método no mundo real, tocando uma gravação de voz combinada com a camuflagem por meio de um conjunto de alto-falantes na mesma sala que um microfone. Ainda funcionou. Por exemplo, “também acabei de adquirir um novo monitor” foi transcrita como “com motivos com eles também toscat e neumanitor”.
Este é apenas o primeiro passo para proteger a privacidade diante da IA, diz Mia Chiquier, cientista da computação da Universidade de Columbia que liderou a pesquisa. “A inteligência artificial coleta dados sobre nossa voz, nossos rostos e nossas ações. Precisamos de uma nova geração de tecnologia que respeite nossa privacidade.”
Chiquier acrescenta que a parte preditiva do sistema tem grande potencial para outras aplicações que precisam de processamento em tempo real, como veículos autônomos. “Você tem que prever onde o carro estará em seguida, onde o pedestre pode estar”, diz ela. Os cérebros também operam por antecipação; você fica surpreso quando seu cérebro prevê algo incorretamente. A esse respeito, Chiquier diz: “Estamos imitando a maneira como os humanos fazem as coisas”.
“Há algo de bom na maneira como ele combina a previsão do futuro, um problema clássico em aprendizado de máquina, com esse outro problema de aprendizado de máquina adversário”, diz Andrew Owens, cientista da computação da Universidade de Michigan, Ann Arbor, que estuda processamento de áudio e camuflagem visual e não se envolveu no trabalho. Bo Li, cientista da computação da Universidade de Illinois, Urbana-Champaign, que trabalhou em ataques de áudio adversários, ficou impressionado com o fato de a nova abordagem funcionar mesmo contra o sistema ASR fortificado.
A camuflagem de áudio é muito necessária, diz Jay Stanley, analista sênior de políticas da União Americana das Liberdades Civis. “Todos nós somos suscetíveis a ter nosso discurso inocente mal interpretado por algoritmos de segurança.” Manter a privacidade é um trabalho árduo, diz ele. Ou melhor, é harenar sobre a razão.