Treinado com mais de 50 mil horas de gravações e audiobooks, o algoritmo pode reproduzir em 6 idiomas e apresenta resultados mais fidedignos do que outros programas disponíveis.

O Voicebox é um modelo de IA generativa projetada com o objetivo de auxiliar na edição, amostragem e estilização de conteúdos no formato de áudios, produzindo clipes, bem como remover ruídos e barulhos existentes no ambiente, possibilitar que pessoas com deficiência visual ouçam mensagens escritas com as vozes de seus amigos e até permitir aos usuários que conversem com suas próprias vozes em diversos idiomas estrangeiros.

Ao contrário de suas antecessoras, a principal inovação é o fato da mesma, não requirir gravações longas: basta alimentar o software com dois segundos da voz de uma pessoa. Com isso, o usuário pode usar a ferramenta para fazê-la “dizer” qualquer coisa – é só digitar as frases que estas serão simplesmente reproduzidas.

Seu alto desempenho o torna capaz de clonar em segundos, a voz de qualquer indivíduo a partir de uma minúscula amostra.

“Há muitas possibilidades excitantes para os modelos generativos de fala, mas devido aos potenciais riscos de mau uso, nós não estamos disponibilizando o modelo Voicebox ou seu código”, explica a Meta no texto de apresentação.

A empresa não cita quais seriam os “potenciais riscos”, mas eles são facilmente visualizados após uma análise das capacidades da ferramenta. Tais como utilizar a IA para gerar falsos grampos telefônicos, causar crises políticas e empresariais em que representantes realizam diálogos totalmente fictícios – mas realistas o suficiente para convencer a imprensa e desestabilizar governos e organizações.

Em cenários mais privativos, poderiam ocorrer falsificações de conversas, gerando chantagens ou a ameaças de divulgação das “provas” geradas pelo Voicebox. O temor pela má manipulação de algoritmos de síntese vocal é legítimo e deve ser ministrado com responsabilidade por suas desenvolvedoras antes de serem disponibilizadas.

Uma preocupação tão verídica que a pioneira Adobe, responsável pelo VoCo demonstrado em 2016, nunca o lançou devido as possíveis complicações.