Segurança 08 Mar
A OpenAI apresentou, na sexta-feira (29), seus avanços com uma nova ferramenta de inteligência artificial que pode reproduzir a voz de uma pessoa com uma amostra de apenas 15 segundos. Após ganhar renome no ramo da Inteligência Artificial com o ChatGPT, DALL-E e Sora, a startup estadunidense revelou detalhes sobre o “Voice Engine”.
Após ser treinado com a voz de uma pessoa, o Voice Engine consegue “falar” qualquer palavra, frase ou texto inserido pelo usuário — mesmo que não esteja no mesmo idioma nativo do indivíduo. Isso significa, por exemplo, que a inteligência artificial seria capaz de pronunciar um texto em português utilizando a voz de uma pessoa falante de inglês.
O Voice Engine ainda não está disponível para o público. A OpenAI afirma estar “comprometida com desenvolvimento de IA segura e amplamente benéfica”, possivelmente referindo-se à cautela para prevenir o uso indevido da tecnologia.
De acordo com a empresa, um dos usos potenciais da ferramenta é a tradução. Criadores poderiam utilizar amostras de suas próprias vozes para traduzir conteúdo — seja em um vídeo ou podcast — e atingir um público maior. Outra possibilidade é ajudar pessoas que sofrem com condições degenerativas na fala.
A startup apresentou uma demonstração prática do funcionamento da inteligência artificial. Um clipe de áudio com um discurso em inglês é fornecido. Em seguida, o Voice Engine utiliza a voz de referência para traduzir o discurso para a língua japonesa. Veja a seguir.
Áudio de referência (inglês)
Áudio traduzido pelo Voice Engine (japonês)
A OpenAI acrescenta que a Universidade Brown, dos Estados Unidos, está explorando o uso do Voice Engine para ajudar pacientes em tratamento de doenças que comprometem da fala. Especialistas já restauraram a voz de uma jovem que perdeu a fluência da voz devido a um tumor cerebral usando apenas o áudio de um vídeo gravado para um projeto escolar.
Apesar dos benefícios que a tecnologia poderia conferir à medicina, indústria de entretenimento e outras esferas, há claras preocupações quanto ao risco de uso da inteligência artificial com fins ilícitos, o que poderia envolver a clonagem da voz de pessoas — celebridades ou não — para golpes e disparo de notícias falsas.
Um dos casos que geraram repercussão foram as deepfakes utilizadas para atrair vítimas para jogos de apostas falsas na internet. Celebridades e influenciadores digitais tiveram suas imagens clonadas por meio de inteligência artificial para criar propagandas falsas e conferir credibilidade às plataformas dos golpistas.
Por esse motivo, o Voice Engine pode ser acessado somente por instituições autorizadas pela OpenAI. Não há previsão de disponibilidade dessa ferramenta ao público. Em nota relacionada, a OpenAI está preparando o lançamento público da IA Sora para 2024. Trata-se de uma tecnologia capaz de gerar vídeos através de um simples comando de texto.
Comentários