Google DeepMind apresenta inteligência artificial capaz de gerar efeitos sonoros a partir de vídeos

Faça login e
comente

Registrar e
publicar

Você está quase pronto! Agora definir o seu nome de usuário e senha.

» Anuncie » Envie uma dica Ei, você é um redator, programador ou web designer? Estamos contratando!

Google DeepMind apresenta inteligência artificial capaz de gerar efeitos sonoros a partir de vídeos

18 de junho de 2024 0

O DeepMind, laboratório de inteligência artificial do Google, divulgou, na segunda-feira (17), seus avanços no desenvolvimento de uma nova tecnologia capaz de gerar diálogo e efeitos sonoros para vídeos. O projeto é tratado como V2A (“video-to-audio” ou “vídeo para áudio”, em tradução livre) e está em fase de testes privados.

A tecnologia combina os pixels de vídeos com descrições de texto em linguagem natural para gerar paisagens sonoras realistas e sincronizadas com o que está sendo exibido na tela. Segundo o DeepMind, o V2A pode ser integrado a modelos de geração de vídeo que, no geral, não são capazes de gerar áudio para os vídeos criados.

Uma nave espacial atravessa a vastidão do espaço, estrelas passando por ela, alta velocidade, ficção científica.

Além de adicionar efeitos sonoros, outro destaque da ferramenta é sua capacidade de remover sons indesejados de um vídeo, o que garante maior flexibilidade ao manipular um material, além de permitir experimentar diferentes opções de áudio.

Para isso, o sistema codifica a entrada de vídeo em uma representação compactada. Em seguida, um modelo de difusão refina o áudio continuamente para separá-lo de ruído aleatório, um processo que é acompanhado pelo vídeo carregado e os prompts descritivos para garantir sincronização e precisão.

Um baterista no palco de um show cercado por luzes piscando e uma multidão aplaudindo.

Os pesquisadores treinaram o modelo em vídeos, áudios e anotações descritivas geradas por inteligência artificial com informações detalhadas de sons e transcrições de diálogos. Com isso, o V2A se tornou capaz de associar cenas visuais a sons específicos.

A descrição de texto para gerar o áudio do vídeo é opcional, uma vez que o modelo é capaz de entender o que está acontecendo no clipe, mas pode ajudar a refinar os resultados que o usuário almeja para o material.

O DeepMind afirma que há várias limitações que a equipe pretende abordar em suas futuras pesquisas. Por exemplo, os especialistas estão trabalhando para melhorar a sincronização de faixas de diálogo geradas pela inteligência artificial com o movimento dos lábios de personagens em vídeos.

Música, transcrição [em inglês]: "This turkey looks amazing, I’m so hungry."

O V2A está em fase experimental com os pesquisadores e parceiros do DeepMind. Segundo os especialistas, a tecnologia passará por “testes rigorosos e avaliações de segurança” antes de disponibilizá-la para o público geral.

“Para garantir que nossa tecnologia tenha um impacto positivo na comunidade criativa, estamos reunindo diversas perspectivas e percepções dos principais criadores e cineastas e usando esse valioso feedback para nossa pesquisa e desenvolvimento em andamento”, disse a equipe do DeepMind.