
Feiras e eventos 11 Jun
18 de junho de 2024 0
O DeepMind, laboratório de inteligência artificial do Google, divulgou, na segunda-feira (17), seus avanços no desenvolvimento de uma nova tecnologia capaz de gerar diálogo e efeitos sonoros para vídeos. O projeto é tratado como V2A (“video-to-audio” ou “vídeo para áudio”, em tradução livre) e está em fase de testes privados.
A tecnologia combina os pixels de vídeos com descrições de texto em linguagem natural para gerar paisagens sonoras realistas e sincronizadas com o que está sendo exibido na tela. Segundo o DeepMind, o V2A pode ser integrado a modelos de geração de vídeo que, no geral, não são capazes de gerar áudio para os vídeos criados.
Uma nave espacial atravessa a vastidão do espaço, estrelas passando por ela, alta velocidade, ficção científica.
Além de adicionar efeitos sonoros, outro destaque da ferramenta é sua capacidade de remover sons indesejados de um vídeo, o que garante maior flexibilidade ao manipular um material, além de permitir experimentar diferentes opções de áudio.
Para isso, o sistema codifica a entrada de vídeo em uma representação compactada. Em seguida, um modelo de difusão refina o áudio continuamente para separá-lo de ruído aleatório, um processo que é acompanhado pelo vídeo carregado e os prompts descritivos para garantir sincronização e precisão.
Um baterista no palco de um show cercado por luzes piscando e uma multidão aplaudindo.
Os pesquisadores treinaram o modelo em vídeos, áudios e anotações descritivas geradas por inteligência artificial com informações detalhadas de sons e transcrições de diálogos. Com isso, o V2A se tornou capaz de associar cenas visuais a sons específicos.
A descrição de texto para gerar o áudio do vídeo é opcional, uma vez que o modelo é capaz de entender o que está acontecendo no clipe, mas pode ajudar a refinar os resultados que o usuário almeja para o material.
O DeepMind afirma que há várias limitações que a equipe pretende abordar em suas futuras pesquisas. Por exemplo, os especialistas estão trabalhando para melhorar a sincronização de faixas de diálogo geradas pela inteligência artificial com o movimento dos lábios de personagens em vídeos.
Música, transcrição [em inglês]: "This turkey looks amazing, I’m so hungry."
O V2A está em fase experimental com os pesquisadores e parceiros do DeepMind. Segundo os especialistas, a tecnologia passará por “testes rigorosos e avaliações de segurança” antes de disponibilizá-la para o público geral.
“Para garantir que nossa tecnologia tenha um impacto positivo na comunidade criativa, estamos reunindo diversas perspectivas e percepções dos principais criadores e cineastas e usando esse valioso feedback para nossa pesquisa e desenvolvimento em andamento”, disse a equipe do DeepMind.
Outros projetos em que o laboratório está trabalhando incluem o SIMA, uma inteligência artificial que pode aprender a jogar games eletrônicos como um ser humano; Genie, uma ferramenta capaz de gerar minijogos a partir de uma simples imagem; e o RoboCat, que pode aprender tarefas para braços robóticos a partir de materiais simples.
Celular mais rápido! Ranking TudoCelular com gráficos de todos os testes de desempenho
Celular com a melhor bateria! Ranking TudoCelular com todos os testes de autonomia
Nada de Black Fraude! Ferramenta do TudoCelular desvenda ofertas falsas
Microsoft destaca novos recursos na build 26100.1876 do Windows 11 24H2
Comentários