Tech 30 Mar
A Microsoft revelou esta semana a VASA-1, uma ferramenta de inteligência artificial que pode criar vídeos de rostos humanos usando fotos como base. Ela também pode sincronizar expressões faciais quando o usuário carrega uma trilha de áudio.
A gigante de Redmond mostrou diversos exemplos da VASA-1 em seu site oficial e os resultados impressionaram os entusiastas de inteligência artificial.
O Visual Affective Skills Audio da Microsoft, ou simplesmente VASA-1, é um modelo topo de linha da empresa com curadoria especial de expressões faciais humanas. A ferramenta pode gerar um amplo espectro de sentimentos e emoções por meio da dinâmica facial e envolve movimentos dos músculos faciais, lábios, nariz, inclinação da cabeça e muitos outros fatores.
Veja alguns exemplos da VASA-1:
The First AI-Generated Video That Looks Super Real
— Bindu Reddy (@bindureddy) April 17, 2024
Microsoft Research announced VASA-1.
It takes a single portrait photo and speech audio and produces a hyper-realistic talking face video with precise lip-audio sync, lifelike facial behavior, and naturalistic head movements… pic.twitter.com/6bxd4mEgFR
Microsoft just introduced VASA-1.
— Eyisha Zyer 🪐 (@eyishazyer) April 18, 2024
It can generate photorealistic talking videos using just one photo and an audio file.
6 wild examples and demo below: pic.twitter.com/z4YIq4jYRx
Introducing: VASA-1 by Microsoft Research.
— Eduardo Borges (@duborges) April 18, 2024
TL;DR: single portrait photo + speech audio = hyper-realistic talking face video with precise lip-audio sync, lifelike facial behavior, and naturalistic head movements, generated in real time.
Tap to see all the videos. pic.twitter.com/pPC6qZOBW2
Atualmente, a VASA-1 pode gerar vídeos com resolução máxima de 512×512 pixels a 40fps. A empresa afirma que a ferramenta foi projetada para criar vídeos o mais próximos possível da vida real.
É importante notar que a Microsoft apresentou a VASA-1 apenas como uma demonstração de pesquisa. A empresa esclareceu que não tem planos de lançar um produto ou qualquer API relacionada à VASA-1. Além disso, a Microsoft não lançará este produto publicamente, citando vastas possibilidades de uso indevido desta tecnologia.
O conceito do VASA-1 é semelhante ao Sora da OpenAI. Ambas as ferramentas geram vídeos de aparência realista usando IA. Enquanto o VASA-1 se concentra nas expressões humanas, o Sora pode criar vídeos complexos com fundos e artefatos contextuais.
No entanto, nenhuma das ferramentas ainda foi lançada em domínio público. Os anúncios oficiais da Microsoft e OpenAI destacam as capacidades e aplicações potenciais da VASA-1 e Sora em CGI e avatares humanos realistas gerados por IA.
O Google também está trabalhando em seu gerador de vídeo por IA, o VideoPoet. Embora as amostras iniciais do VideoPoet não sejam tão boas quanto VASA-1 ou Sora, elas destacam que até o Google está tentando acompanhar o movimento dos geradores de vídeo de IA.
Você apoia essas ferramentas de vídeo por IA?
Comentários