Curiosidade 23 Jun
Se você já imaginou levantar-se da câmera, ligar o computador e iniciar uma videoconferência com câmera aberta, sem precisar de maiores preparativos, saiba que a NVIDIA desenvolveu uma ferramenta para tornar isso possível.
Com o nome de Vid2Vid Cameo, ele consiste em um dos modelos de aprendizado profundo (deep learning) baseado no SDK NVIDIA Maxine para chamadas de vídeo. Ele utiliza redes generativas adversariais (GANs) na sintetização de vídeos realistas com avatares, criados apenas por meio de uma imagem 2D da pessoa. Veja no vídeo a seguir:
Para isso, é necessário enviar uma imagem de referência, desde uma foto real até um avatar de desenho animado, para o modelo de IA capturar o movimento em tempo real do indivíduo, durante a videochamada, e o aplicar à imagem estática que enviou antes.
Além de auxiliar na melhoria da aparência, a técnica de IA ainda ajuda na diminuição em até 10 vezes da largura de banda necessária para videoconferências. Isso se traduz em menos atrasos e tratamentos.
“A largura de banda da internet de muitas pessoas é limitada, mas elas ainda querem fazer videochamadas fluídas com a família e os amigos. Além de ajudá-los, essa tecnologia também pode ser usada para auxiliar o trabalho de animadores, editores de fotos e desenvolvedores de games.”
Ming-Yu Liu
Pesquisador da NVIDIA Enterprise e coautor do projeto
O Vid2Vid Cameo teve desenvolvimento em um sistema NVIDIA DGX, treinado com um conjunto de dados de 180 mil vídeos de alta qualidade de representações. Essa rede consegue detectar 20 pontos principais, como localização de olhos, boca e nariz, usados para modelar o movimento facial de forma autônoma.
A próxima etapa é extrair esses pontos da imagem de referência da pessoa que está ligando. Desta forma, no lugar de mandar os streams mais pesados de vídeo do participante, a plataforma manda somente as informações do movimento desses indicadores faciais.
O modelo utiliza as informações para sintetizar um vídeo que imita a aparência da imagem de referência à pessoa que recebe a chamada. Ainda é possível ajustar o ângulo de visão gerado para mostrar o perfil ou a frente do usuário, assim como uma parte mais baixa ou alta da câmera.
A técnica de IA estará disponível em breve no SDK NVIDIA Video Codec, sob o nome de AI Face Codec. Os recursos também chegarão ao SDK NVIDIA Maxine, para oferecer aos desenvolvedores modelos pré-treinados otimizados voltados a efeitos de vídeo, áudio e realidade aumentada em videochamadas e transmissões ao vivo.
E aí, qual é a sua avaliação sobre o Vid2Vid Cameo criado pela NVIDIA? Participe conosco!
Comentários