INTELIGÊNCIA ARTIFICIAL : NOVA IA, TRANSFORMA VOZ EM VÍDEO, A PARTIR DE FOTOS

Resumo Clipnews ⚠️

  • Uma nova IA chamada EMO , promete transformar fotos em vídeos animados com áudios de pessoas falando ou cantando
  • A tecnologia supera outras aplicações em termos de realismo e expressividade

 

ESCRITO COM FERRAMENTAS DE IA

Pesquisadores do Instituto para Computação Inteligente, vinculado ao Alibaba Group, apresentaram um sistema inovador de inteligência artificial (IA). Esse sistema é capaz de transformar fotos estáticas do rosto de uma pessoa em vídeos animados, como se ela estivesse falando ou cantando.

A tecnologia, chamada de Emote Portrait Alive (EMO), combina a imagem estática com áudios de pessoas falando ou cantando. Na apresentação da tecnologia, um dos vídeos divulgados foi de Mona Lisa, famoso quadro de Leonardo da Vinci, “falando” (veja mais abaixo).

Como Funciona o EMO?

O EMO vai além do processamento de fotos de rostos para uso semi-animado. Ele adiciona som aos vídeos, tudo isso sem recorrer a modelos 3D ou referências faciais.

Os pesquisadores utilizaram modelagem de difusão baseada no treinamento de IA em grandes conjuntos de dados de arquivos de áudio e vídeo, totalizando cerca de 250 horas de dados para criar o EMO. Convertendo automaticamente as ondas de áudio em quadros de vídeo, a ferramenta captura gestos humanos sutis, peculiaridades de discurso e outras características que identificam uma imagem animada de um rosto como sendo humano.