VASA-1, la nouvelle IA de Microsoft, peut créer un deepfake juste à partir d'une photo et d'une piste audio, et peut faire dire n'importe quoi à n'importe qui, mais n'est pas disponible, car trop dangereux

Le 19 avril 2024 à 18:05, par Jade Emy

3PARTAGES

Microsoft vient de présenter un nouveau modèle d'IA VASA 1, un cadre conçu pour générer des visages parlants réalistes pour des personnages virtuels. Avec une simple image statique et un clip audio, l'entreprise affirme que son modèle VASA-1 peut créer de courtes vidéos réalistes. Le modèle offre également plusieurs options pour apporter des modifications à la vidéo.

Microsoft a révélé son nouveau modèle d'IA capable de synchroniser les mouvements des lèvres avec l'audio et de capturer un large éventail de nuances faciales et de mouvements naturels de la tête. Le modèle VASA 1 serait capable de fournir un contenu de haute qualité vidéo avec des dynamiques faciales et de tête réalistes. Le modèle prend en charge la génération en ligne de vidéos de 512 x 512 à une vitesse maximale de 40 images par seconde, avec une latence initiale négligeable.

Il est capable de créer des vidéos d'une durée maximale d'une minute. Le modèle d'IA offre un contrôle granulaire aux utilisateurs pour leur permettre d'ajuster différents aspects de la vidéo, tels que la direction du regard principal, la distance de la tête, les décalages d'émotion, etc. Ces contrôles sur l'apparence démêlée, la pose de la tête en 3D et la dynamique faciale permettent à chacun de modifier le résultat d'une meilleure manière.

Le nouveau modèle d'IA de Microsoft est également capable de traiter des photos et des données audio qui ne font pas partie de la distribution d'entraînement. Par exemple, il peut traiter des photos artistiques, des audios chantés et des discours non anglophones. Ces types de données n'étaient pas présents dans l'ensemble de formation.

Cependant, Microsoft a annoncé que VASA-1 ne serait pas accessible au public, soulignant son intention d'utiliser la technologie pour créer des personnages virtuels réalistes plutôt que de la diffuser en tant que produit autonome ou API. Cette décision découle de l'engagement de Microsoft en faveur de pratiques éthiques en matière d'IA.

Répondant aux inquiétudes concernant une éventuelle utilisation abusive, Microsoft a clarifié sa position : "Notre recherche se concentre sur les applications positives de la génération de compétences visuelles affectives pour les avatars virtuels de l'IA. Nous nous opposons à toute utilisation de cette technologie pour tromper ou induire en erreur. Bien que notre méthode puisse potentiellement être utilisée à des fins d'usurpation d'identité, nous nous efforçons d'améliorer les techniques de détection des falsifications afin d'atténuer ces risques."

Jusqu'à ce que Microsoft soit certain que la technologie sera utilisée de manière responsable et en conformité avec les réglementations, il n'est pas prévu de publier une démo en ligne, une API ou des détails supplémentaires sur la mise en œuvre de VASA.

Voici la présentation de Microsoft :

VASA-1 : Des visages parlants réalistes grâce à l'audio, générés en temps réel

Nous présentons VASA, un cadre permettant de générer des visages parlants réalistes de personnages virtuels dotés de compétences visuelles et affectives (VAS) attrayantes, à partir d'une seule image statique et d'un clip audio de parole. Notre premier modèle, VASA-1, est capable non seulement de produire des mouvements labiaux parfaitement synchronisés avec l'audio, mais aussi de capturer un large spectre de nuances faciales et de mouvements naturels de la tête qui contribuent à la perception de l'authenticité et de la vivacité. Les principales innovations comprennent un modèle holistique de dynamique faciale et de génération de mouvements de tête qui fonctionne dans un espace latent de visage, et le développement d'un tel espace latent de visage expressif et démêlé à l'aide de vidéos. Grâce à des expériences approfondies, y compris l'évaluation d'un ensemble de nouvelles mesures, nous montrons que notre méthode est nettement plus performante que les méthodes précédentes dans diverses dimensions. Notre méthode offre non seulement une qualité vidéo élevée avec une dynamique réaliste du visage et de la tête, mais prend également en charge la génération en ligne de vidéos 512x512 jusqu'à 40 FPS avec une latence de départ négligeable. Elle ouvre la voie à des engagements en temps réel avec des avatars réalistes qui émulent les comportements conversationnels humains.

Réalisme et vivacité

Notre méthode est capable non seulement de produire une synchronisation lèvres-audio précieuse, mais aussi de générer un large spectre de nuances faciales expressives et de mouvements naturels de la tête. Elle peut prendre en charge des données audio de longueur arbitraire et produire de manière stable des vidéos de visages parlants homogènes.

Contrôle de la génération

Notre modèle de diffusion accepte des signaux optionnels comme condition, tels que la direction du regard principal et la distance de la tête, ainsi que les décalages d'émotion.

Généralisation hors distribution

Notre méthode est capable de traiter des entrées photo et audio qui ne sont pas dans la distribution d'apprentissage. Par exemple, elle peut traiter des photos artistiques, des audios chantés et des discours non anglophones. Ces types de données n'étaient pas présents dans l'ensemble de formation.

La puissance du démêlage

Notre représentation latente démêle l'apparence, la pose de la tête en 3D et la dynamique du visage, ce qui permet de contrôler et d'éditer séparément les attributs du contenu généré.

Efficacité en temps réel

Notre méthode génère des images vidéo de 512x512 à 45 images par seconde en mode de traitement par lots hors ligne, et peut prendre en charge jusqu'à 40 images par seconde en mode de streaming en ligne avec une latence précédente de seulement 170 ms, évaluée sur un PC de bureau avec un seul GPU NVIDIA RTX 4090.

Risques et considérations sur l'IA responsable

Notre recherche se concentre sur la génération de compétences visuelles affectives pour les avatars virtuels de l'IA, en vue d'applications positives. Elle ne vise pas à créer un contenu utilisé pour tromper ou induire en erreur. Toutefois, à l'instar d'autres techniques de génération de contenu, elle pourrait être utilisée à mauvais escient pour usurper l'identité d'un être humain. Nous sommes opposés à tout comportement visant à créer des contenus trompeurs ou nuisibles de personnes réelles, et nous sommes intéressés par l'application de notre technique pour faire progresser la détection des falsifications. Actuellement, les vidéos générées par cette méthode contiennent encore des artefacts identifiables, et l'analyse numérique montre qu'il y a encore du chemin à faire pour atteindre l'authenticité des vraies vidéos.

Tout en reconnaissant la possibilité d'une utilisation abusive, il est impératif de reconnaître le potentiel positif substantiel de notre technique. Les avantages - tels que le renforcement de l'équité en matière d'éducation, l'amélioration de l'accessibilité pour les personnes ayant des difficultés de communication, l'offre d'une compagnie ou d'un soutien thérapeutique à ceux qui en ont besoin, entre autres - soulignent l'importance de notre recherche et d'autres explorations connexes. Nous sommes déterminés à développer l'IA de manière responsable, dans le but de faire progresser le bien-être humain.

Dans ce contexte, nous n'avons pas l'intention de publier une démo en ligne, une API, un produit, des détails supplémentaires sur la mise en œuvre ou toute autre offre connexe tant que nous ne sommes pas certains que la technologie sera utilisée de manière responsable et conformément aux réglementations en vigueur.

Source : Microsoft

Et vous ?

Quel est votre avis sur le sujet ?

Pensez-vous que l'initiative de Microsoft est crédible ou pertinente ?

Voir aussi :

Le président de Microsoft Brad Smith annonce un ensemble de principes visant à favoriser l'innovation et la concurrence dans le domaine de l'IA. Pour tenter de dissiper les inquiétudes ?

Sora : OpenAI lance un modèle d'IA qui serait capable de créer une vidéo avec des scènes réalistes et imaginatives à partir d'instructions textuelles, mais la durée est limitée à 60 secondes

Stability.ai présente Stable Video 3D, un outil d'IA générative pour le rendu de vidéos en 3D, qui permet aux utilisateurs de générer une courte vidéo à partir d'une image ou d'un texte

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

VASA-1, la nouvelle IA de Microsoft, peut créer un deepfake juste à partir d'une photo et d'une piste audio, et peut faire dire n'importe quoi à n'importe qui, mais n'est pas disponible, car trop dangereux

Identifiant
Mot de passe

Mot de passe oublié ?