Synchronisation labiale Wan 2.1 et avatar vocal AI
Creator: Eden
ComfyUI

Donnez vie à de multiples voix d'IA grâce à MultiTalk + WAN 2.1

Promptus
12 min
Wiki 174
promptus ai video generator

Wan 2.1 Lip Sync dans Promptus ComfyUI vient de bénéficier d'une mise à niveau massive !

Dans cette vidéo, nous explorons la dernière évolution des avatars parlants pilotés par l'IA : Modèle MultiTalk Lipsync désormais totalement intégré au Framework vidéo WAN 2.1, proposant des conversations basées sur l'IA à plusieurs personnages d'un naturel impressionnant.

🚀 Quoi de neuf ?

  • Prise en charge de plusieurs fichiers audio pour un maximum quatre voix d'IA uniques en une seule vidéo.
  • Un flux de travail élégant combinant :
    • Ollama (ou autres LLMs) pour structurer des scripts conversationnels.
    • Boîte de dialogue Chatterbox TTS, y compris clonage vocal des démos avec des échantillons courts et longs.
    • Wrapper vidéo WAN mis à jour pour une synchronisation vidéo labiale et une animation faciale correctes.
    • Segmentez n'importe quoi + Préparez des groupes de masques/images pour isoler les caractères pour un contrôle visuel précis.
    • Diarisation des conférenciers pour identifier quel personnage IA parle et à quel moment.

Ce pipeline fonctionne parfaitement GPU en local ou sur le cloud, permettant aux créateurs de créer leurs propres podcasts, interviews et histoires multi-personnages hébergés par l'IA, directement depuis ComfyUI.

🔍 Tests et performances dans le monde réel

Nous ne faisons pas que des démonstrations, nous testons. Vous verrez une démo de 3 minutes utilisant deux voix, clairement divisée en pistes audio distinctes. À l'aide du framework WAN 2.1, la vidéo s'affiche 1 500 cadres en morceaux (~81 images chacun), en prenant environ 19 minutes. Vous observerez la fluidité de l'animation, les détails réalistes de l'arrière-plan et les zones qui doivent encore être peaufinées, comme le scintillement occasionnel de la bouche ou les mouvements du corps lorsqu'un avatar parle.

🎯 Là où il brille (et où il fait encore mauvais)

✅ Avantages :

  • Flux conversationnel engageant, de type podcast
  • Séparation nette des voix → synchronisation labiale plus nette
  • Présence d'une scène d'arrière-plan
  • Fonctionne hors ligne avec Quantification GGUF soutenir

⚠️ Inconvénients :

  • Parfois, les deux avatars bougent pendant une seule voix
  • La synchronisation faciale n'est pas toujours parfaite
  • Le système n'attribue pas toujours correctement le masque à l'audio

Un point à retenir clair ? Des améliorations futures sont nécessaires, telles que l'attribution explicite du masque au son dans les configurations à plusieurs caractères, comme l'approche de Cling AI ou Runway.

🛒 Intéressé ? Essayez Promptus avec une licence à vie unique

Ce pipeline complet est intégré au Plateforme Promptus, qui propose de puissants outils basés sur ComfyUI pour la génération d'images, de vidéos et de sons par IA. Mieux encore, il y a option d'achat unique (licence à vie de 49$) sans frais mensuels. Ce paiement unique accorde :

  • Accès hors ligne complet au WAN 2.1 et à tous les Cosyflows
  • 10 000 crédits bonus
  • Interface utilisateur confortable
  • Mises à jour et support à vie

Il existe également des niveaux d'abonnement facultatifs pour les créateurs qui ont besoin d'un accès continu au Cloud/au GPU : http://promptus.ai/pricing

🔧 Qui devrait regarder ça ?

  • Développeurs d'IA création d'avatars à plusieurs personnages
  • Créateurs de contenu explorer des podcasts ou des interviews hébergés par l'IA
  • Technologues maîtrise des modèles Ollama, TTS, de segmentation et de synchronisation labiale

Ce didacticiel n'est pas qu'une simple présentation, c'est un aperçu réaliste des forces et des faiblesses du pipeline, vous donnant les outils nécessaires pour décider si cela convient à votre prochain projet.

🔗 Ressources et liens

Plongez dedans, expérimentez et dites-nous comment ça se passe !

Rejoignez notre newsletter pour créateurs.
Commencez à utiliser Promptus ➜
ai video platform promptus example