Donnez vie à de multiples voix d'IA grâce à MultiTalk + WAN 2.1

Wan 2.1 Lip Sync dans Promptus ComfyUI vient de bénéficier d'une mise à niveau massive !

Dans cette vidéo, nous explorons la dernière évolution des avatars parlants pilotés par l'IA : Modèle MultiTalk Lipsync désormais totalement intégré au Framework vidéo WAN 2.1, proposant des conversations basées sur l'IA à plusieurs personnages d'un naturel impressionnant.

🚀 Quoi de neuf ?

Prise en charge de plusieurs fichiers audio pour un maximum quatre voix d'IA uniques en une seule vidéo.
Un flux de travail élégant combinant :
- Ollama (ou autres LLMs) pour structurer des scripts conversationnels.
- Boîte de dialogue Chatterbox TTS, y compris clonage vocal des démos avec des échantillons courts et longs.
- Wrapper vidéo WAN mis à jour pour une synchronisation vidéo labiale et une animation faciale correctes.
- Segmentez n'importe quoi + Préparez des groupes de masques/images pour isoler les caractères pour un contrôle visuel précis.
- Diarisation des conférenciers pour identifier quel personnage IA parle et à quel moment.

Ce pipeline fonctionne parfaitement GPU en local ou sur le cloud, permettant aux créateurs de créer leurs propres podcasts, interviews et histoires multi-personnages hébergés par l'IA, directement depuis ComfyUI.

🔍 Tests et performances dans le monde réel

Nous ne faisons pas que des démonstrations, nous testons. Vous verrez une démo de 3 minutes utilisant deux voix, clairement divisée en pistes audio distinctes. À l'aide du framework WAN 2.1, la vidéo s'affiche 1 500 cadres en morceaux (~81 images chacun), en prenant environ 19 minutes. Vous observerez la fluidité de l'animation, les détails réalistes de l'arrière-plan et les zones qui doivent encore être peaufinées, comme le scintillement occasionnel de la bouche ou les mouvements du corps lorsqu'un avatar parle.

🎯 Là où il brille (et où il fait encore mauvais)

✅ Avantages :

Flux conversationnel engageant, de type podcast
Séparation nette des voix → synchronisation labiale plus nette
Présence d'une scène d'arrière-plan
Fonctionne hors ligne avec Quantification GGUF soutenir

⚠️ Inconvénients :

Parfois, les deux avatars bougent pendant une seule voix
La synchronisation faciale n'est pas toujours parfaite
Le système n'attribue pas toujours correctement le masque à l'audio

Un point à retenir clair ? Des améliorations futures sont nécessaires, telles que l'attribution explicite du masque au son dans les configurations à plusieurs caractères, comme l'approche de Cling AI ou Runway.

🛒 Intéressé ? Essayez Promptus avec une licence à vie unique

Ce pipeline complet est intégré au Plateforme Promptus, qui propose de puissants outils basés sur ComfyUI pour la génération d'images, de vidéos et de sons par IA. Mieux encore, il y a option d'achat unique (licence à vie de 49$) sans frais mensuels. Ce paiement unique accorde :

Accès hors ligne complet au WAN 2.1 et à tous les Cosyflows
10 000 crédits bonus
Interface utilisateur confortable
Mises à jour et support à vie

Il existe également des niveaux d'abonnement facultatifs pour les créateurs qui ont besoin d'un accès continu au Cloud/au GPU : http://promptus.ai/pricing

🔧 Qui devrait regarder ça ?

Développeurs d'IA création d'avatars à plusieurs personnages
Créateurs de contenu explorer des podcasts ou des interviews hébergés par l'IA
Technologues maîtrise des modèles Ollama, TTS, de segmentation et de synchronisation labiale

Ce didacticiel n'est pas qu'une simple présentation, c'est un aperçu réaliste des forces et des faiblesses du pipeline, vous donnant les outils nécessaires pour décider si cela convient à votre prochain projet.

🔗 Ressources et liens

Wrapper vidéo WAN 2.1 (GitHub)
ComfyUI — Isolation des haut-parleurs
Fourche ComfyUI_Fill‑Chatterbox
Modèle MultiTalk sur Hugging Face
Obtenez la licence à vie Promptus — 49$ en une seule fois avec 10 000 crédits inclus !

Plongez dedans, expérimentez et dites-nous comment ça se passe !

Most recent wikis

Creator: Eden

ComfyUI

Donnez vie à de multiples voix d'IA grâce à MultiTalk + WAN 2.1

Wan 2.1 Lip Sync dans Promptus ComfyUI vient de bénéficier d'une mise à niveau massive !

🚀 Quoi de neuf ?

🔍 Tests et performances dans le monde réel

🎯 Là où il brille (et où il fait encore mauvais)

🛒 Intéressé ? Essayez Promptus avec une licence à vie unique

🔧 Qui devrait regarder ça ?

Most recent wikis

Donnez vie à de multiples voix d'IA grâce à MultiTalk + WAN 2.1

200 mots, 1 tache bleue et tout ce que j'ai appris sur l'incitation Veo 3

Cherry Coted : le générateur d'images IA préféré de la génération Z

Rejoignez notre newsletter pour créateurs.

Outils gratuits

Outils d'IA

Entreprise & Aide