
Un guide pratique sur Wan 2.2 dans Promptus avec ComfyUI, qui couvre les entrées de texte, d'image et de vidéo, les aide-mémoire des paramètres, les conseils d'intégration et les FAQ pratiques pour vous aider à créer plus rapidement des vidéos professionnelles basées sur l'IA.
Les CosyFlows sont des flux de travail ComfyUI organisés qui masquent la tuyauterie tout en gardant le contrôle créatif. Sous le capot, Réseau Wan 2.2 est un système de diffusion vidéo latente : il (1) compresse les images dans un espace latent, (2) indique le bruit au fil du temps à l'aide d'un U-Net spatio-temporel guidé par vos invite (s) /images, puis (3) décode en vidéo et éventuellement effectue des post-traitements (débanding, légère netteté, cadence d'images).
Deux flux prêts à fonctionner :
- Génération vidéo Wan 2.2 5G (cosy) — itération rapide, de nombreux détails sur 720p (et brouillon 1080p). À utiliser pour l'idéation, les réseaux sociaux, les bobines, les extraits de marketing.
- (cosy) Wan 2.2 14B de la première à la dernière image de la vidéo — fidélité maximale à 1080p, optimisé pour piloté par images clés narration (transitions douces entre deux cadres conçus).
Promptus héberge le calcul, vous n'installez donc pas de nœuds ou de modèles ; vous vous concentrez sur les invites, les références et quelques boutons à fort impact.
Trois modes de création
1. Texte → Vidéo
5B, idéation rapide ; 14B via des instructions d'images-clés si vous fournissez des images
Entrée : Une invite descriptive (éventuellement une invite négative).
Mécanique : Le modèle synthétise une scène cohérente dans le temps. Vos mots guident contenu, caméra, ambiance, et mouvement.
Commandes principales à composer :
- Durée (s): Plus court = mouvement plus net et moins d'artefacts (par exemple, 3 à 6 secondes).
- FPS: 24 à 30 pour un mouvement naturel ; plus élevé = plus fluide mais plus coûteux.
- CFG/Directives: Plus élevé = restez plus près de l'invite ; une valeur trop élevée peut saturer ou « bloquer » des détails étranges. Démarrez ~5—7.
- Étapes/Échantillonneur: Plus d'étapes = plus de détails/de cohérence (rendements décroissants au-delà d'un certain point).
- Graine: Verrouillez-le pour effectuer des variations comparables ; modifiez-le pour explorer.
Formule rapide (fonctionne très bien) :[Sujet] + [Action/Mouvement] + [Caméra] + [Éclairage] + [Style/Médium] + [Époque/Objectif] + [Couleur/Classe] + [Humeur/Adjectifs] + étiquettes de qualité (par exemple, grain du film, niveau de détail élevé) + NÉGATIF : [éléments indésirables]
Exemple :
« un golden retriever s'éclaboussant dans un lac peu profond, portable tir moyen, coucher de soleil rétroéclairé, niveau de couleur cinématique, doux bokeh, grain de film naturel, tons chauds — NÉGATIF : superpositions de texte, filigrane, flou de mouvement, doubles faces »
2. Image → Vidéo
5B est préférable ; 14B si vous considérez l'image fixe comme une « première image »
Entrée : Une image de référence (style/sujet).
Mécanique : L'image ancre la structure et le style ; la diffusion invente un mouvement plausible autour d'elle.
Commandes principales à composer :
- Intensité de l'unité/Force du bruit (souvent appelée « force ») :
- Inférieur (~0,3 à 0,45) = préservez une plus grande partie de votre image (parallaxe douce, respiration, petits mouvements de caméra).
- Plus élevé (~0,5—0,65) = autoriser un nouveau contenu/de nouveaux mouvements ; risque de déraper.
- Préréglages de mouvement (si disponible) ou de simples verbes rapides : « slow dolly-in », « brise subtile », « léger balancement de la caméra ».
- Durée/FPS comme ci-dessus.
Conseil : Ajoutez un description du mouvement (« le vent doux déplace l'herbe ; le chariot de la caméra est parti à 10 % »). Le modèle ajoute donc une dynamique crédible au lieu d'halluciner de grandes actions.
3. Vidéo → Vidéo
5B pour la rapidité ; 14B pour un polissage haut de gamme via deux images clés ou de courts segments
Entrée : Un clip source (action en direct, rendu 3D ou brouillon brut).
Mécanique : Le modèle stylise ou modifie l'entrée tout en préservant le mouvement du noyau.
Commandes principales à composer :
- Dénote la force:
- 0,35 à 0,5 = conserver la structure/le mouvement, ajouter du style (idéal pour la cohérence de la marque).
- 0,5 à 0,65 = permettre des refontes plus importantes (coûte la fidélité à l'original).
- Style rapide: Soyez explicite à propos de moyen (animation cellulaire, peinture à l'huile, photoréalisme), grade, lentille, ère.
- Prompt négatif: « pas de texte, pas de logos supplémentaires, pas de flou important, pas de tremblement ».
- Correspondance de fréquence d'images: Faire correspondre le nombre d'images par seconde à votre source réduit la gigue.
Coup de pouce professionnel : Nourrissez un propre et contrasté source avec une exposition constante. Les déchets entrent = scintillement.
14B : première et dernière image
Ce flux brille lorsque vous télécharger deux cadres orientés vers l'art (premier et dernier) et décrivez transition:
- Cadres : 1920×1080 PNG/JPG avec note constante (balance des blancs, contraste).
- Rapide de transition : Décrivez ce qui change au fil du temps (éclairage, météo, pose, trajectoire de la caméra).
- Fréquence d'images : 24 images par seconde est une excellente base de référence pour le rythme cinématographique.
- Durée : Les séquences de 3 à 8 secondes ont tendance à paraître plus « premium » et cohérentes.
Exemple de résumé :
Première image : « Forêt à l'aube » → Dernière image : « Même forêt au crépuscule »
Rapide : « le soleil se lève puis atteint l'heure dorée ; montée lente, feuilles bruissent légèrement ; cinématique »
Aide-mémoire sur les paramètres à impact élevé
- Prompte/Invite négative → direction sémantique et garde-corps.
- Graine → répétabilité ; verrouillez pour comparer les réglages d'une pomme à l'autre.
- CFG (échelle de guidage) → adhésion rapide contre liberté (début 5—7).
- Étapes → détail/cohérence (démarrer le milieu ; aller plus haut si les images sont molles).
- Intensité (init/bruit) → de combien s'écarter de l'image/vidéo d'entrée.
- Durée et FPS → nombre total d'images ; affecte la fluidité des mouvements et le risque d'artéfact.
- Résolution → 720p pour les brouillons ; 1080p pour les finales (en particulier 14B).
- Conseils sur les mouvements et la caméra → chariot, panoramique, inclinaison, zoom, parallaxe : les petits chiffres semblent réels.
Des recettes éprouvées
- Rédigez rapidement, terminez en premium :
5B @ 720p (clips courts) → instructions d'itération → vitesse de verrouillage → 14B @ 1080p avec description précise de la transition (si vous utilisez des images clés).
- Style de marque cohérent (vidéo→vidéo) :
Gardez débruiter ~0,4—0,5, une invite de style forte (« look commercial épuré, éclairage doux, arrière-plans neutres »), et négatif (« pas de logos supplémentaires, pas de vignette »).
- Boucle de parallaxe image→vidéo :
Un héros fixe et rapide « un appui subtil de la caméra, faible profondeur de champ, mouvements doux des cheveux » —résistance ~0,4 pour préserver l'identité.
Résolution des problèmes
- Flicker/ « Texture Swim » : Raccourcissez la durée ; augmentez légèrement les étapes ; ajoutez « textures stables, pas de scintillement » à la valeur négative ; réduisez l'intensité.
- Dérive visages/mains : Resserrez rapidement (« un seul sujet, une géométrie de visage propre »), réduisez la résistance, augmentez les marches ; essayez une nouvelle graine.
- Motion trop sauvage : Diminuer l'intensité ; ajouter des verbes « lents » explicites liés à la caméra ou à l'action ; supprimer le nombre d'images par seconde ou la durée.
- Cadres flous : Augmentez légèrement les étapes ; essayez un autre échantillonneur ; assurez-vous de 1080p sur 14B pour les finales.
- Points de couleur/d'exposition (du premier au dernier) : Faites correspondre le classement entre les images clés ; décrivez clairement l'évolution de l'éclairage.
Liste de contrôle de démarrage rapide
- Flux de sélection : 5B pour les draft/14B pour les finales avec des images clés.
- Écrivez l'invite : sujet + action + caméra + éclairage + style + négatif.
- Définissez les principes de base : 720p/1080p, durée, images par seconde, étapes ~ milieu, CFG ~ 5-7, vitesse de verrouillage.
- (Entrées image/vidéo ?) Set résistance ~0,4—0,55 en fonction de l'ampleur du changement que vous souhaitez.
- Générer → Réviser : Si vous êtes hors style, réduisez la force ou ajoutez d'autres mots de style ; si vous ne vous y trouvez pas, augmentez légèrement le CFG.
- Finaliser : Réexécutez la meilleure prise en 1080p (14B) avec les notes correspondantes et une description explicite de la transition.
Quand choisir lequel
- Texte 5B → Vidéo : Idéation, coupures sociales, invites A/B rapides, storyboard.
- Image 5B → Vidéo : Parallaxe photographique, « images fixes vivantes », logos/packshots en mouvement doux.
- Vidéo 5B → Vidéo : Stylisation cohérente des séquences enregistrées ou des diffusions en images de synthèse.
- 14B Premier-Dernier : Transitions entre héros, séquences de révélation de marque, micro-histoires cinématographiques.