wan 2.2
Creator: Duni
Wan

Wan 2.2 en Promptus con ComfyUI

Promptus
10 minutos
Wiki 190
promptus ai video generator

Una guía práctica sobre Wan 2.2 en Promptus con ComfyUI, que incluye entradas de texto, imágenes y vídeo, hojas de referencia de parámetros, consejos de incorporación y preguntas frecuentes prácticas para ayudarte a crear vídeos profesionales de IA con mayor rapidez.

Los CosyFlows son flujos de trabajo seleccionados de ComfyUI que ocultan las tuberías pero mantienen el control creativo. Bajo el capó, Wan 2.2 es un sistema de difusión de vídeo latente: (1) comprime los fotogramas en un espacio latente, (2) elimina el ruido a lo largo del tiempo con una U-Net espacio-temporal guiada por las instrucciones o los fotogramas, luego (3) los decodifica en vídeo y, opcionalmente, los posprocesa (degradación, ligera nitidez, ritmo de fotogramas).

Dos flujos listos para ejecutarse:

  • (cosy) Generación de vídeo Wan 2.2 5Biteración rápida, con todo lujo de detalles en 720p (y borrador de 1080p). Utilízalo para crear ideas, redes sociales, vídeos y fragmentos de marketing.
  • (acogedor) Primer-Último fotograma para vídeo de Wan 2.2 14Bmáxima fidelidad a 1080p, optimizado para controlado por fotogramas clave narración (transiciones suaves entre dos marcos diseñados).

Promptus aloja el procesamiento, por lo que no instalas nodos ni modelos; te concentras en las indicaciones, las referencias y algunos botones de alto impacto.

Tres modos creativos

1. Texto → Vídeo

5B, ideación rápida; 14B mediante instrucciones de fotogramas clave si proporciona fotogramas

Entrada: Un mensaje descriptivo (si lo desea, un mensaje negativo).
Mecánica: El modelo sintetiza una escena temporalmente consistente. Tus palabras guían contenido, cámara, estado animico, y movimiento.
Controles clave para marcar:

  • Duración (s): Más corto = movimiento más nítido y menos artefactos (por ejemplo, de 3 a 6 segundos).
  • FPS: 24—30 para un movimiento natural; más alto = más suave pero más caro.
  • CFG//Orientación: Más alto = quédate más cerca del aviso; demasiado alto puede sobresaturar o «bloquear» detalles extraños. Comience ~5—7.
  • Pasos//Muestreador: Más pasos = más detalles/coherencia (rendimientos decrecientes más allá de un punto).
  • Semilla: Bloquéalo para hacer variaciones comparables; cámbialo para explorar.

Fórmula rápida (funciona muy bien):
[Asunto] + [Acción/movimiento] + [Cámara] + [Iluminación] + [Estilo/Medio] + [Era/lente] + [Color/grado] + [Estado de animación/adjetivos] + etiquetas de calidad (por ejemplo, grano de película, gran detalle) + NEGATIVO: [cosas no deseadas]

Ejemplo:
«golden retriever chapoteando en un lago poco profundo, de mano tiro medio, puesta de sol retroiluminada, grado de color cinematográfico, gentil bokeh, grano de película natural, tonos cálidos — NEGATIVO: superposiciones de texto, marca de agua, desenfoque por movimiento, caras dobles.

2. Imagen → Vídeo

5 B mejor; 14 B si tratas la imagen fija como un «primer fotograma»

Entrada: Una imagen de referencia (estilo/tema).
Mecánica: La imagen ancla la estructura y el estilo; la difusión inventa un movimiento plausible a su alrededor.
Controles clave para marcar:

  • Fuerza de inicialización/resistencia al ruido (a menudo llamada «fuerza»):
    • Inferior (~0,3—0,45) = conserva más de tu imagen (paralaje suave, respiración, pequeños movimientos de cámara).
    • Más alto (~0,5—0,65) = permitir nuevo contenido o movimiento; corre el riesgo de perder el estilo.
  • Ajustes preestablecidos de movimiento (si está disponible) o verbos sencillos: «muñeca lenta», «brisa sutil», «movimiento de cámara ligera».
  • Duración/FPS como en el caso anterior.

Consejo: Añadir un descripción del movimiento («El viento suave mueve la hierba; la plataforma de la cámara deja un 10%»), por lo que la modelo añade una dinámica creíble en lugar de alucinar con acciones de gran envergadura.

3. Vídeo → Vídeo

5 GB para velocidad; 14 B para pulir mejor con dos fotogramas clave o fragmentos cortos

Entrada: Un clip original (acción real, renderizado en 3D o un borrador plano).
Mecánica: El modelo estiliza o modifica la entrada mientras se conserva el movimiento del núcleo.
Controles clave para marcar:

  • Fuerza de ruido:
    • 0,35—0,5 = mantener la estructura/el movimiento, añadir estilo (lo mejor para la coherencia de la marca).
    • 0,5—0,65 = permitir rediseños más grandes (cuesta fidelidad al original).
  • Mensaje de estilo: Sea explícito acerca de mediano (animación celular, pintura al óleo, fotorrealista), grado, lente, era.
  • Mensaje negativo: «sin texto, sin logotipos adicionales, sin grandes desenfoques, sin fluctuaciones».
  • Coincidencia de velocidad de fotogramas: Hacer coincidir los fps de origen reduce la fluctuación.

Movimiento profesional: Alimentar a un limpio, contrastado fuente con exposición constante. Basura que entra = parpadea hacia afuera.

14B Primer-Último fotograma

Este flujo brilla cuando sube dos fotogramas dirigidos por arte (primero y último) y describa el transición:

  • Marcos: 1920×1080 PNG/JPG con calificación consistente (balance de blancos, contraste).
  • Mensaje de transición: Describa qué cambia con el tiempo (iluminación, clima, pose, trayectoria de la cámara).
  • Velocidad de fotogramas: 24 fps es una excelente base para el ritmo cinematográfico.
  • Duración: Las secuencias de 3 a 8 segundos tienden a parecer más «premium» y coherentes.

Resumen de ejemplo:
Primer fotograma: «Bosque al amanecer» → Último fotograma: «El mismo bosque al anochecer»
Mensaje: «El sol sale y luego se calienta hasta la hora dorada; grúa lentamente, las hojas crujen ligeramente; cinematográfico»

Hoja de referencia sobre parámetros de alto impacto

  • Aviso/Mensaje negativo → dirección semántica y barandillas.
  • Semilla → repetibilidad; bloqueo para comparar ajustes de manzana a manzana.
  • CFG (Escala orientativa) → adhesión rápida frente a libertad (comience de 5 a 7).
  • Pasos → detalles/coherencia (comience a la mitad; suba si los fotogramas son blandos).
  • Fuerza (inicialización/ruido) → cuánto hay que desviarse de la imagen/vídeo de entrada.
  • Duración y FPS → fotogramas totales; afecta a la suavidad del movimiento y al riesgo de artefactos.
  • Resolución → 720p para los borradores; 1080p para las finales (especialmente 14B).
  • Sugerencias de movimiento/cámara → muñeca, panorámica, inclinación, zoom, paralaje: los números pequeños parecen reales.

Recetas probadas

  • Redacta rápido, termina de forma premium:
    5B @ 720p (clips cortos) → iterar indicaciones → bloquear semilla → 14B @ 1080p con una descripción de transición ajustada (si se utilizan fotogramas clave).
  • Estilo de marca cohesivo (vídeo→vídeo):
    Mantener eliminar ruido ~0.4—0.5, un mensaje de estilo fuerte («aspecto comercial limpio, luz suave en las teclas, fondos neutros»), y negativo («sin logotipos adicionales, sin viñeta»).
  • Imagen → Bucle de paralaje de vídeo:
    Una imagen fija de un héroe + mensaje «sutil empuje de cámara, poca profundidad de campo, movimiento suave del cabello» —fuerza ~0.4 para preservar la identidad.

Solución de problemas

  • Flicker/ «natación de texturas»: Reduzca la duración; aumente ligeramente los pasos; añada «texturas estables, sin parpadeo» al negativo; reduzca la fuerza.
  • Las caras y las manos se mueven: Apriete el mensaje («un solo sujeto, geometría de cara limpia»), reduzca la fuerza, suba los escalones; pruebe con una nueva semilla.
  • Movimiento demasiado salvaje: Reduce la intensidad; añade verbos explícitos de cámara o acción «lentos»; reduce los FPS o la duración.
  • Marcos borrosos: Aumente un poco los pasos, pruebe con otro muestreador y asegúrese de obtener 1080p en 14B para las finales.
  • Estallidos de color/exposición (primero-último): Haga coincidir la gradación entre los fotogramas clave; describa la evolución de la iluminación con claridad.

Lista de verificación de inicio rápido

  1. Flujo de selección: 5 B para los borradores y 14 B para las finales con encuadres clave.
  2. Escribe el mensaje: sujeto + acción + cámara + iluminación + estilo + negativo.
  3. Establezca los conceptos básicos: 720p/1080p, duración, fps, pasos ~medios, CFG ~5—7, velocidad de bloqueo.
  4. (¿Entradas de imagen/vídeo?) Set fuerza ~0.4—0.55 dependiendo de la cantidad de cambio que desees.
  5. Generar → Revisar: Si está fuera de estilo, reduzca la fuerza o añada más palabras de estilo; si no es correcto, aumente ligeramente el CFG.
  6. Finalizar: Vuelva a ejecutar la mejor toma a 1080p (14B) con calificaciones coincidentes y una descripción explícita de la transición.

Cuándo elegir cuál

  • 5B Texto→Vídeo: Ideación, recortes sociales, indicaciones A/B rápidas, guiones gráficos.
  • Imagen 5B → Vídeo: Paralaje fotográfico, «imágenes fijas vivas», logotipos/paquetes con movimientos suaves.
  • Vídeo 5B → Vídeo: Estilización uniforme de imágenes grabadas o reproducciones generadas por ordenador.
  • 14B Primero—Último: Transiciones de héroes, secuencias reveladoras de marcas, microhistorias cinematográficas.

Wan 2.2 in Promptus ComfyUI – FAQ

What is Wan 2.2 in Promptus with ComfyUI?

+

Wan 2.2 is a professional latent video diffusion model offered as CosyFlows in Promptus. It packages curated ComfyUI node graphs into a no-code cloud workflow so creators can generate videos from text, images, or video without installing nodes or model files. Everything runs on cloud GPUs with simple, ComfyUI-like controls.

How do I choose between Wan 2.2 5B and Wan 2.2 14B in Promptus for text-to-video and keyframe animation?

+

Pick 5B for fast drafts and social clips (great for text→video and image→video at 720p; some setups can draft 1080p). Pick 14B for final-quality 1080p and keyframe-driven sequences (first→last frame). A common workflow is: draft on 5B, finalize on 14B.

What are the best prompt strategies for Wan 2.2 text-to-video in Promptus (camera, lighting, style, negative prompts)?

+

Use a structured prompt: Subject + Action + Camera + Lighting + Style/Medium + Lens/Era + Color Grade + Mood; include Negative terms to block artifacts. Example: “coastal lighthouse at blue hour, slow dolly-in, soft fog, cinematic grade, 35mm look — NEGATIVE: text overlay, logos, heavy blur.”

How does image-to-video work with Wan 2.2 in ComfyUI, and what strength/denoise value should I use?

+

Upload a still to anchor composition and style; Wan 2.2 synthesizes motion around it. Start strength ~0.35–0.45 to preserve the image (parallax, subtle push). Increase to ~0.5–0.65 for more creative change. Describe desired motion in the prompt.

How do I run video-to-video style transfer with Wan 2.2 in Promptus without losing motion coherence or brand look?

+

Import a clean source clip, set denoise/strength ~0.4–0.55 to preserve structure, add a precise style prompt (medium, grade, lens), and a negative prompt to avoid artifacts. Match source fps for stability and favor shorter durations for cleaner results.

What settings deliver the cleanest results in Wan 2.2 (duration, FPS, guidance/CFG, steps, seed, 720p vs 1080p)?

+

Aim for 3–8s duration, 24–30 fps, CFG 5–7, and increase steps if frames look soft. Lock the seed when iterating for consistent comparisons. Draft at 720p on 5B; finalize at 1080p on 14B.

How do I use Wan 2.2 14B First–Last Frame to create cinematic 1080p transitions in Promptus?

+

Upload two graded frames (e.g., 1920×1080), describe the transition over time (lighting, weather, camera path), choose ~24 fps and a concise 3–8s duration, then render. Matching color and contrast between frames is essential.

What are common artifacts in Wan 2.2 (flicker, blur, face drift) and how do I fix them in the Promptus workflow panel?

+

For flicker, shorten duration, add “no flicker” to negatives, raise steps, lower strength. For blur, raise steps or try another sampler, and finalize at 1080p on 14B. For face/hand drift, reduce strength, add identity details, test a new seed, and keep shots shorter.

Can I iterate fast at 720p with Wan 2.2 5B and upscale or finalize at 1080p with 14B—what’s the ideal workflow?

+

Yes. Iterate ideas quickly with 5B at 720p (lock seed, refine prompt and strength), then re-run the best take with 14B at 1080p for a cinematic final.

Do I need a local GPU for Wan 2.2 in Promptus, and how does cloud rendering compare to running ComfyUI locally?

+

No local GPU is required. Promptus uses distributed cloud GPUs for immediate runs. Local ComfyUI offers full DIY control but requires VRAM and maintenance; CosyFlows removes that setup while keeping creative control.

How do I keep color and exposure consistent between first and last frames for 14B keyframe animation in Promptus?

+

Grade both frames before upload (same white balance, contrast, or LUT). Describe the lighting evolution in the prompt, and avoid mixing radically different grades unless that change is intentional.

What file formats, aspect ratios, and frame rates does Wan 2.2 in Promptus support for export-ready MP4 videos?

+

Exports are MP4 for easy sharing. Common presets include 1280×720 (16:9) and 1920×1080 (16:9); additional aspect ratios depend on the specific CosyFlow. Typical frame rates are 24–30 fps—match your platform’s recommendations.

Simplemente crea tu próximo video de IA con Promptus
Empieza a usar Promptus ➜