
Una guía práctica sobre Wan 2.2 en Promptus con ComfyUI, que incluye entradas de texto, imágenes y vídeo, hojas de referencia de parámetros, consejos de incorporación y preguntas frecuentes prácticas para ayudarte a crear vídeos profesionales de IA con mayor rapidez.
Los CosyFlows son flujos de trabajo seleccionados de ComfyUI que ocultan las tuberías pero mantienen el control creativo. Bajo el capó, Wan 2.2 es un sistema de difusión de vídeo latente: (1) comprime los fotogramas en un espacio latente, (2) elimina el ruido a lo largo del tiempo con una U-Net espacio-temporal guiada por las instrucciones o los fotogramas, luego (3) los decodifica en vídeo y, opcionalmente, los posprocesa (degradación, ligera nitidez, ritmo de fotogramas).
Dos flujos listos para ejecutarse:
- (cosy) Generación de vídeo Wan 2.2 5B — iteración rápida, con todo lujo de detalles en 720p (y borrador de 1080p). Utilízalo para crear ideas, redes sociales, vídeos y fragmentos de marketing.
- (acogedor) Primer-Último fotograma para vídeo de Wan 2.2 14B — máxima fidelidad a 1080p, optimizado para controlado por fotogramas clave narración (transiciones suaves entre dos marcos diseñados).
Promptus aloja el procesamiento, por lo que no instalas nodos ni modelos; te concentras en las indicaciones, las referencias y algunos botones de alto impacto.
Tres modos creativos
1. Texto → Vídeo
5B, ideación rápida; 14B mediante instrucciones de fotogramas clave si proporciona fotogramas
Entrada: Un mensaje descriptivo (si lo desea, un mensaje negativo).
Mecánica: El modelo sintetiza una escena temporalmente consistente. Tus palabras guían contenido, cámara, estado animico, y movimiento.
Controles clave para marcar:
- Duración (s): Más corto = movimiento más nítido y menos artefactos (por ejemplo, de 3 a 6 segundos).
- FPS: 24—30 para un movimiento natural; más alto = más suave pero más caro.
- CFG//Orientación: Más alto = quédate más cerca del aviso; demasiado alto puede sobresaturar o «bloquear» detalles extraños. Comience ~5—7.
- Pasos//Muestreador: Más pasos = más detalles/coherencia (rendimientos decrecientes más allá de un punto).
- Semilla: Bloquéalo para hacer variaciones comparables; cámbialo para explorar.
Fórmula rápida (funciona muy bien):[Asunto] + [Acción/movimiento] + [Cámara] + [Iluminación] + [Estilo/Medio] + [Era/lente] + [Color/grado] + [Estado de animación/adjetivos] + etiquetas de calidad (por ejemplo, grano de película, gran detalle) + NEGATIVO: [cosas no deseadas]
Ejemplo:
«golden retriever chapoteando en un lago poco profundo, de mano tiro medio, puesta de sol retroiluminada, grado de color cinematográfico, gentil bokeh, grano de película natural, tonos cálidos — NEGATIVO: superposiciones de texto, marca de agua, desenfoque por movimiento, caras dobles.
2. Imagen → Vídeo
5 B mejor; 14 B si tratas la imagen fija como un «primer fotograma»
Entrada: Una imagen de referencia (estilo/tema).
Mecánica: La imagen ancla la estructura y el estilo; la difusión inventa un movimiento plausible a su alrededor.
Controles clave para marcar:
- Fuerza de inicialización/resistencia al ruido (a menudo llamada «fuerza»):
- Inferior (~0,3—0,45) = conserva más de tu imagen (paralaje suave, respiración, pequeños movimientos de cámara).
- Más alto (~0,5—0,65) = permitir nuevo contenido o movimiento; corre el riesgo de perder el estilo.
- Ajustes preestablecidos de movimiento (si está disponible) o verbos sencillos: «muñeca lenta», «brisa sutil», «movimiento de cámara ligera».
- Duración/FPS como en el caso anterior.
Consejo: Añadir un descripción del movimiento («El viento suave mueve la hierba; la plataforma de la cámara deja un 10%»), por lo que la modelo añade una dinámica creíble en lugar de alucinar con acciones de gran envergadura.
3. Vídeo → Vídeo
5 GB para velocidad; 14 B para pulir mejor con dos fotogramas clave o fragmentos cortos
Entrada: Un clip original (acción real, renderizado en 3D o un borrador plano).
Mecánica: El modelo estiliza o modifica la entrada mientras se conserva el movimiento del núcleo.
Controles clave para marcar:
- Fuerza de ruido:
- 0,35—0,5 = mantener la estructura/el movimiento, añadir estilo (lo mejor para la coherencia de la marca).
- 0,5—0,65 = permitir rediseños más grandes (cuesta fidelidad al original).
- Mensaje de estilo: Sea explícito acerca de mediano (animación celular, pintura al óleo, fotorrealista), grado, lente, era.
- Mensaje negativo: «sin texto, sin logotipos adicionales, sin grandes desenfoques, sin fluctuaciones».
- Coincidencia de velocidad de fotogramas: Hacer coincidir los fps de origen reduce la fluctuación.
Movimiento profesional: Alimentar a un limpio, contrastado fuente con exposición constante. Basura que entra = parpadea hacia afuera.
14B Primer-Último fotograma
Este flujo brilla cuando sube dos fotogramas dirigidos por arte (primero y último) y describa el transición:
- Marcos: 1920×1080 PNG/JPG con calificación consistente (balance de blancos, contraste).
- Mensaje de transición: Describa qué cambia con el tiempo (iluminación, clima, pose, trayectoria de la cámara).
- Velocidad de fotogramas: 24 fps es una excelente base para el ritmo cinematográfico.
- Duración: Las secuencias de 3 a 8 segundos tienden a parecer más «premium» y coherentes.
Resumen de ejemplo:
Primer fotograma: «Bosque al amanecer» → Último fotograma: «El mismo bosque al anochecer»
Mensaje: «El sol sale y luego se calienta hasta la hora dorada; grúa lentamente, las hojas crujen ligeramente; cinematográfico»
Hoja de referencia sobre parámetros de alto impacto
- Aviso/Mensaje negativo → dirección semántica y barandillas.
- Semilla → repetibilidad; bloqueo para comparar ajustes de manzana a manzana.
- CFG (Escala orientativa) → adhesión rápida frente a libertad (comience de 5 a 7).
- Pasos → detalles/coherencia (comience a la mitad; suba si los fotogramas son blandos).
- Fuerza (inicialización/ruido) → cuánto hay que desviarse de la imagen/vídeo de entrada.
- Duración y FPS → fotogramas totales; afecta a la suavidad del movimiento y al riesgo de artefactos.
- Resolución → 720p para los borradores; 1080p para las finales (especialmente 14B).
- Sugerencias de movimiento/cámara → muñeca, panorámica, inclinación, zoom, paralaje: los números pequeños parecen reales.
Recetas probadas
- Redacta rápido, termina de forma premium:
5B @ 720p (clips cortos) → iterar indicaciones → bloquear semilla → 14B @ 1080p con una descripción de transición ajustada (si se utilizan fotogramas clave).
- Estilo de marca cohesivo (vídeo→vídeo):
Mantener eliminar ruido ~0.4—0.5, un mensaje de estilo fuerte («aspecto comercial limpio, luz suave en las teclas, fondos neutros»), y negativo («sin logotipos adicionales, sin viñeta»).
- Imagen → Bucle de paralaje de vídeo:
Una imagen fija de un héroe + mensaje «sutil empuje de cámara, poca profundidad de campo, movimiento suave del cabello» —fuerza ~0.4 para preservar la identidad.
Solución de problemas
- Flicker/ «natación de texturas»: Reduzca la duración; aumente ligeramente los pasos; añada «texturas estables, sin parpadeo» al negativo; reduzca la fuerza.
- Las caras y las manos se mueven: Apriete el mensaje («un solo sujeto, geometría de cara limpia»), reduzca la fuerza, suba los escalones; pruebe con una nueva semilla.
- Movimiento demasiado salvaje: Reduce la intensidad; añade verbos explícitos de cámara o acción «lentos»; reduce los FPS o la duración.
- Marcos borrosos: Aumente un poco los pasos, pruebe con otro muestreador y asegúrese de obtener 1080p en 14B para las finales.
- Estallidos de color/exposición (primero-último): Haga coincidir la gradación entre los fotogramas clave; describa la evolución de la iluminación con claridad.
Lista de verificación de inicio rápido
- Flujo de selección: 5 B para los borradores y 14 B para las finales con encuadres clave.
- Escribe el mensaje: sujeto + acción + cámara + iluminación + estilo + negativo.
- Establezca los conceptos básicos: 720p/1080p, duración, fps, pasos ~medios, CFG ~5—7, velocidad de bloqueo.
- (¿Entradas de imagen/vídeo?) Set fuerza ~0.4—0.55 dependiendo de la cantidad de cambio que desees.
- Generar → Revisar: Si está fuera de estilo, reduzca la fuerza o añada más palabras de estilo; si no es correcto, aumente ligeramente el CFG.
- Finalizar: Vuelva a ejecutar la mejor toma a 1080p (14B) con calificaciones coincidentes y una descripción explícita de la transición.
Cuándo elegir cuál
- 5B Texto→Vídeo: Ideación, recortes sociales, indicaciones A/B rápidas, guiones gráficos.
- Imagen 5B → Vídeo: Paralaje fotográfico, «imágenes fijas vivas», logotipos/paquetes con movimientos suaves.
- Vídeo 5B → Vídeo: Estilización uniforme de imágenes grabadas o reproducciones generadas por ordenador.
- 14B Primero—Último: Transiciones de héroes, secuencias reveladoras de marcas, microhistorias cinematográficas.
%20(2).avif)
%20transparent.avif)


