做 AI 视频,最烦的不是没有模型。而是每做一个需求,就要换一套流程。
流程一多,真正拖慢效率的不是生成速度,而是你每次都要重新找入口、重新接节点、重新调参数。
这次 LTX 2.3 3.5 套件,我直接把常用视频任务整理成了 10 套流程。
一句话:
不是单个工作流更新,而是一整套 LTX 2.3 视频生产线。
一、3.5版本到底改了什么?
这次从 3.0 / 3.1 迭代到 3.5,表面上看只是 0.5 版本更新。
但真正关键的变化,是 LoRA 调权策略变了。
以前很多流程里,LoRA 往往是 1 到 3 阶用同一套权重。
这其实不够合理。
因为一阶、二阶、三阶的任务不一样。
一阶更像打底,负责先把动作、构图、主体关系跑出来。
二阶负责明显提升画面与细节。
三阶则更偏最终质感、清晰度和稳定补强。
所以 3.5 的核心思路是:
不同阶段,用不同 LoRA 权重。
不再一套权重从头压到尾。
这对三阶渲染非常重要。
因为你不能把低分辨率阶段的参数逻辑,原封不动搬到最终高清阶段。
阶段不同,力道就应该不同。
二、为什么所有流程都强调三阶渲染?
因为二阶渲染已经接近官方默认思路。
如果只是做二阶,那意义不够大。
这次套件里,大部分流程都编入了三阶渲染。
目标很明确:
先保证能动。
再提升细节。
最后拉到更高质感。
这对 LTX 2.3 很关键。
因为 LTX 2.3 本身生成速度和视频可控性不错,但如果只停在基础分辨率,成片质感还不够强。
三阶渲染就是为了解决这个问题。
尤其是文生视频、图生视频、数字人、多图参考、导演节点、视频控制这类流程,三阶会明显提高最终可用性。
简单说:
一阶看方向。
二阶看画面。
三阶看成片。
三、10套流程分别解决什么?
这次一共有 10 套流程。
前 9 套主要基于 LTX 2.3。
最后的字幕水印去除,用的是 Bernini。
原因很直接:Bernini 去字幕水印效果太好。
不需要为了统一底模而硬用 LTX。
工具是为结果服务的。
这 10 套流程分别覆盖:
文生视频。
图生视频。
单人数字人。
MSR多图参考视频。
分镜导演节点。
六宫格故事板。
视频扩图。
视频控制。
视频重新对口型。
字幕水印去除。
基本上,LTX 2.3 常见的视频生产需求,这套都覆盖到了。
四、文生视频和图生视频是基础入口
第一套是文生视频。
快速启动就是设置视频宽高、帧率、帧数,再写总提示词、分提示词和反向提示词。
这里继续使用 KJ Smart 节点 来处理分段提示词。
它适合从 0 开始生成一段视频。
第二套是图生视频。
它和文生视频相比,只多了一个首帧图像输入。
加载一张首帧图,设置尺寸、帧率、帧数,再写总提示词、分提示词和反向提示词。
这套适合把一张图拉成视频。
如果你已经有角色图、封面图、场景图,图生视频就是最直接的入口。
这两个流程是整个套件的地基。
一个从文字开拍。
一个从图片开拍。
五、单人数字人重点是音频驱动
第三套是单人数字人。
相比图生视频,它多了一个音频输入。
音频负责驱动角色运动和说话。
你可以设置从音频第几秒开始截取,再设置截取多长时间。
比如从第 20 秒开始,截取 15 秒。
帧数会根据音频时长自动计算。
这个流程适合做:
口播数字人。
角色说话。
音频驱动视频。
短剧情对白。
这次 3.5 里,LoRA 分阶段调权对数字人也很重要。
因为之前版本里,某些 LoRA 组合可能对音频表现造成破坏。
这次通过调权,能明显缓解这类问题。
数字人最怕的就是画面好,但嘴型、动作、音频关系不舒服。
所以 3.5 的调权重点,不只是让画面更漂亮,而是让整体链路更稳。
六、MSR多图参考更适合做故事
第四套是 MSR 多图参考视频。
这个流程可以加载 5 张图。
前 1 到 4 张可以是人物、动物、道具、怪物或其他元素。
第 5 张默认作为背景。
它适合做多元素故事视频。
比如一个男主、一个女主、一只猫、一个怪物,再加一个古村背景。
这类任务普通图生视频很难处理。
因为模型很容易把元素混在一起。
MSR 的价值就在于:
让多张参考图形成可检索的视觉记忆。
这次我没有继续混入 Prompt Relay。
因为测试下来,Prompt Relay 和 MSR 混合在一起表现并不优秀。
所以这个流程只保留单一正向提示词输入框。
更干净。
更直接。
融合效果也比上一版更连贯。
唯一需要注意的是,开头可能出现一些废帧。
这类废帧不必硬修,直接裁掉即可。
让剧情从 1/3 处开始,往往更干净。
七、导演节点和故事板更适合分镜生产
第五套是分镜导演节点。
它的逻辑是:一个图像对应一个提示词。
你可以在中间插入文本,也可以插入图像继续引导。
如果插入图像,也要给它对应提示词。
这个流程适合更复杂的短片控制。
如果你熟练使用导演节点,它其实可以顶替好几个单独流程。
但考虑到很多用户只想用单一流程,所以套件里仍然把它单独列出来。
第六套是六宫格故事板。
它和导演节点很像,只是输入形式更适合六宫格用户。
如果你已经用六宫格生成了故事板,就不需要再拆成 6 张图。
直接加载六宫格图像,就能进入流程。
这套的价值是:
尊重已有工作习惯。
不用为了工作流,反过来改变自己的素材生产方式。
八、视频扩图和视频控制是实用工具流
第七套是视频扩图。
它是二阶渲染流程。
没必要强行做三阶。
因为它本身二阶已经足够强。
它可以把 9:16 扩成 16:9。
适合竖屏转横屏、画面补边、视频重新构图。
快速启动就是加载视频,设置帧率、处理时长和目标比例。
提示词可以写得很简单。
这类任务的重点不是大段提示词,而是模型对画面延展的理解。
第八套是视频控制流程。
这里主要用到 IC-LoRA 运动控制模型,也可以结合 CN 类控制思路。
我这里只单列了骨骼引导,但视频控制不只能做美女跳舞。
它也可以做深度图引导、结构控制、动作迁移等任务。
这套流程也做成了三阶渲染。
目标是让控制视频最终获得更高清的结果。
有些结果尺寸已经能超过 2000 像素级别。
九、对口型和去字幕水印是收尾利器
第九套是视频重新对口型。
它可以让视频人物围绕输入提示词重新说话。
视频长度以秒为单位,帧率默认 24fps。
你可以设置视频截取开始和结束位置,再通过提示词列出人物要说的话。
这套流程相比上一代没有特别大变化。
但它依然是视频二创、角色改口、口播修改里非常重要的一环。
第十套是字幕水印去除。
这套没有强行使用 LTX。
而是使用 Bernini。
原因很简单:
Bernini 去字幕水印效果更好。
加载要处理的视频,设置帧数和帧率,渲染完成后得到结果。
因为 Bernini 基于 Wan 系,速度会偏慢。
如果只是去字幕水印这种相对单一的任务,可以尝试把步数调到 4 和 2 来加快生成。
对于这类简单任务,4 和 2 通常已经够用。
十、最终结论
这次 LTX 2.3 3.5 套件,真正重要的不是单个流程变强。
而是它把 LTX 2.3 常用的视频任务整理成了一套完整生产线。
文生视频负责从文字开拍。
图生视频负责首帧转视频。
数字人负责音频驱动。
MSR负责多图参考讲故事。
导演节点负责复杂分镜。
故事板负责六宫格用户。
视频扩图负责比例重构。
视频控制负责动作和结构引导。
对口型负责人物重说话。
Bernini负责字幕水印清理。
而 3.5 最大的技术变化,就是:
三阶渲染不再一套LoRA权重用到底。
每一阶段都有自己的LoRA调权策略。
一句话总结:
LTX 2.3 3.5不是单个工作流,而是一套视频生产工具箱。
如果你只想快速用,新用户直接看快速启动。
如果你想研究流程,老用户拿到工程文件,就能看出每一次调权、删减和增强的逻辑。
这套东西的价值不只是“能跑”。
而是把 LTX 2.3 的视频能力,整理成了更接近生产线的形态。
【? 限时福利1】 优云智算新用户注册即送 5小时4090算力!
https://passport.compshare.cn/register?referral_code=A7fTQUYY9lCDFJwA6MMvoq
支持一键部署AI镜像,按需租赁,深度学习 / 科学计算更省成本。
?镜像直达链接:https://www.notion.so/2b72459a3ac6808f8282f2c687ed8f52
【? 限时福利2】 RunningHub邀请码输入【rh-v1111】,即可领取1000RH币,每天登录还送100币!
? 中国大陆入口:
https://www.runninghub.cn/user-center/1892566146468511746?inviteCode=rh-v1111
? 非中国大陆入口:
https://www.runninghub.ai/user-center/1892566146468511746?inviteCode=rh-v1111
? 领完关注AIKSK,获取更多高质量工作流与新内容 ! !
?更多平台内容
公众号:AIKSK
抖音:https://v.douyin.com/i2PVpstR/
哔哩哔哩:https://space.bilibili.com/110353151
小红书:https://www.xiaohongshu.com/user/profile/6293ed680000000021022650
YouTube:https://www.youtube.com/channel/UC-DkD5jRo7n8fSI00Q72MQQ
