AI短片爆火解密：资产图+脚本，一人十天打造千万播放的万能公式

June 18, 2026

你可能在社交平台上刷到过《丧尸清道夫》《万物生》《零号档案》这类AI短片。它们的走红路径惊人地相似：国内首发，海外爆火，再被国内舆论推上流量的风口。

在这些案例中，《丧尸清道夫》尤其让人震撼。被X平台大V「PJ Ace」转发后，播放量直线飙升至1300万。而更令人触动的，是创作者Mx-Shell透露的真实情况：

“创作过程中没有分镜图，也没有首尾帧，只用了资产图+脚本，分镜控制纯依赖手搓的脚本文案。整部片子由一个人独立完成，Token成本大概3000元，前后花了10天。”

这句话坦率到近乎透明，也直接点破了AI视频的核心本质：资产图+脚本。资产图负责解决主体一致性，脚本文案负责驱动剧情节奏。

道理听起来简单，但这恰恰是大多数人难以跨越的一道坎——工具已经足够强大，卡点在于不知道给工具“投喂”什么。

为了让“资产图+脚本”这一核心链条真正跑通，一款名为 lengyi-shotlist 的开源工具已经发布在GitHub上，正在被越来越多的创作者采用。

它的功能非常直接：你任意输入文本——可以是一段小说节选、一句剧情描述，甚至几个关键词——它就会自动完成两件事：

拆解或扩写出分镜脚本提示词，逻辑严密且总字数严格控制在3000字以内，杜绝粘贴时超出工具限制。
自动生成资产图提示词，针对人物、物件、道具、场景等关键元素，一次性输出可直接用于文生图的指令。

也就是说，从“一段文字”到“立刻就能投喂给生图/生视频工具的全套提示词”，这个工具一站式完成。

使用者唯一要做的，就是把生成的内容粘贴到相应的创作软件里。

将该工具与Vidu近期上线的「多宫格创作」功能搭配使用，实际生成的多支短视频效果远超预期。

「多宫格创作」的操作逻辑清晰得令人感到舒适：

上传主体参考图（角色、道具、场景，推荐使用三视图来确保主体一致）
粘贴分镜脚本提示词
设置宫格数量、时长、清晰度和画幅

仅需这三步，就能得到一支叙事结构完整、镜头语言到位、主体前后统一的视频。一致性、分镜设计、工作流，全部被这条流水线包揽，只剩下创意、结构和审美归创作者自己掌控。

实战案例

下面通过五个不同的案例，详细拆解如何将lengyi-shotlist与Vidu配合使用。

1. 重现《三体》名场面

这是最值得付诸影像的一段文字。刘慈欣用寥寥数百字，写出了一段充满诗意的相遇：庄颜站在客厅门口，穿一件淡蓝色风衣，围白色围巾，头发披散，那双让人心碎的眼睛与画像一模一样。她的美不依赖任何动作，纯粹由氛围成就。

将这段原著段落直接喂给lengyi-shotlist。

工具即刻给出分镜总览——多少个镜头、每秒节奏、整体风格与场景设定，随后生成主体档案，并分别输出庄颜和罗辑的人物图提示词。

建议将该工具与DeepSeek V4 Pro或Claude 4.6 sonnet/Opus 4.8/GPT-5.5等模型搭配，效果会进一步提升。

然后，工具输出严格控制在3000字以内的分镜脚本提示词。

主体提示词拿到任意生图工具中生成即可。这里生成了三版庄颜，选择最贴近原著气质的一版。

接下来，手握主体参考图和视频脚本提示词，登录vidu.cn找到「多宫格创作」入口。

界面很直观：上方上传主体，中间粘贴分镜提示词，下方调整分镜、时长、清晰度和画幅。

主体支持图片（三视图）、视频和文本。为保证一致性，首选上传图片。

庄颜和罗辑的人物图已上传完毕，随后粘贴分镜提示词，选择12宫格、14秒时长。

Vidu会按12宫格一次性生成全部片段。

最终成片如下，这恰是许多人脑海中庄颜的样子。

按同样流程，得到了第二个场景的视频。

罗辑特别注意到这里一幅风景画都没有，这是很成熟的审美情调：这幢房子就坐落在绝美的伊甸园中，风景画挂在这里就像在大海中加一桶水那样多余。……罗辑陶醉在这如梦如幻的意境中，任时间静静地流逝。不知过了多久，庄颜才想起罗辑的存在，回头对他笑了一下，罗辑的心随之一动，他感到这笑容仿佛是从画中的奥林匹斯山投向尘世的一束光芒。

2. 重绎《水浒传》武松打虎

把经典名著用AI影像化，是萦绕心头的想法。武松打虎恰好是最合适的起手篇章：视觉张力强，打斗节奏分明，场景单一可控。

将《水浒传》原文分段输入给lengyi-shotlist，主体提示词和分镜提示词一并产出。

把这些内容直接送入Vidu，自行剪辑合成之后，一支完整的短片就诞生了。

B站上有不少博主持续在用AI翻拍《西游记》，流量表现相当稳定。本质上，他们遵循着同一套模式：将原著拆解为15秒以内的故事单元，设计资产图和分镜文案，批量生成，再剪辑串联。技术上并无玄机，真正的门槛在于谁愿意花时间琢磨细节。

3. 为「冷同学的水」拍摄广告片

除了改编已有文本，这个工具同样擅长无中生有地扩写剧情。手边正好有一瓶“冷同学”矿泉水，直接让它写一支完整的TVC广告分镜。

工具快速补写出起承转合的完整微叙事，场景设定、情绪弧线、产品植入时机以及广告语，全部一气呵成。

最终生成的广告片，高级感出乎意料地饱满。

唯一的小缺憾是画面中的细小文字偶尔出现虚化模糊。但这只是时间问题，下一版模型大概率会彻底解决。

4. 拍摄好莱坞大片

如果让西部片与西游元素相遇，会碰撞出什么？输入几个关键词，工具快速返回了一版视觉冲击力极强的分镜脚本，两种风格的融合丝滑到出人意料。

进入Vidu生成后，这段视频值得反复回看。

成片的特效表现堪称炸裂。

5. 拍摄武侠片

最后尝试让工具生成一段展昭夜行的武侠戏。武打动作一直是AI视频的重灾区，以往生成的结果常常是一团乱麻。而这次Vidu的呈现，运镜已经初见章法，出手、格挡、身法的流畅度远超预期。

AI视频的动态控制能力，正以一种肉眼可见的速度进化。

小结

整体体验下来，Vidu「多宫格创作」所展现的能力远远高于预期。将其与lengyi-shotlist搭配，一条完整的AI短片工作流几乎可以毫无阻碍地跑通：

文字输入 → 分镜脚本 + 资产图提示词 → 主体参考图生成 → 多宫格视频生成 → 剪辑合成

从灵感到成片，门槛已经降到接近于零。但工具愈发强大的同时，真正的问题也随之浮出水面：当所有人站在同一套高效工具面前，创作真正的壁垒究竟在哪里？这个答案或许不再需要苦思冥想，因为技术已经把门推开，而走进去，靠的依然是你脑子里那个值得被影像化的故事。