中国创作者AI短片提示词开源与直播讲解整理

时间：2026-05-31 18:58

一个云南中专生，用10天做出了“近年来最佳短片” 一个29岁的云南中专生，2026年1月才第一次接触AI视频，4个月后，他做出了一部3分钟的短片。结果呢？好莱坞导演PJ Ace在推特上公开寻找他。这条推文被转发了6700多次。PJ的原话是：“This is one of the best sh

# 一个云南中专生，用10天做出了“近年来最佳短片” 一个29岁的云南中专生，2026年1月才第一次接触AI视频，4个月后，他做出了一部3分钟的短片。结果呢？好莱坞导演PJ Ace在推特上公开寻找他。这条推文被转发了6700多次。PJ的原话是：“This is one of the best short films I’ve seen in years.”——翻译过来就是“近年来最佳短片之一”。这个年轻人叫Mx-Shell，云南玉溪人，摄影是他的副业。他做的那部片子叫《丧尸清道夫》。故事设定其实简单得有点可爱：末日丧尸危机结束后，一只孤独的原子朋克机器人来到一栋滨海别墅，碰上了一只呆头呆脑的鸵鸟。机器人吓得发抖，鸵鸟歪着脖子吐着舌头。然后机器人切换了LED表情，开始跳迈克尔·杰克逊的霹雳舞——顺便踢飞了一颗丧尸的脑袋。整部片子用了10天，一个人完成，中专学历。他第一部AI作品其实是给姐姐家的酒店做的宣传片。 5月12日晚上，他开了一场两个多小时的直播，主动回应了外界关于“垫图”和“3D渲染”的质疑。直播里，他几乎把自己写提示词的整套方法毫无保留地讲了出来，然后说了句：“我无所谓了，你们要学习也可以，要拿去干什么都可以。” 这里不得不提一个细节：有人把他两段直播录屏和公开分享的提示词文档全部整理、归纳、结构化，做成了一个开源仓库——github.com/jnMetaCode/ai-shortfilm-prompts。下面这套方法，就是从那个仓库里提炼出来的精华版。如果你也想做AI视频，但写出来的东西总是五毛特效感，那下面的内容值得认真看完。 ## 为什么大多数人写的AI提示词都不行？先看一段对比。普通人写的提示词：通常就是“一个酷炫的机器人”“电影感很强”“末日氛围”——全是模糊的形容词。而Mx-Shell写的提示词，是“哑光黑色皮质长风衣”“模拟IMAX胶片摄影机搭配Pana vision C系列镜头35mm f4”“60年代复古橙配海盐蓝的电影色调”。关键差别到底在哪？不是词更花哨，而是他把自己脑子里看到的画面，逐字翻译成了AI能理解的指令。AI不知道“酷”是什么，但AI知道“哑光黑色皮质长风衣”；AI不知道“电影感”是什么，但AI知道“IMAX胶片摄影机+Pana vision C系列镜头35mm f4”。 Mx-Shell在直播里说了这样一句话：“把AI当成真人摄影团队。”这句话是整个方法论的核心。也就是说，用对待真人摄影团队的方式给AI下达指令。一个摄影团队需要知道：用什么机器、什么镜头、人物穿什么、站在哪、做什么动作、镜头怎么动、灯怎么打——这些你都得写清楚。 ## Mx-Shell反复使用的“5段式模板” 把他公开过的全部提示词读完，会发现一件令人震惊的事：不管是假面骑士变身、卡莎LOL变身、丧尸清道夫还是合金装备打斗，他用的都是同一套结构——只是替换了里面的变量。这套结构简单来说就是： 1. **核心主题**：3-6个tag，定调子 2. **人物与基础设定**：面部/服装/场景 3. **氛围与画质**：视觉基调/色彩与影调/风格核心 4. **运镜规则**：单镜头或多分镜/角度/呼吸感 5. **分镜（时间轴）**：按秒切片或按镜头切片 **段1·核心主题**——一行风格标签，用“|”分隔。从“画面类型→题材→美学风格”层层递进。比如《丧尸清道夫》的核心主题是“原子朋克|末日丧尸|电影级质感|超写实|杜绝游戏CG感”；假面骑士战损变身则是“写实暗黑特摄|BLACK SUN美学|破碎肉身|战损变身|末日战场”。这一行就像告诉同事：“今天我们拍的是XX类型+XX风格”。3-6个tag，不多不少。 **段2·人物与基础设定**——三行内容：面部/服装/场景。最关键的是细节质感。“哑光黑色皮质”比“黑色皮衣”信息量大三倍。Mx-Shell反复强调一个反直觉的点：要写瑕疵。完美=假，瑕疵=真实。所以他每次都会在描述里加“保留轻微面部瑕疵”“面部伤口、纱布、血渍”“战衣整体远非平整，各处战损痕迹触目惊心”。写瑕疵就是写真实，这是整套方法论里最反直觉但最有效的发现。 **段3·氛围与画质——核心技巧在这一段**。这是Mx-Shell的独家秘诀：模拟真实摄影机+镜头。视觉基调是“变形宽荧幕电影质感”，模拟“IMAX胶片摄影机，搭配Pana vision C系列镜头（焦段35mm，光圈f4）”，色彩与影调是“低饱和灰蓝主调”，还要求“暗部信息压缩，保留细节，边缘添加轻微柔焦与适度的胶片颗粒感”。为什么有效？因为AI训练数据里大量真实电影的画面元数据都和具体摄影机型号绑定。给AI一个“IMAX胶片摄影机”，它就有一个非常具体的视觉风格锚点——比你说“电影感强烈”这种模糊词高维多了。Mx-Shell在直播里直说了：“你以为AI听不懂，其实AI比你更知道那台机器出什么画面。” 他常用的摄影机组合，整理一下是这样的：要史诗感/大场面，用IMAX胶片摄影机+Pana vision C系列镜头（35mm，f4）；要暗调赛博/写实硬核，用索尼威尼斯电影机+佳能K-35系列镜头；要港片/武侠，用柯达35mm复古胶片，跳过漂白胶片质感；要商业人像，用Canon EF 85mm f/1.2。这一段你抄下来直接用，立刻看到效果。 **段4·运镜规则**——三行：单镜头/角度/呼吸感。注意最后一行——“呼吸感”。这一句几乎在Mx-Shell每个视频提示词里都出现。为什么？因为AI默认输出的镜头是绝对静止的CG感。加上“呼吸般的浮动”，画面立刻像真人手持摄影机拍的。这是“一句话改变质感”的写法。 **段5·分镜（时间轴）**——最关键也最容易被忽略的部分。有两种写法。写法A是按秒切片，适合单镜头一镜到底（比如变身、武器充能）。例如：0-3秒凝视动作，主角略微低头，目光锁定腰带，镜头极缓向前推进，整颗眼球骤然亮起白金色光芒；3-6秒启动声音，低语“HENSHIN”，动作是手掌用力按压腰带核心，金属机械装置被暴力唤醒，镜头伴随低频嗡鸣产生应激性的0.1秒微颤。关键：每段都有“动作+镜头+特效”三件套，可选加“声音、面部”。写法B是按镜头切片，适合多镜头叙事（比如《丧尸清道夫》）。每个分镜四件套：景别/构图/运镜手法/画面内容。光说“骨架通用”没用，看证据。Mx-Shell早期火过的“战损变身”系列，共5个变体——从假面骑士的暗黑美学到女武神的紫色玻璃质感，全部使用同一套5段式骨架，只在4-5个变量上做替换。主色、水晶、触发词、头盔造型、时长——只改这几个变量，能产出5个截然不同的变身视频。这才是这套方法论真正的价值：你学会一套结构，可以做出无限多的作品。 ## 《丧尸清道夫》是怎么用这套方法做出来的？直接看原文节选。你会发现一个细节：反差对比是这部短片情绪的核心。度假别墅对丧尸尸体，机器人呆萌对末日废墟，跳MJ舞对战斗后死寂——3个反差叠加在3分钟里，观众无法不被冲击。这是好故事的写法，不是AI的功劳。然后他用7个分镜讲完了“机器人与鸵鸟相遇”这一段：机器人跳着舞进入，听到声音吓到（绿色微笑变成黄色害怕）；空镜对准吧台，画外传来悉簌簌声响（铺垫）；特写机器人发抖防御姿态；过肩长焦，鸵鸟从画面下方探头，机器人被吓；全景对称构图，机器人慢慢站直；长焦特写鸵鸟歪头吐舌；长焦特写机器人侧45度，表情从害怕切换为思考（黄变白）。每个镜头都明确：景别+构图+运镜手法+画面内容。观众看完会觉得“这导演真懂镜头”——实际上Mx-Shell在直播里说：“我全是感觉，没有体系化学习。做这个之前没看过任何电影理论。” ## 几个能让AI视频立刻变好的“小技巧” 整理自他两段直播Q&A，按实战频率排序。 **第一，不要给AI参考图（除非画质够高）。** 垫图最大的副作用是AI容易复现参考图的画风（包括CG感、动漫感），而不是参考它的设计。唯一的例外是参考图本身就是3D渲染、写实大片质感、或自己用GPT Image生成的高质量图。 **第二，摄影机型号是质感的最大锚点。** 写“电影感”没用，写“模拟IMAX胶片摄影机+Pana vision C系列镜头35mm f4”立刻变样。 **第三，描述瑕疵就是描述真实。** 战损痕迹、磨损掉漆、关节油污、轻微面部瑕疵——完美的画面等于假的画面。 **第四，给镜头加“呼吸感”。** 一句话：“手持拍摄，全程保持极其轻微的、如呼吸般的镜头浮动，增强临场感。”AI输出立刻像真人摄影机。 **第五，抽卡是常态，不要追求一次成型。** Mx-Shell单镜头抽卡数，多的可能20次，少的两三次。整部《丧尸清道夫》生成了400张图片+200多个视频镜头。把“卡”当游戏里的“抽卡”，运气好一次出，运气不好二十次出。不要怪自己提示词写得不行，是AI本来就有随机性。 **第六，提示词违规就删字眼、换近义词。** Seedance 2.0对版权词敏感。钢铁侠改成原子朋克未来主义复古风，HENSHIN改成自创音节。 **第七，长视频=短片段+剪辑拼接。** 小云雀网页端有“生成视频后续”功能。Mx-Shell的《合金装备》打斗段就是分两段（武器充能+打斗）单独生成+后期剪辑。不要追求30秒一镜到底，抽不出来。 **第八，同一颜色调，前后镜头才能拼。** 剪辑时最大坑是A镜头偏暖橙、B镜头偏冷蓝，剪在一起色差爆炸。对策：在场景图阶段就把色调定死，所有视频提示词的“色彩与影调”段统一。 **第九，没必要做4K，720p够了。** 国内平台会再压缩一遍，4K给你压成1080p也无所谓。省下来的算力多抽几次卡更重要。 **第十，不一定要用人脸——戴头盔、面具或机器人也行。** 机器人的好处是审核免疫，LED显示器演表情比真人还灵活。这就是《丧尸清道夫》选机器人主角的真正原因。 ## 他用了什么工具？按使用频率排序：视频生成（80%）用的是小云雀里的Seedance 2.0（不要用Fast版）；图像生成（80%）用的是GPT Image；图像生成（辅助）用Midjourney或Krea；材质优化用Flux Max（金属、瓷砖、皮肤细节单独过一遍）；三视图用Nanobanana；文案辅助用豆包（打斗戏让豆包写后自己改）；剪辑用剪映；配乐用Artlist.io的版权音乐，不是AI生成的。注意：音乐不是AI做的。 ## 他到底花了多少钱？网传“10天3000元”的数据流传很广，但直播里实际细节稍微复杂。直播原文说：“视频生成大概花了可能两三千块的样子。”合理推测：作品成本大约3000软妹币（对外宣传口径），实际买额度的总开销可能在2万软妹币上下（算上抽卡损耗）。但即便按2万算，也仍然远低于真人拍摄3分钟同等质感短片的成本。10天+一两万+一个云南中专生，做出“近年最佳短片”——这就是AI这一波最值得思考的事。 ## 他不是什么天才直播里有几段对话，我觉得是这场直播最有价值的部分。观众问他是什么专业，他说“中专毕业，学计算机的，但其实不太会编程”；问他研究AI多久了，他说“今年1月中旬开始，到现在才4个月，中间还停了三个月，实际做AI视频大概就一个多月”；问他斯皮尔伯格找他了吗，他笑着说“没有，PJ联系我了就不错了”；问好莱坞找你怎么说，他说“没找我，但有导演跟我说想用这个做电影”；问是怎么自学的，他说“看了抖音上一些老师的视频，然后自己瞎琢磨”；问剧本灵感怎么来，他说“抖音刷视频看到的，或者自己乱想的”；问这部片有没有完整的剧本，他说“没有，就是脑子里有一个画面，然后直接开始做”。他对自己没有任何吹捧。全程都在说“我也是自学的，没怎么系统学习过”“我说的不一定对”“建议大家学一下别的老师”。这种朴实和自嘲，让那两个多小时直播听起来一点都不像“AI大佬开课”，更像是一个手艺人被人围着问“你这玩意儿是怎么做的”，他不藏着掖着地一点一点讲出来。 ## 写在最后你不需要等到GPT-5、Sora 2、可灵3才开始做AI视频。你需要的只是：一个想法，一份结构化的提示词，接受抽卡的耐心，一点剪辑功底。工具都在那里，方法就是这一套。剩下的，就是你自己愿不愿意花10天，把“我有个想法”做成一部完整的片子。 Mx-Shell在直播末尾说：“有帮助就好，祝大家都能做出自己喜欢的作品。” 希望这篇拆解，也能帮你一点。 --- 完整原始提示词、5段式方法论、模板骨架全部归档在开源仓库：github.com/jnMetaCode/ai-shortfilm-prompts 里面有10多个完整作品的原始提示词（丧尸清道夫、假面骑士×5、卡莎LOL变身、环太平洋高达、合金装备打斗、赛博江湖等），去IP的通用模板（15秒变身模板、多分镜叙事模板、7种氛围骨架），以及完整方法论和17条实战FAQ。

来源：https://blog.csdn.net/taoanbang/article/details/161205548

好莱坞