中国创作者AI短片提示词开源与直播讲解整理
时间:2026-05-31 18:58
一个云南中专生,用10天做出了“近年来最佳短片” 一个29岁的云南中专生,2026年1月才第一次接触AI视频,4个月后,他做出了一部3分钟的短片。结果呢?好莱坞导演PJ Ace在推特上公开寻找他。 这条推文被转发了6700多次。PJ的原话是:“This is one of the best sh
# 一个云南中专生,用10天做出了“近年来最佳短片”
一个29岁的云南中专生,2026年1月才第一次接触AI视频,4个月后,他做出了一部3分钟的短片。结果呢?好莱坞导演PJ Ace在推特上公开寻找他。
这条推文被转发了6700多次。PJ的原话是:“This is one of the best short films I’ve seen in years.”——翻译过来就是“近年来最佳短片之一”。
这个年轻人叫Mx-Shell,云南玉溪人,摄影是他的副业。他做的那部片子叫《丧尸清道夫》。
故事设定其实简单得有点可爱:末日丧尸危机结束后,一只孤独的原子朋克机器人来到一栋滨海别墅,碰上了一只呆头呆脑的鸵鸟。机器人吓得发抖,鸵鸟歪着脖子吐着舌头。然后机器人切换了LED表情,开始跳迈克尔·杰克逊的霹雳舞——顺便踢飞了一颗丧尸的脑袋。
整部片子用了10天,一个人完成,中专学历。他第一部AI作品其实是给姐姐家的酒店做的宣传片。
5月12日晚上,他开了一场两个多小时的直播,主动回应了外界关于“垫图”和“3D渲染”的质疑。直播里,他几乎把自己写提示词的整套方法毫无保留地讲了出来,然后说了句:“我无所谓了,你们要学习也可以,要拿去干什么都可以。”
这里不得不提一个细节:有人把他两段直播录屏和公开分享的提示词文档全部整理、归纳、结构化,做成了一个开源仓库——github.com/jnMetaCode/ai-shortfilm-prompts。下面这套方法,就是从那个仓库里提炼出来的精华版。
如果你也想做AI视频,但写出来的东西总是五毛特效感,那下面的内容值得认真看完。
## 为什么大多数人写的AI提示词都不行?
先看一段对比。
普通人写的提示词:通常就是“一个酷炫的机器人”“电影感很强”“末日氛围”——全是模糊的形容词。而Mx-Shell写的提示词,是“哑光黑色皮质长风衣”“模拟IMAX胶片摄影机搭配Pana vision C系列镜头35mm f4”“60年代复古橙配海盐蓝的电影色调”。
关键差别到底在哪?不是词更花哨,而是他把自己脑子里看到的画面,逐字翻译成了AI能理解的指令。AI不知道“酷”是什么,但AI知道“哑光黑色皮质长风衣”;AI不知道“电影感”是什么,但AI知道“IMAX胶片摄影机+Pana vision C系列镜头35mm f4”。
Mx-Shell在直播里说了这样一句话:“把AI当成真人摄影团队。”这句话是整个方法论的核心。也就是说,用对待真人摄影团队的方式给AI下达指令。一个摄影团队需要知道:用什么机器、什么镜头、人物穿什么、站在哪、做什么动作、镜头怎么动、灯怎么打——这些你都得写清楚。
## Mx-Shell反复使用的“5段式模板”
把他公开过的全部提示词读完,会发现一件令人震惊的事:不管是假面骑士变身、卡莎LOL变身、丧尸清道夫还是合金装备打斗,他用的都是同一套结构——只是替换了里面的变量。
这套结构简单来说就是:
1. **核心主题**:3-6个tag,定调子
2. **人物与基础设定**:面部/服装/场景
3. **氛围与画质**:视觉基调/色彩与影调/风格核心
4. **运镜规则**:单镜头或多分镜/角度/呼吸感
5. **分镜(时间轴)**:按秒切片或按镜头切片
**段1·核心主题**——一行风格标签,用“|”分隔。从“画面类型→题材→美学风格”层层递进。比如《丧尸清道夫》的核心主题是“原子朋克|末日丧尸|电影级质感|超写实|杜绝游戏CG感”;假面骑士战损变身则是“写实暗黑特摄|BLACK SUN美学|破碎肉身|战损变身|末日战场”。这一行就像告诉同事:“今天我们拍的是XX类型+XX风格”。3-6个tag,不多不少。
**段2·人物与基础设定**——三行内容:面部/服装/场景。最关键的是细节质感。“哑光黑色皮质”比“黑色皮衣”信息量大三倍。Mx-Shell反复强调一个反直觉的点:要写瑕疵。完美=假,瑕疵=真实。所以他每次都会在描述里加“保留轻微面部瑕疵”“面部伤口、纱布、血渍”“战衣整体远非平整,各处战损痕迹触目惊心”。写瑕疵就是写真实,这是整套方法论里最反直觉但最有效的发现。
**段3·氛围与画质——核心技巧在这一段**。这是Mx-Shell的独家秘诀:模拟真实摄影机+镜头。视觉基调是“变形宽荧幕电影质感”,模拟“IMAX胶片摄影机,搭配Pana vision C系列镜头(焦段35mm,光圈f4)”,色彩与影调是“低饱和灰蓝主调”,还要求“暗部信息压缩,保留细节,边缘添加轻微柔焦与适度的胶片颗粒感”。为什么有效?因为AI训练数据里大量真实电影的画面元数据都和具体摄影机型号绑定。给AI一个“IMAX胶片摄影机”,它就有一个非常具体的视觉风格锚点——比你说“电影感强烈”这种模糊词高维多了。Mx-Shell在直播里直说了:“你以为AI听不懂,其实AI比你更知道那台机器出什么画面。”
他常用的摄影机组合,整理一下是这样的:要史诗感/大场面,用IMAX胶片摄影机+Pana vision C系列镜头(35mm,f4);要暗调赛博/写实硬核,用索尼威尼斯电影机+佳能K-35系列镜头;要港片/武侠,用柯达35mm复古胶片,跳过漂白胶片质感;要商业人像,用Canon EF 85mm f/1.2。这一段你抄下来直接用,立刻看到效果。
**段4·运镜规则**——三行:单镜头/角度/呼吸感。注意最后一行——“呼吸感”。这一句几乎在Mx-Shell每个视频提示词里都出现。为什么?因为AI默认输出的镜头是绝对静止的CG感。加上“呼吸般的浮动”,画面立刻像真人手持摄影机拍的。这是“一句话改变质感”的写法。
**段5·分镜(时间轴)**——最关键也最容易被忽略的部分。有两种写法。写法A是按秒切片,适合单镜头一镜到底(比如变身、武器充能)。例如:0-3秒凝视动作,主角略微低头,目光锁定腰带,镜头极缓向前推进,整颗眼球骤然亮起白金色光芒;3-6秒启动声音,低语“HENSHIN”,动作是手掌用力按压腰带核心,金属机械装置被暴力唤醒,镜头伴随低频嗡鸣产生应激性的0.1秒微颤。关键:每段都有“动作+镜头+特效”三件套,可选加“声音、面部”。写法B是按镜头切片,适合多镜头叙事(比如《丧尸清道夫》)。每个分镜四件套:景别/构图/运镜手法/画面内容。
光说“骨架通用”没用,看证据。Mx-Shell早期火过的“战损变身”系列,共5个变体——从假面骑士的暗黑美学到女武神的紫色玻璃质感,全部使用同一套5段式骨架,只在4-5个变量上做替换。主色、水晶、触发词、头盔造型、时长——只改这几个变量,能产出5个截然不同的变身视频。这才是这套方法论真正的价值:你学会一套结构,可以做出无限多的作品。
## 《丧尸清道夫》是怎么用这套方法做出来的?
直接看原文节选。你会发现一个细节:反差对比是这部短片情绪的核心。度假别墅对丧尸尸体,机器人呆萌对末日废墟,跳MJ舞对战斗后死寂——3个反差叠加在3分钟里,观众无法不被冲击。这是好故事的写法,不是AI的功劳。
然后他用7个分镜讲完了“机器人与鸵鸟相遇”这一段:机器人跳着舞进入,听到声音吓到(绿色微笑变成黄色害怕);空镜对准吧台,画外传来悉簌簌声响(铺垫);特写机器人发抖防御姿态;过肩长焦,鸵鸟从画面下方探头,机器人被吓;全景对称构图,机器人慢慢站直;长焦特写鸵鸟歪头吐舌;长焦特写机器人侧45度,表情从害怕切换为思考(黄变白)。每个镜头都明确:景别+构图+运镜手法+画面内容。观众看完会觉得“这导演真懂镜头”——实际上Mx-Shell在直播里说:“我全是感觉,没有体系化学习。做这个之前没看过任何电影理论。”
## 几个能让AI视频立刻变好的“小技巧”
整理自他两段直播Q&A,按实战频率排序。
**第一,不要给AI参考图(除非画质够高)。** 垫图最大的副作用是AI容易复现参考图的画风(包括CG感、动漫感),而不是参考它的设计。唯一的例外是参考图本身就是3D渲染、写实大片质感、或自己用GPT Image生成的高质量图。
**第二,摄影机型号是质感的最大锚点。** 写“电影感”没用,写“模拟IMAX胶片摄影机+Pana vision C系列镜头35mm f4”立刻变样。
**第三,描述瑕疵就是描述真实。** 战损痕迹、磨损掉漆、关节油污、轻微面部瑕疵——完美的画面等于假的画面。
**第四,给镜头加“呼吸感”。** 一句话:“手持拍摄,全程保持极其轻微的、如呼吸般的镜头浮动,增强临场感。”AI输出立刻像真人摄影机。
**第五,抽卡是常态,不要追求一次成型。** Mx-Shell单镜头抽卡数,多的可能20次,少的两三次。整部《丧尸清道夫》生成了400张图片+200多个视频镜头。把“卡”当游戏里的“抽卡”,运气好一次出,运气不好二十次出。不要怪自己提示词写得不行,是AI本来就有随机性。
**第六,提示词违规就删字眼、换近义词。** Seedance 2.0对版权词敏感。钢铁侠改成原子朋克未来主义复古风,HENSHIN改成自创音节。
**第七,长视频=短片段+剪辑拼接。** 小云雀网页端有“生成视频后续”功能。Mx-Shell的《合金装备》打斗段就是分两段(武器充能+打斗)单独生成+后期剪辑。不要追求30秒一镜到底,抽不出来。
**第八,同一颜色调,前后镜头才能拼。** 剪辑时最大坑是A镜头偏暖橙、B镜头偏冷蓝,剪在一起色差爆炸。对策:在场景图阶段就把色调定死,所有视频提示词的“色彩与影调”段统一。
**第九,没必要做4K,720p够了。** 国内平台会再压缩一遍,4K给你压成1080p也无所谓。省下来的算力多抽几次卡更重要。
**第十,不一定要用人脸——戴头盔、面具或机器人也行。** 机器人的好处是审核免疫,LED显示器演表情比真人还灵活。这就是《丧尸清道夫》选机器人主角的真正原因。
## 他用了什么工具?
按使用频率排序:视频生成(80%)用的是小云雀里的Seedance 2.0(不要用Fast版);图像生成(80%)用的是GPT Image;图像生成(辅助)用Midjourney或Krea;材质优化用Flux Max(金属、瓷砖、皮肤细节单独过一遍);三视图用Nanobanana;文案辅助用豆包(打斗戏让豆包写后自己改);剪辑用剪映;配乐用Artlist.io的版权音乐,不是AI生成的。注意:音乐不是AI做的。
## 他到底花了多少钱?
网传“10天3000元”的数据流传很广,但直播里实际细节稍微复杂。直播原文说:“视频生成大概花了可能两三千块的样子。”合理推测:作品成本大约3000软妹币(对外宣传口径),实际买额度的总开销可能在2万软妹币上下(算上抽卡损耗)。但即便按2万算,也仍然远低于真人拍摄3分钟同等质感短片的成本。10天+一两万+一个云南中专生,做出“近年最佳短片”——这就是AI这一波最值得思考的事。
## 他不是什么天才
直播里有几段对话,我觉得是这场直播最有价值的部分。观众问他是什么专业,他说“中专毕业,学计算机的,但其实不太会编程”;问他研究AI多久了,他说“今年1月中旬开始,到现在才4个月,中间还停了三个月,实际做AI视频大概就一个多月”;问他斯皮尔伯格找他了吗,他笑着说“没有,PJ联系我了就不错了”;问好莱坞找你怎么说,他说“没找我,但有导演跟我说想用这个做电影”;问是怎么自学的,他说“看了抖音上一些老师的视频,然后自己瞎琢磨”;问剧本灵感怎么来,他说“抖音刷视频看到的,或者自己乱想的”;问这部片有没有完整的剧本,他说“没有,就是脑子里有一个画面,然后直接开始做”。
他对自己没有任何吹捧。全程都在说“我也是自学的,没怎么系统学习过”“我说的不一定对”“建议大家学一下别的老师”。这种朴实和自嘲,让那两个多小时直播听起来一点都不像“AI大佬开课”,更像是一个手艺人被人围着问“你这玩意儿是怎么做的”,他不藏着掖着地一点一点讲出来。
## 写在最后
你不需要等到GPT-5、Sora 2、可灵3才开始做AI视频。你需要的只是:一个想法,一份结构化的提示词,接受抽卡的耐心,一点剪辑功底。工具都在那里,方法就是这一套。剩下的,就是你自己愿不愿意花10天,把“我有个想法”做成一部完整的片子。
Mx-Shell在直播末尾说:“有帮助就好,祝大家都能做出自己喜欢的作品。”
希望这篇拆解,也能帮你一点。
---
完整原始提示词、5段式方法论、模板骨架全部归档在开源仓库:github.com/jnMetaCode/ai-shortfilm-prompts
里面有10多个完整作品的原始提示词(丧尸清道夫、假面骑士×5、卡莎LOL变身、环太平洋高达、合金装备打斗、赛博江湖等),去IP的通用模板(15秒变身模板、多分镜叙事模板、7种氛围骨架),以及完整方法论和17条实战FAQ。
来源:https://blog.csdn.net/taoanbang/article/details/161205548
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。