图生视频提示词怎么写？五要素 + 主流模型模板

Q: 模型选择决策树？

不确定该用哪个模型？按这个逻辑走： 1. 预算有限 + 刚入门 → Hailuo AI 或 Kling 免费版，零成本练手 2. 社交媒体量产 → Kling 2.6（速度快、支持长视频）或 Pika 2.5（性价比高） 3. 需要带声音的视频 → Veo 3.1（原生音频生成）或 Kling 2.6（同步音视频） 4. 电影级品质 → Sora 2.0（物理模拟最强）或 Runway Gen-4.5（控制力最强） 5. 电商产品展示 → Seedance 2.0（产品一致性好） 6. 角色一致性要求高 → Runway Gen-4.5（参考图锚定面部/造型） 搞懂了各模型的特点，你就知道针对不同模型该怎么写提示词了。

你输入「一只猫在跳舞」，AI 生成的却是一坨像素糊在一起的抽搐动画。问题不在模型——Runway、Kling、Sora 都能生成电影级画面——问题在你跟模型"沟通"的方式上。提示词写得太笼统，AI 就只能瞎猜，猜对的概率约等于零。

翔宇测试了 Runway、Kling、Sora 等主流模型的图生视频效果后，总结出了一套结构化提示词设计方法。

这篇文章帮你搞懂图生视频提示词的设计方法——从模型选择到提示词结构，从实战案例到避坑指南，一步步走完。掌握了提示词设计的核心逻辑，你就能让 AI 真正成为你的视频创作助手，而不是一台随机出图且不可控的机器。

要点速览

图生视频提示词核心：描述「运动方式」而非静态画面，告诉 AI 主体怎么动、镜头怎么走
不同模型适配策略不同：Runway 偏创意自由度，Kling 偏指令精确控制，Pika 偏快速原型
提示词模板结构：主体动作 + 镜头运动 + 环境变化 + 时长节奏
商业应用方向：产品展示视频、社交媒体内容、电商详情页动态图

全景地图：主流图生视频模型

在写提示词之前，你需要了解当前有哪些模型可用，以及它们各自的特点。2025-2026 年是 AI 视频生成的爆发期，模型迭代速度极快，每隔几个月就有重大升级。

模型	最新版本	核心能力	适合场景	价格参考
Runway	Gen-4.5	基准测试排名第一，运动笔刷、场景一致性	广告、VFX、专业创作	$12/月起
Kling（快手）	2.6	同步音视频生成，最长 2 分钟视频	社交内容、高效量产	免费版可用
Google Veo	3.1	原生 4K、角色一致性、原生音频生成	电影感内容、带旁白视频	$19.99/月（Gemini Advanced）
Sora（OpenAI）	2.0	物理模拟、叙事连贯性、超写实	叙事短片、高品质创作	Plus 订阅可用
Pika Labs	2.5	快速迭代、参数丰富	社交媒体快速出片	免费版可用
Luma AI	Dream Machine	自然运动、逼真光照	迭代式创作	免费版可用
Seedance	2.0	物理锚定、产品一致性	电商产品视频	按量付费
Hailuo AI	MiniMax	免费入门、效果不错	新手练习、低预算创作	免费

翔宇的观察：2026 年的趋势是多模型协作。专业创作者通常用 Sora 或 Veo 生成主体素材，用 Runway 做风格化精修，用 Pika 或 Kling 快速出社交媒体变体。单一模型打天下的时代已经过去了。

模型选择决策树

不确定该用哪个模型？按这个逻辑走：

预算有限 + 刚入门 → Hailuo AI 或 Kling 免费版，零成本练手
社交媒体量产 → Kling 2.6（速度快、支持长视频）或 Pika 2.5（性价比高）
需要带声音的视频 → Veo 3.1（原生音频生成）或 Kling 2.6（同步音视频）
电影级品质 → Sora 2.0（物理模拟最强）或 Runway Gen-4.5（控制力最强）
电商产品展示 → Seedance 2.0（产品一致性好）
角色一致性要求高 → Runway Gen-4.5（参考图锚定面部/造型）

搞懂了各模型的特点，你就知道针对不同模型该怎么写提示词了。

模型选择的常见误区

翔宇见过很多新手犯的第一个错误是"什么都想试"——今天用 Runway 明天用 Kling 后天换 Sora，每个模型都浅尝辄止。结果？每个模型的"脾气"都没摸透，提示词写得不伦不类，生成效果自然不理想。翔宇的建议是选定一个主力模型深度使用至少两周，把它的优势和局限都搞清楚后再考虑多模型协作。

第二个常见误区是"只看价格不看效果"。免费模型确实降低了入门门槛，但如果你是要做商业项目——比如电商产品视频或品牌广告——省下的几十块钱远不如多花一点拿到更高品质的素材划算。翔宇做过一个对比测试：同一个提示词在免费模型和付费模型上生成的产品展示视频，客户选中付费模型版本的概率超过百分之九十。质量差距在商业场景下会被放大。

第三个误区是忽视后期处理。很多人以为 AI 直接生成的视频就是最终成品。实际上，即使是最好的模型，生成的原始视频也需要进行色彩校正、节奏调整和音效添加。翔宇的工作流中，AI 生成只占总制作时间的百分之三十，剩下百分之七十是后期处理和筛选优化。

提示词的核心要素

一个好的图生视频提示词需要覆盖五个维度。每个维度都对最终效果有关键影响——缺了任何一个，AI 就会自己「脑补」，结果大概率不是你想要的。

主体描述

你想让画面里出现什么？人物、物体、场景——描述要具体。AI 模型是通过关键词匹配训练数据中的视觉模式来生成画面的，越具体的描述意味着越少的猜测空间。

模糊："一个人在走" → AI 可能给你任何年龄、性别、场景的画面
具体："一位穿风衣的年轻女性在雨中的东京街头撑伞行走" → 画面精确可控

实操技巧：

描述维度	弱描述	强描述
人物外貌	一个女孩	A young woman with shoulder-length black hair, wearing a red leather jacket
物体细节	一辆车	A vintage 1967 Ford Mustang, cherry red, chrome bumpers gleaming
环境氛围	城市街道	Rain-soaked Tokyo alley at night, neon signs reflecting on wet asphalt
数量和位置	几个人	Three friends sitting at a round café table, two facing camera

翔宇的经验：用英文写提示词效果通常优于中文，因为主流模型的训练数据以英文为主。如果你英文不太好，可以先用中文写好再让 AI 翻译成英文提示词。翔宇的具体做法是先用中文详细描述自己想要的画面，包括人物外貌、环境氛围、光照效果和情绪基调，然后让 Claude 或 DeepSeek 帮忙翻译成适合视频生成模型的英文提示词。翻译时要特别注意不要直译，而是用视觉描述性的英文表达。比如中文"夕阳下的海边"直译是"seaside at sunset"，但更好的提示词写法是"golden hour sunlight reflecting on calm ocean waves, warm amber tones, long shadows on wet sand"——后者的描述维度更丰富，生成的画面质量也更精致细腻。

翔宇还观察到一个有趣的现象：Kling 和 Seedance 这类国产模型对中文提示词的理解能力正在快速提升。在二零二六年的测试中，Kling 二点六对中文提示词的画面还原准确度已经接近英文。如果你主要使用国产模型，中文提示词完全可以作为主力方案。

动作指令

静态图变视频的关键就是"动起来"。你要告诉模型具体发生什么动作，以及动作的速度和幅度。

基础动作词汇表：

动作类型	英文关键词	效果
缓慢移动	slowly walks, gently moves	安静、优雅的画面节奏
快速运动	rushes through, sprints	紧张、动感的画面
细微动作	blinks, tilts head slightly	写实、自然的微表情
自然现象	wind blows, leaves fall, water ripples	增加画面生命力
物体交互	picks up, reaches for, pours	增加叙事感

关键原则：一条提示词只描述一个核心动作。 如果你想要"人物转头 + 风吹头发 + 背景下雨 + 猫跑过"，模型会顾此失彼。把复杂场景拆成多个片段分别生成，后期再拼接。

进阶示例：

"镜头缓慢推进，人物转头看向镜头，微风吹动发丝"
"花瓣从树上飘落，随风旋转，缓缓落入溪水中"
"咖啡从壶中缓慢倒入杯中，蒸汽升起，液面轻微晃动"

风格定义

你想要什么视觉风格？风格关键词直接影响 AI 选择的渲染方式——色彩、质感、光影处理都会因此改变。

常用风格关键词对照表：

风格	关键词	效果描述
电影级写实	cinematic, photorealistic, film grain	浅景深、胶片质感、自然光
动画风格	anime style, Studio Ghibli, Pixar 3D	卡通渲染、鲜明色彩
赛博朋克	cyberpunk, neon glow, high contrast	霓虹灯、深色基调、科技感
复古胶片	vintage film, 8mm footage, retro color grading	暖色偏移、颗粒感
纪录片	documentary style, handheld camera, natural lighting	真实感、轻微晃动
延时摄影	time-lapse, hyperlapse	时间压缩、云流动
慢动作	slow motion, 120fps, bullet time	细节放大、情感强化
水彩画	watercolor painting, soft brush strokes	艺术感、柔和边缘

翔宇的提醒：风格关键词不要互相矛盾。"photorealistic + cartoon style" 会让模型困惑。选定一个主风格，最多叠加一个辅助风格（比如 "cinematic + moody"）。

镜头语言

这是很多人忽略的维度。AI 模型能理解基本的镜头术语，用镜头语言能让你的视频从"PPT 幻灯片感"升级到"电影感"。

术语	英文	效果	适合场景
推镜头	dolly in / push in	镜头向主体靠近，增加紧张感或亲密感	悬疑、情感高潮
拉镜头	dolly out / pull back	镜头远离主体，展示全景	场景展开、结尾
航拍	aerial shot / drone shot	鸟瞰视角	风景、城市、壮观场景
跟踪镜头	tracking shot / follow shot	镜头跟随主体移动	人物行走、追逐场景
延时摄影	time-lapse	加速时间流动	日出日落、城市车流
环绕镜头	orbit shot / 360 rotation	镜头环绕主体旋转	产品展示、人物特写
低角度仰拍	low angle shot	从下往上拍，主体显得高大	建筑、权威人物
高角度俯拍	high angle shot / bird's eye	从上往下拍	场景俯瞰、脆弱感
手持晃动	handheld camera, slight shake	增加真实感和临场感	纪录片、紧张场景
稳定器平移	smooth pan left/right	水平移动，画面稳定	展示全景、过渡镜头

进阶技巧：组合镜头语言

不要只用单一镜头。组合使用能让视频更有层次感：

"Camera slowly pushes in while slightly tilting upward" → 推进 + 上仰，增加史诗感
"Drone shot rising from street level to reveal the cityscape" → 低到高的航拍揭示
"Tracking shot following the character from behind, then orbiting to front view" → 跟拍转环绕

氛围和光照

光照决定情绪。同一个场景，黄昏暖光和冷蓝夜光传达的感觉完全不同。很多新手忽略了这个维度，导致 AI 给出的是"通用光照"——看起来没什么问题，但也没什么感觉。

光照关键词速查：

光照类型	英文关键词	情绪效果
金色夕阳	golden hour, warm sunset light, long shadows	温暖、怀旧、浪漫
霓虹夜景	neon lights, city lights reflecting on wet ground	赛博朋克、都市感
柔和窗光	soft window light, diffused natural light	安静、温馨、日常
戏剧性侧光	dramatic side lighting, chiaroscuro	悬疑、艺术、紧张
逆光剪影	backlit silhouette, rim lighting	神秘、唯美
阴天漫射	overcast sky, even diffused light	平静、忧郁
荧光/冷光	fluorescent lighting, cold blue tones	科技感、疏离感
篝火暖光	campfire glow, flickering warm light	温暖、亲密

翔宇的心得：氛围不只是光照，还包括天气和环境效果。加入 "rain", "mist", "dust particles in the air", "steam rising" 这类元素，画面的层次感会大幅提升。

情绪板的作用

在写提示词之前，翔宇强烈建议你先做一份"情绪板"。情绪板就是把你想要的视频风格用几张参考图片拼在一起——电影截图、摄影作品、甚至是其他 AI 生成的效果图都可以。有了情绪板，你写提示词时就有了明确的视觉锚点，不会写着写着跑偏。

做情绪板最简单的方法是在 Pinterest 上搜索关键词，把喜欢的图片保存到一个画板里。翔宇通常会收集五到八张参考图，然后提炼出它们的共同特征——色调、光照方向、构图方式、氛围感受——把这些特征转化为提示词中的关键词。这个准备工作只需要十到十五分钟，但能让你的提示词精准度提升一个量级。

提示词模板

翔宇给你一个通用模板，适用于所有主流模型：

[主体] + [动作] + [镜头运动] + [风格/光照] + [氛围/情绪]

模板实战：5 个场景的完整提示词

场景一：电影感人物

A silver-haired elderly man sits by a rain-streaked window reading a book.
Warm afternoon light filters through sheer curtains, casting soft shadows
on the pages. Camera slowly pushes in, focusing on his weathered hands
turning a page. Cinematic quality, shallow depth of field, warm color
grading. Quiet, contemplative mood.

场景二：产品展示（电商适用）

A sleek white wireless earbuds case sits on a dark marble surface.
The case slowly opens, revealing the earbuds inside. Soft studio lighting
with subtle reflections on the marble. Camera orbits smoothly around
the product at 45-degree angle. Product photography style, clean
and minimalist. Premium, high-end feel.

场景三：自然风光

A vast mountain valley at sunrise. Morning mist slowly rises from
the river below. Wildflowers sway gently in the foreground.
Drone shot slowly ascending to reveal the full panorama.
Epic landscape photography, 4K quality, golden hour lighting.
Majestic, peaceful atmosphere.

场景四：美食特写

Close-up of golden melted cheese being pulled apart on a freshly
baked pizza. Steam rises gently. A hand slowly lifts a slice,
cheese stretching in long strands. Macro lens, warm overhead lighting,
food photography style. Slow motion. Appetizing, indulgent mood.

场景五：赛博朋克城市

A lone figure in a hooded jacket walks through a narrow alley
in a futuristic city. Neon signs in Chinese and Japanese characters
cast colorful reflections on rain-soaked ground. Camera follows
from behind at medium distance. Cyberpunk aesthetic, high contrast,
volumetric fog. Mysterious, atmospheric mood.

不同模型的提示词适配策略

每个模型对提示词的理解方式有差异。翔宇总结了各主流模型的写法偏好：

模型	提示词偏好	注意事项
Runway Gen-4.5	支持参考图锚定面部/造型，提示词要精准简洁	加载 1-3 张参考图保持角色一致性
Kling 2.6	像写时间线脚本，支持音频描述	可以加入声音描述如 "sound of rain"
Veo 3.1	偏好结构化数据，理解电影语言	可以写得像分镜脚本，支持对话描述
Sora 2.0	强调因果关系和物理规律	描述动作的物理过程效果更好
Pika 2.5	简洁直白，参数调节做细化	用界面参数控制帧率、运动强度

Runway 特有技巧：参考图 + 提示词组合

Runway Gen-4.5 允许上传参考图来锚定角色外观。最佳实践：

上传 1-3 张角色参考图（正面、侧面、全身）
提示词中不再详细描述外貌，而是聚焦动作和场景
用 Motion Brush 精确控制画面中哪些区域运动、哪些静止

Veo 3.1 特有技巧：原生音频描述

Veo 3.1 是目前唯一支持原生音频生成的主流模型。你可以在提示词中加入声音描述：

A barista carefully steams milk in a busy café. The hissing sound of
the steam wand mixes with quiet background chatter and soft jazz music.
Camera close-up on the milk foam forming a latte art pattern.

常见错误和优化建议

错误	问题	优化方案
描述太模糊	AI 自由发挥，结果不可控	增加具体细节：外貌、服装、环境元素
指令太多	模型顾此失彼，画面混乱	一条提示词聚焦一个核心动作
忽略镜头语言	视频缺乏电影感，像 PPT	加入推/拉/跟踪/航拍等镜头术语
没有指定风格	默认渲染效果平淡	明确风格关键词和参考作品
运动幅度过大	画面崩坏变形	用 "slowly", "gently", "subtly" 控制运动强度
风格关键词冲突	画面风格不统一	选定一个主风格，去掉矛盾描述
用中文写复杂提示词	模型理解偏差	用英文写主体提示词
忽略负面提示词	出现不想要的元素	加入 "no text on screen", "no watermark"

负面提示词（Negative Prompt）

很多模型支持负面提示词——告诉 AI 你不想要什么。这在避免常见问题时特别有用：

负面提示词示例：
- no text, no watermark, no logo
- no blurry, no distorted faces
- no extra limbs, no deformed hands
- no static image, no freeze frame

进阶：用 AI 帮你写提示词

如果你不想从零开始写提示词，可以让 ChatGPT 或 Claude 帮你生成：

你是一位 AI 视频提示词专家。我想用 [模型名称] 生成一段视频。

画面描述：[用中文简单描述你想要的画面]
视频时长：[5秒/10秒/15秒]
用途：[社交媒体/广告/教程/个人创作]

请帮我生成一条优化过的英文视频提示词，包含以下要素：
1. 具体的主体描述
2. 明确的动作指令
3. 镜头运动方式
4. 风格和光照
5. 氛围和情绪

同时生成一条对应的负面提示词。

图生视频的工作流最佳实践

翔宇在实际创作中总结的工作流：

第一步：准备参考图

用 Midjourney / FLUX 生成高质量静态图
确保图片构图清晰，主体突出
分辨率建议 1920x1080 或更高

第二步：选择模型和写提示词

根据用途选模型（参考前面的决策树）
用五要素模板写提示词
加入负面提示词

第三步：生成和筛选

同一个提示词生成 3-5 个版本
挑选动作最自然、画面最稳定的版本
如果全部不满意，调整提示词重新生成

第四步：后期处理

用 CapCut / Premiere 做基础剪辑
添加音乐和音效（如果模型没有原生音频）
调整色彩和节奏
导出适合目标平台的格式和比例

变现思路：图生视频的商业应用

掌握了图生视频技巧，这些变现路径已经被市场验证：

变现方向	具体场景	预期收益
电商产品视频	为商家制作产品展示视频	单条 200-2000 元
社交媒体内容	运营 AI 视频账号，接广告	粉丝变现
自媒体素材	为自己的频道制作 B-Roll 素材	降低制作成本
NFT / 数字艺术	制作 AI 艺术视频出售	按作品定价
教程付费	教别人用 AI 做视频	课程/咨询收入
婚礼/活动视频	用 AI 增强实拍素材	单项目 1000-5000 元

到这里，你已经搞懂了图生视频提示词的核心框架——五个维度（主体、动作、镜头、风格、氛围）、不同模型的适配策略、一套通用模板和避坑指南，以及可落地的变现思路。

提示词写作是一项需要练习的技能。

常见问题

Q：一条提示词生成的视频不满意怎么办？

翔宇的做法是"微调而不是重写"。不满意时先分析哪个维度有问题——是主体不对、动作太快、风格偏了还是光照不理想？然后只修改对应的关键词，其他部分保持不变。这样做的好处是你能清楚地知道每次修改带来了什么变化，逐步逼近理想效果。如果每次都从头重写提示词，你无法积累经验。

Q：图生视频和文生视频该怎么选？

图生视频适合你已经有高质量的静态参考图、需要精确控制画面内容的场景，比如产品展示或角色动画。文生视频适合你只有一个创意概念、画面细节可以交给模型自由发挥的场景，比如概念宣传片或氛围视频。翔宇的经验是：需要精确控制时用图生视频，追求创意惊喜时用文生视频。两者也可以组合使用——先用文生视频探索创意方向，选中最好的一帧作为参考图，再用图生视频生成高质量的最终版本。

每个模型的"脾气"不同，同一个提示词在不同模型上的效果可能差异很大。翔宇的建议是：选定一个模型，深度练习两周，比同时试五个模型效果好十倍。

提示词的进阶优化策略

当你对基础五要素已经熟练掌握之后，翔宇分享几个进阶策略帮你的视频效果再上一个台阶。

策略一：时间线描述法。 不要把所有动作写在一句话里，而是按时间顺序描述画面变化。比如"镜头先对准桌面上的咖啡杯，蒸汽缓缓升起。三秒后一只手从画面右侧伸入拿起杯子。五秒后镜头缓慢上移露出窗外的城市天际线"。这种写法能让模型生成更有叙事感的视频片段。

策略二：情绪递进法。 在提示词中明确指定情绪的变化方向。比如"画面从平静安宁的氛围开始，逐渐转向紧张不安，光线也从温暖的金色变为冷峻的蓝色"。情绪递进能让短短几秒的视频也有故事感。

策略三：物理细节法。 越是写实类视频，越需要描述物理细节。水滴的折射、布料的褶皱、金属的反光、头发在风中的飘动方式——这些微观细节是区分"AI 感"和"电影感"的关键。翔宇测试发现加入两到三个物理细节描述后视频的专业感会显著提升。

策略四：负空间法。 告诉模型画面中"不应该出现什么"和"应该出现什么"同样重要。加入"画面干净简洁背景无杂物""人物周围留出足够空间"这类描述能有效避免画面元素过多导致视觉混乱。

二零二六年 AI 视频生成领域变化极快。Seedance 二点零凭借物理锚定和产品一致性成为电商视频首选工具，Veo 三点一的原生音频生成能力让带旁白视频创作变得前所未有的简单。翔宇的判断是单一模型打天下的时代已经过去了，未来专业创作者一定是多模型协作的高手，每个模型各自在最擅长的领域中发挥最大的价值。

下一步

AI 编程实操课：国内版-FlowUS | 国际版-BMC
YouTube 频道：翔宇工作流

📚 更多 AI 视觉创作内容：AI 图片与视频生成指南：从提示词到成片的完整工作流

📚 更多自媒体 AI 自动化内容：自媒体 AI 自动化指南：用 Agent 替你做内容

Hermes Skill 自我进化系统：让 AI 助手越用越聪明

循环工程 Loop Engineering 指南：一个 Skill 解决终止条件设计难题

用 Hermes Agent 搭建跨平台 AI 消息助手：一个 Agent 同时管 Telegram + Discord + 微信

图生视频提示词怎么写？五要素结构 + Runway/Kling/Sora 模板（2026）