提示词工程

AI多模态提示词技巧：同时控制文字+图片+音频输出的完整指南

FlowPix Team 发布于 2026-06-08 更新于 2026-06-10 3,033 字

简单说：多模态提示词就是不止打字，还传图片、发语音、给视频让AI一起理解。2026年主流模型（GPT-4o、Gemini 2.5、Claude 4）全都支持了。但多模态提示词的写法跟纯文字完全不一样——你要先告诉AI"我发了什么"，再说"我要你干什么"，最后定"输出什么格式"。三步缺一步，AI就容易理解跑偏。

AI多模态提示词技巧：同时控制文字+图片+音频输出

半年前大家还在卷"怎么把提示词写得更精准"。现在玩法变了。

因为AI不仅能看懂你的文字了——它能看懂你发的图、听懂你发的语音、甚至理解你传的视频。这就是多模态AI，2026年上半年最炸裂的AI能力进化。

但问题也来了：多模态提示词怎么写？传张图配什么文字？怎么让AI同时理解你发的图片和语音？

往下看，一次讲清楚。

什么是多模态提示词？

多模态提示词是指在一次AI交互中混合使用文字、图片、音频、视频等多种媒介类型，让AI综合理解后再输出结果。传统提示词只靠文字，多模态提示词可以上传一张产品图+一段文字说明，让AI理解图片内容后执行任务。

举个例子——你想让AI帮你写一段产品文案。以前你只能打字描述"这个保温杯是白色的、500ml、有温度显示"。现在你把保温杯的照片直接丢给GPT-4o，说"帮我给这个产品写一段小红书种草文案"，AI看到实际产品后写出的文案比纯文字靠谱10倍。因为它真的"看到了"。

2026年主流多模态模型一览

模型	支持输入	支持输出	多模态能力评级
GPT-4o	文字+图片+音频	文字+图片+音频	⭐⭐⭐⭐⭐ 最全能
Gemini 2.5 Pro	文字+图片+视频+音频	文字+图片	⭐⭐⭐⭐⭐ 输入最强
Claude 4 Sonnet	文字+图片	文字	⭐⭐⭐⭐ 文字分析最细
DeepSeek V3	文字+图片	文字	⭐⭐⭐ 图片理解够用
通义千问2.5-VL	文字+图片+视频	文字	⭐⭐⭐⭐ 中文场景优秀

目前综合能力最强的是GPT-4o——图、文、音频三进三出，覆盖最全。但如果你主要用来分析长视频或复杂文档，Gemini 2.5 Pro的100万token上下文窗口优势巨大，能一次性塞进去几小时的视频。

多模态提示词的三步公式

纯文字提示词你可以想到什么写什么。但多模态提示词不一样——AI需要先理解你传的"非文字内容"是什么，才能正确执行你的指令。

FlowPix编辑部总结了一个三步公式：

第一步：告诉我你发了什么

在提示词开头明确描述你上传的内容类型和基本信息。不要假设AI能自动准确识别——虽然现在多模态识别很强，但你给个明确的context能让准确率再上一个台阶。

✅ "我上传了一张电商产品图，白色背景，一个不锈钢保温杯正面照"
❌ [直接甩图] "帮我写文案"

第二步：告诉我你要我干什么

任务指令要具体。多模态场景下，"分析这张图"这种模糊指令效果很差。要说清楚分析什么、从什么角度、关注什么细节。

✅ "识别图中所有文字，按位置从上到下列出来，并翻译成英文"
❌ "看看这图里有什么"

第三步：告诉我输出什么格式

多模态分析的结果格式尤其重要，因为AI可能会输出大量细节。指定格式能让结果直接可用。

✅ "用表格输出：左列中文原文，右列英文翻译，第三列标注文字在图片中的位置"
❌ "翻译一下"

5个实用场景+提示词模板

场景1：图片内容提取+翻译

我上传了一张包含中文文字的截图/海报。
请完成以下任务：
1. 提取图片中所有可见文字
2. 按从上到下、从左到右的顺序排列
3. 将每段文字翻译成英文
4. 用JSON格式输出：{"texts": [{"original": "...", "translated": "...", "position": "top-left"}]}

场景2：UI设计评审

我上传了一款App的界面截图。你是一位有10年经验的UX设计师。
请从以下角度评审：
1. 信息层级是否清晰（重点标注混乱区域）
2. 色彩对比度是否符合WCAG AA标准
3. 交互元素间距是否一致
4. 列出3个最需要改进的地方和改进建议
输出格式：每个角度单独一段，改进建议用优先级排序

场景3：图表数据分析

我上传了一张数据图表。
请分析：
1. 图表类型和展示的数据维度
2. 从数据中提取3个最重要的趋势或洞察
3. 数据中有无异常值或值得注意的模式
4. 如果我需要向CEO汇报，用3句话总结核心发现

场景4：语音转文字+情感分析

我上传了一段中文语音录音。
请完成：
1. 逐字转写成文字
2. 标注说话人的情绪变化（在对应文字后标记[情绪：开心/焦虑/愤怒/中性]）
3. 总结这段语音的核心诉求
输出格式：先逐字文本（带情绪标记），再一段总结

场景5：视频内容摘要

我上传了一段约3分钟的产品演示视频。
请完成：
1. 视频的主要内容分段（按场景变化分段，标注时间节点）
2. 列出视频中展示的所有产品功能
3. 生成一段150字以内的视频简介，适合做社交媒体标题
输出格式：分段用##标题，功能用列表，简介单独一段

多模态提示词常见翻车现场

翻车1：图片太大/太小。上传一张4000x3000的超高清图让AI"数一数图中有几个人"，结果AI把远处模糊的人影也算进去了。建议：分析细节前先把图片裁切到你关心的区域，或者提示词里明确说"只关注画面中央区域"。

翻车2：假设AI能读懂图片中的所有文字。多模态模型对手写体、艺术字体、小字号的识别率远不如印刷体标准字。如果图片里有你关心的文字内容，最好在提示词里把关键文字复述一遍。

翻车3：同时上传太多图片。一次对话里丢5-8张图让AI对比分析，AI容易搞混"哪张图是哪个"。超过3张图的对比任务，建议给每张图标号（"图1：产品正面，图2：产品侧面"）。

翻车4：音频+图片同时发给不支持多模态输入的模型。不是所有标注"多模态"的模型都支持所有类型。Claude 4只支持图文，不支持音频。发之前先确认模型能力，不然AI会直接无视你的音频文件，假装没收到。

常见问题

什么是多模态提示词？

在一个提示词中同时使用文字、图片、音频、视频等多种类型的数据来引导AI。不再是纯打字聊天，而是像跟真人交流一样——可以指着一张图说"把这个改了"。

哪些AI工具支持多模态输入？

GPT-4o（图+文+音频）、Gemini 2.5（图+文+视频+音频）、Claude 4（图+文）、DeepSeek V3（图+文）、通义千问2.5-VL（图+文+视频）。Gemini的多模态输入种类最全。

上传图片给AI分析时提示词应该怎么写？

三步：先说你传了什么（给AI上下文），再说你要AI干什么（具体任务），最后说输出格式（表格/列表/段落）。最关键的是第一步——很多人直接甩图不说需求，AI猜错意图的概率很高。

觉得有用的话转发给也在琢磨AI新功能的朋友。多模态提示词和角色扮演提示词配合使用有奇效——比如"你是一位眼科医生，帮我分析这张眼底照片"。试试看。