提示词工程

Prompt缓存策略完全指南：重复任务提速10倍+成本打一折

FlowPix Team 发布于 2026-06-10 2,248 字

简单说：Prompt缓存是2026年API调用最被低估的省钱功能。GPT-4o自动缓存省50%，Claude手动缓存省90%，Gemini直接免费。但每种模型的机制完全不同，配错了等于没开。

Prompt缓存策略完全指南：重复任务提速10倍+成本打一折

上个月我们FlowPix的技术同事发现一个事：同样的代码审查任务，在Claude上开启了Prompt缓存之后，日成本从$12降到了$3。省了75%。

问题是——GPT-4o、Claude、Gemini的缓存机制完全不一样。这篇文章把三种模型的缓存策略一次性讲透。

三种模型的缓存机制对比

GPT-4o自动缓存（无需配置）、Claude需手动标记断点（最灵活）、Gemini对重复上下文免费（最简单）。选择哪种取决于你的调用频率和提示词结构。

特性	GPT-4o	Claude 3.5 Sonnet	Gemini 2.5 Pro
启用方式	自动（前缀>1024 Token）	手动标记cache_control	自动检测重复上下文
缓存折扣	50% off	90% off	100% 免费
TTL	5-10分钟不活跃	5分钟（可重置）	自定义（最长24h）
最小缓存长度	1024 Token	1024 Token（建议>2048）	无限制

GPT-4o：什么都不用做，自动生效

GPT-4o的缓存是零配置的。只要你的请求前缀超过1024 Token，且短时间内重复使用相同的系统提示词，OpenAI自动帮你缓存。

你在API response里会看到usage里有个cached_tokens字段，告诉你命中了多少缓存Token。没看到这个字段说明没命中——可能是系统提示词太短或者调用间隔太久了。

优化技巧：把不变的内容（角色说明、格式要求、知识库摘要）放在最前面。在同一个会话中复用。GPT-4o的缓存是按"前缀匹配"的，不是全文匹配——只要开头一样就行。

Claude：手动标记，省钱最狠

Claude的Prompt缓存折打最狠（原价10%），但需要手动用cache_control标记缓存断点。不标记的话，Claude不会自动缓存任何内容。

标记方法（Python API）：

在messages里，给要缓存的内容块加上cache_control参数：{"type": "text", "text": "你的长系统提示词...", "cache_control": {"type": "ephemeral"}}

关键规则：cache_control只能放在内容块的末尾。缓存断点之前的内容都会被缓存。一个请求最多标记4个缓存断点。缓存内容至少要有1024 Token才有效（建议2048+，太少了不值得）。

我们用的策略：把系统提示词放在messages[0]，末尾标记cache_control。用户消息永远放在最后一条，不标记。这样系统提示词被缓存，每次只有用户输入计费。

细节参考 Anthropic Prompt Caching官方文档。

Gemini：最简单的免费缓存

Gemini的做法最直接——重复出现的上下文内容自动免费。不需要配置，不需要标记。你在API response里看usageMetadata，如果有contextTokenCount小于promptTokenCount，说明命中了缓存。

根据 Google AI官方文档，Gemini的上下文缓存还支持手动创建命名缓存（通过cachedContents API），可以跨会话复用。

什么场景缓存收益最大

客服机器人——同一个系统提示词每天用几千次，收益90%+。

代码审查——代码规范+审查标准缓存，每次只送diff。

文档总结——长文档缓存后多次提问，只对新问题计费。

多轮对话——历史消息缓存，每次只新增最新一轮。

反面教材：如果每天只调用几次API、且每次都是不同的系统提示词，缓存基本没用。

常见问题

Prompt缓存是什么？和普通缓存有什么区别？

Prompt缓存是AI API提供的一种优化机制：当你反复使用相同的系统提示词或长文本前缀时，API会自动缓存这部分内容，后续调用只对新增部分计费。和传统缓存不同，这是API层面的自动优化，不需要你自己搭建缓存服务器。GPT-4o自动启用（前缀超1024 Token），Claude需要手动标记断点，Gemini对重复的上下文免费。

缓存能省多少钱？

视使用场景差异很大。高频重复任务（客服机器人、代码审查、文档总结等）可节省50-90%的输入Token费用。具体来说：GPT-4o缓存Token按50%计费，Claude缓存按10%计费（最激进），Gemini对缓存完全免费。一个每天调用3000次的客服机器人启用缓存后，月成本可从$360降到$90以下。

缓存有失效时间吗？

有。GPT-4o缓存通常在5-10分钟无调用后失效，Claude缓存TTL为5分钟（可每次调用重置），Gemini上下文缓存可自定义TTL（最长24小时）。对于高频调用，缓存会持续被激活几乎不失效。对于低频调用（每小时几次），缓存基本没用——每次都重建。

缓存配好了，省的钱够养一个实习生。觉得有用的话分享给也在烧API预算的同事吧。