Claude Prompt Caching 指南：降低重复输入、成本和延迟

Prompt Caching 是让 Claude 重复请求更便宜、更快的实用功能之一。Anthropic 官方文档将它描述为一种复用固定前缀的方法，例如系统指令、工具定义、示例和背景资料，而不用在每次请求里反复发送同一批内容。

这在你的工作流会不断重复同一套上下文时尤其有价值。如果你反复运行同一个 agent、同一套评分标准，或者同一组参考材料，Prompt Caching 可以减少大量无意义的输入 token，而且不会改变最终答案。

Prompt Caching 适合什么场景

Prompt Caching 最适合那些前半段几乎不变的请求：

Anthropic 的功能总览里把 Prompt Caching 和批量处理、引用、文件支持放在一起说明，这本身就很能说明问题：它主要是面向 API 和生产流程的优化能力，而不是给普通聊天用户准备的小技巧。

工作方式其实很直接：

Anthropic 建议按固定顺序组织静态内容：tools、system、messages。系统会自动匹配最长前缀，所以通常不需要到处放缓存断点。

你可以把请求拆成两部分：

例如，一个客服分类 agent 可以把角色指令、升级标准和输出格式放进缓存，而每次只替换工单内容。文档分析流程也可以先缓存参考资料，再针对不同问题反复查询。

Prompt Caching 并不是所有请求都能直接套用的快捷方式。Anthropic 明确提到了一些限制：

还有 TTL 的问题。Anthropic 支持默认的短缓存，以及部分场景下的一小时缓存。如果你要做生产流程，最好在依赖某个模型或缓存时长之前，先确认当前支持范围。

Prompt Caching 在这些场景里通常效果最好：

如果每次请求都完全不同，缓存价值就很有限。系统指令、示例和上下文都变来变去时，能复用的部分很少。

最常见的错误很简单：

只有“稳定内容真的稳定”时，缓存才有意义。提示词本身如果很乱，缓存也只是让混乱变便宜。

如果你发现自己在很多 Claude 请求里反复复制同样的说明、示例或参考材料，那这部分内容大概率就适合缓存。

以上资料检索于 2026年3月29日。功能可用性、模型支持范围和价格细节可能会变化，发布前请以链接中的 Anthropic 官方资料为准。