阿里云百炼平台为 Qwen3.7-Max 模型默认开启隐式缓存,在不增加额外创建成本的情况下,命中缓存后成本仅为输入单价的 20%。默认开启隐式缓存有助于降低开发者的实际调用成本,但隐式缓存命中率是完全不确定的,因此其效果不如显式缓存,开发者可以根据实际场景进行调整。
通义千问团队日前宣布在阿里云百炼平台为旗舰模型 Qwen3.7-Max 默认开启隐式缓存,且该功能无法关闭。在实际使用中,当请求命中隐式缓存时,模型实际调用价格按输入单价的 20% 计算。以当前 Qwen3.7-Max 输入价 12 元/百万 Token 为例,命中缓存后实际价格为 2.4 元/百万 Token。

什么是隐式缓存:
隐式缓存主要适用于追求便捷的通用场景。系统会自动识别请求内容中的公共前缀并进行缓存。当收到新请求时,系统会基于前缀匹配原则检查缓存中是否已存在消息数组内容的公共前缀:若命中,则直接使用缓存结果进行后续推理;若未命中,则按常规流程处理,同时将本次提示词的前缀存入缓存以备后续使用。
需要注意的是,隐式缓存的命中率并不固定,也无法保证 100% 命中。即使两次请求内容完全相同,也可能无法命中缓存——具体是否命中完全由系统内部判断。同时,系统会定期清理长期未使用的缓存数据,清理时间也由系统自动决定,开发者无法干预。
与隐式缓存互斥的是显式缓存。显式缓存首次创建的成本比正常输入高 25%,但其在 5 分钟有效期内命中率可做到 100%,且命中后的调用成本仅为输入单价的 10%。因此,开发者需要仔细分析自己的业务场景与流量特征,判断哪种缓存方式的综合成本更低。
隐式缓存与显式缓存的价格对比:
- 创建缓存成本:隐式缓存创建价格与标准输入价相同;显式缓存创建价格为标准输入价的 125%。
- 命中缓存成本:隐式缓存命中后价格为标准输入价的 20%;显式缓存命中后价格为标准输入价的 10%。
- 最小缓存数量:隐式缓存最小为 256 Tokens;显式缓存最小为 1024 Tokens。
- 缓存生存时间:隐式缓存生存时间由系统动态管理,清理时机不确定;显式缓存有效期为 5 分钟(命中后自动续期)。
- 缓存类型互斥:隐式缓存与显式缓存互斥。若未主动开启显式缓存,系统默认使用隐式缓存。
隐式缓存实践与计费:
隐式缓存的命中逻辑依赖不同请求前缀的重复内容。为提高命中率,建议将可复用的公共内容放在提示词开头,将差异化的动态内容放在结尾——这种排列有助于系统识别公共前缀,从而提升整体命中率、降低调用成本。
此次阿里云百炼平台为 Qwen3.7-Max 默认开启隐式缓存,但阿里云提供的其他模型(包括其他 AI 公司的模型)也已陆续支持隐式缓存,具体价格因模型类型和提供商而异。开发者可以前往百炼控制台切换不同模型查看详细定价。
|