从KV Cache到Prompt Cache的应用

特性	MHA (Llama-1)	MQA (Falcon)	GQA (Llama-3)	MLA (DeepSeek-V3)
KV头数量	等于Query头数 ($H$)	1	分组数 ($G$, 如8)	虚拟/动态生成
显存占用	极高 (100%)	极低 (~1-2%)	中等 (~12-25%)	极致压缩 (5-10%)
模型性能	基准 (高)	有损	接近无损	无损甚至更优
推理速度	慢 (受限于带宽)	极快	快	极快
RoPE兼容性	原生支持	原生支持	原生支持	需解耦设计

厂商	机制类型	最小Token限制	存储介质推测	TTL (生存时间)	写入成本 (Write)	命中成本 (Read)	存储费用
DeepSeek	隐式 (自动)	无/低	SSD/磁盘	长 (小时/天)	1.0x (原价)	~0.05x ($0.014)	免费
Anthropic	显式 (断点)	1024	显存 (HBM)	5分钟 (刷新)	1.25x (溢价)	0.10x (一折)	包含在写入溢价中
Google	显式 + 隐式	1024/2048	TPU HBM	1小时 (显式, 可续)	1.0x	~0.25x	按小时收费 (显式)
OpenAI	隐式 (自动)	1024	显存 (HBM)	动态 (短)	1.0x	0.50x (五折)	免费
Alibaba	显式 + 隐式	256/1024	显存	5分钟/动态	1.25x (显式)	0.10x - 0.20x	免费

- - Shadow Walker 松烟阁

YouTube 从工程师的视角来观察，随着Scaling Law失效问题被更多的人提起，我越来越认同LLM正在逐渐进入「精打细算，收个果实的平庸时代」. Andrew Ng在他的感恩节给读者的来信中提到，AI可能存在泡沫但是一定不是在AI应用开发：. AI 应用层：投资不足. AI 推理基础设施：仍需大量投资.

Guava Cache是一个全内存的本地缓存实现，它提供了线程安全的实现机制. 整体上来说Guava cache 是本地缓存的不二之选，简单易用，性能好. 　　 Guava Cache有两种创建方式：. 　　通过这两种方法创建的cache，和通常用map来缓存的做法比，不同在于，这两种方法都实现了一种逻辑——从缓存中取key X的值，如果该值已经缓存过了，则返回缓存中的值，如果没有缓存过，可以通过某个方法来获取这个值.

Java Cache系列之Guava Cache

- - BlogJava-首页技术区

然而作为工具库中的一部分，我们自然不能期待Guava对Cache有比较完善的实现. 因而Guava中的Cache只能用于一些把Cache作为一种辅助设计的项目或者在项目的前期为了实现简单而引入. 在Guava CacheBuilder的注释中给定Guava Cache以下的需求：. 对于这样的需求，如果要我们自己来实现，我们应该怎么设计.

巧用query cache

- - OurMySQL

收到一用户反馈其应用日志中狂报错误，获取连接超时：. 同时应用报错超出了数据库的最大连接数：max connections：. 这种情况很有可能是有慢sql占用了连接池中的连接没有释放，导致后续进来的请求迟迟获取不到连接池中的连接，导致请求报错，登录数据库排查发现如下sql出现执行非常的慢：.

Nginx+KV db进行AB灰度测试

- - IT技术博客大学习

周6参加华东运维大会，听了人家淘宝用nginx的一些场景，其中AB的灰度测试可能适用场景会比较普遍，当然大会上，并没有详细讨论实现. 大概需求是：网站类业务在更新new feature时，并不想让全量用户看到，可以针对地区性用户开放此feature. 大概构思了一个方式，使用 nginx+redis/memcache+IP库实现，简单的流程图如下：.

基于lucene的内嵌式kv存储

- - 开源软件 - ITeye博客

诸多业务场景下，都有使用kv型式存储数据供快速查询的需求. 正常的做法有使用HashMap存入内存，或者存入外部的nosql KV数据库/缓存. 使用HashMap做KV存储，速度快，但是如果数据量达到百万及至千万级时，HashMap必将占用大量的java堆内存，给应用带来极大的内存回收压力. 外部kv存储，以堆外（offHeap）存储的方式让我们的应用免于内存回收之忧，但其查询性能往往低于内存map.

滴滴从KV存储到NewSQL实战

- - DockOne.io

【编者的话】本文讲诉滴滴在分布式NoSQL存储Fusion之上构建NewSQL的实践之路. 详细描述Fusion-NewSQL的特性，应用场景，设计方案. Fusion-NewSQL是由滴滴自研的在分布式KV存储基础上构建的NewSQL存储系统. Fusion-NewSQ兼容了MySQL协议，支持二级索引功能，提供超大规模数据持久化存储和高性能读写.

Cache-control使用Cache-control:private学习笔记

- - Web前端 - ITeye博客

网页缓存由 HTTP消息头中的Cache-control控制，常见取值有private、no-cache、max-age、must- revalidate等，默认为private. 其作用根据不同的重新浏览方式，分为以下几种情况：. 值为private、no-cache、must-revalidate，那么打开新窗口访问时都会重新访问服务器.

MySQL Query Cache 小结

- Eneri - Sky.Jian 朝阳的天空

最近经常有人问我 MySQL Query Cache 相关的问题，就整理一点 MySQL Query Cache 的内容，以供参考. 顾名思义，MySQL Query Cache 就是用来缓存和 Query 相关的数据的. 具体来说，Query Cache 缓存了我们客户端提交给 MySQL 的 SELECT 语句以及该语句的结果集.

从free到page cache

- xiao - 博客园-MrDB's 技术随笔

我们经常用free查看服务器的内存使用情况，而free中的输出却有些让人困惑，如下：. 先看看各个数字的意义以及如何计算得到：. free命令输出的第二行(Mem)：这行分别显示了物理内存的总量(total)、已使用的 (used)、空闲的(free)、共享的(shared)、buffer(buffer大小)、 cache(cache的大小)的内存.

从KV Cache到Prompt Cache的应用

引子

1. 大模型推理的物理瓶颈：透视KV Cache

1.1 Transformer解码的自回归特性

1.2 显存占用的数学推导

1.3 内存墙与带宽瓶颈

2. 注意力机制的架构演进：从MHA到MLA

2.1 多头注意力（MHA）：昂贵的基准

2.2 多查询注意力（MQA）：激进的压缩

2.3 分组查询注意力（GQA）：中庸之道的胜利

2.4 多头潜在注意力（MLA）：DeepSeek的架构革命

2.4.1 低秩矩阵压缩（Low-Rank Compression）原理

2.4.2 解耦旋转位置编码（Decoupled RoPE）

3. 系统级显存管理与优化：从分页到流式

3.1 显存碎片化与PagedAttention (vLLM)

3.1.1 PagedAttention的原理

3.2 动态前缀复用与RadixAttention (SGLang)

3.2.1 Radix Tree（基数树）结构

3.2.2 自动复用机制

3.3 无限流式生成与StreamingLLM

3.3.1 注意力汇聚（Attention Sink）现象

3.3.2 StreamingLLM机制

4. 极致压缩：KV Cache量化技术

4.1 精度格式的演变

4.2 激进量化：INT4与非均匀分布挑战

4.2.1 异常值（Outliers）问题

5. 各大厂商Prompt Cache支持情况深度评测

5.1 DeepSeek：磁盘缓存与价格屠夫

5.2 Google Gemini：TPU加持下的灵活双模

5.3 Anthropic Claude：极速流转的显存租赁

5.4 OpenAI：保守的黑盒策略

5.5 阿里云 Qwen (通义千问)：混合模式

5.6 厂商对比汇总表

5.7 成本情景模拟：法律文档分析

6. 语义缓存与应用层优化

6.1 语义缓存的原理

6.2 开源工具：GPTCache

7. Prompt Cache在X-Sec中的应用

7.1 Prompt Cache

7.2 Semantic Cache

7. 总结

References

相关 [kv cache prompt] 推荐：

相关文章

订阅