API 网关的缓存策略解析：全面指南与实施方案 | API 网关专栏 | 支流科技

核心要点

战略缓存影响：在 API 网关级别实施智能缓存可以将后端负载降低 60-90%，将响应时间从数百毫秒减少到个位数毫秒，并在改善用户体验的同时显著降低基础设施成本。
多层架构：有效的缓存需要分层方法，结合网关级缓存用于共享资源、边缘缓存用于地理分布、应用级缓存用于复杂聚合，每层都具有适当的生存时间（TTL）值。
失效复杂性：缓存中最大的挑战不是存储而是失效——知道何时使缓存数据过期。成功的策略采用基于 TTL 的过期、事件驱动的失效、带有语义版本控制的缓存键和条件请求头（ETag、Last-Modified）。
缓存旁路模式卓越：API 网关在缓存旁路模式中表现出色，在缓存命中时透明地提供缓存响应，同时将未命中转发到后端，所有这些都不需要后端服务修改或了解缓存逻辑。

什么是 API 网关缓存？

在现代 API 架构中，API 网关缓存代表一种性能优化技术，网关存储后端响应的副本，并直接向后续请求提供它们，而无需调用上游服务。这从根本上将网关从简单的路由中介转变为智能内容交付层，保护后端免受冗余负载，同时加速响应时间。

考虑一个实际场景：天气 API 端点 /current-weather?city=London 返回的数据实际上每 10-15 分钟才会更改一次。没有缓存时，每分钟数千个请求中的每一个都会命中后端服务，后端服务必须查询数据库、格式化响应并传输数据——消耗 CPU、内存和数据库连接。在 API 网关级别启用缓存后，第一个请求填充缓存，后续请求直接从网关的内存接收即时响应，将延迟从 200 毫秒降至 2 毫秒，后端负载降至接近零。

网关级缓存的美妙之处在于其透明性。后端服务不需要修改——它们完全不知道其响应正在被缓存。网关拦截响应，根据定义的策略存储它们，并在适当时提供缓存副本。这种关注点分离使平台团队能够实施复杂的缓存策略，而无需协调数十个微服务的更改。

1sequenceDiagram
2    participant Client as 客户端
3    participant Gateway as 网关
4    participant Cache as 缓存
5    participant Backend as 后端
6
7    Note over Client,Backend: 第一个请求（缓存未命中）
8    Client->>Gateway: GET /weather?city=London
9    Gateway->>Cache: 检查缓存
10    Cache-->>Gateway: 未命中
11    Gateway->>Backend: 转发请求
12    Backend-->>Gateway: 响应 (200ms)
13    Gateway->>Cache: 存储响应 (TTL: 600s)
14    Gateway-->>Client: 响应（总计 202ms）
15
16    Note over Client,Backend: 后续请求（缓存命中）
17    Client->>Gateway: GET /weather?city=London
18    Gateway->>Cache: 检查缓存
19    Cache-->>Gateway: 命中 - 返回缓存响应
20    Gateway-->>Client: 响应（总计 2ms）

对于 API 管理平台和高流量应用，缓存不是可选的——它是使系统能够经济地扩展，同时提供用户所需的低延迟响应的基本基础设施。

为什么在 API 网关级别实施缓存？

决定在网关层而不是在单个服务或客户端应用中实施缓存，可提供独特的架构和运营优势。

集中式缓存管理

在 50 个微服务中实施缓存意味着编写和维护 50 个独立的缓存实现，每个实现在逻辑、配置和失效策略方面都可能存在不一致。网关级缓存将这种复杂性集中到一个可管理的系统中。平台团队可以定义一次缓存策略，并在所有 API 中统一应用它们，确保一致的行为和简化的故障排除。

后端服务保护

在流量峰值期间——产品发布、病毒式社交媒体帖子或恶意 DDoS 攻击——后端服务可能被请求量压垮。正确配置的缓存充当保护屏障，在不涉及后端的情况下吸收绝大多数请求。实际数据显示，对于读取密集型 API，70-85% 的缓存命中率是可以实现的，转化为相同幅度的后端负载降低。

行业示例：在闪购期间，一个使用 API7 企业版的电子商务平台每秒为产品目录数据提供 100,000 个请求。他们的网关缓存吸收了其中 88% 的请求，这意味着他们的后端库存服务仅处理 12,000 RPS——完全在容量范围内。如果没有缓存，后端将在负载下崩溃，在其最关键的创收事件期间导致完全服务中断。

成本优化

可以从缓存提供的每个请求都是不消耗后端计算资源、数据库连接或第三方 API 配额的请求。对于在基于使用量定价的云基础设施上运行的组织，这直接转化为成本节约。一家每月处理 10 亿个 API 请求的公司可能为后端计算每百万请求支付 0.50 美元。如果 80% 可以从缓存提供，那就是每月节省 400 美元——每年 4,800 美元——仅来自计算，不包括数据库和带宽节省。

跨地理边界减少延迟

对于全球分布式应用，出于数据一致性或监管原因，后端服务可能集中在单个区域。位于世界另一端的用户由于物理距离而体验到高延迟。通过在地理分布式网关实例上缓存响应，你可以从靠近用户的边缘位置提供缓存内容，显著减少延迟，而无需复制复杂的后端基础设施。

简化客户端逻辑

当在网关实施缓存时，客户端应用（移动应用、Web 前端、第三方集成）可以保持简单。它们不需要实施自己的缓存逻辑、管理缓存失效或处理跨设备的缓存同步。网关提供了所有客户端都可以信任的一致、权威的缓存视图。

如何设计和实施有效的 API 网关缓存策略

从概念到实施需要跨多个维度的系统规划：缓存什么、缓存多长时间、如何使陈旧数据失效以及如何优雅地处理缓存失败。

步骤 1：识别适合缓存的 API 端点

并非所有 API 都从缓存中平等受益。将你的努力集中在具有以下特征的端点上：

高请求量、低变化频率：产品目录、配置数据、地理位置信息和静态内容是理想的候选者。提供实时股票价格或实时位置跟踪的 API 则不是。

读取密集型操作：GET 请求主导缓存机会。POST、PUT、DELETE 操作通常不应缓存，因为它们代表状态更改操作。

公共可访问数据：对所有用户（或大型用户群）相同的信息实现更高的缓存命中率，而不是高度个性化的响应。

分类框架：

API 类型	缓存适用性	典型 TTL	示例
静态内容	优秀	1 小时 - 1 天	API 文档、图像
参考数据	优秀	15 分钟 - 1 小时	产品目录、汇率
聚合指标	良好	1 分钟 - 15 分钟	仪表板统计、热门话题
用户特定数据	一般	30 秒 - 5 分钟	个性化推荐
实时数据	差	不推荐	实时价格、位置跟踪
状态更改操作	不适用	永不缓存	POST、PUT、DELETE 请求

步骤 2：设计智能缓存键

缓存键确定何时将两个请求视为"相同"并可以共享缓存响应。设计不当的键会导致低命中率或不正确的缓存提供。

要考虑的缓存键组件：

请求路径：/api/products 与 /api/users 显然不同
查询参数：/search?q=laptop 与 /search?q=phone 需要单独的缓存条目
头部：Accept-Language: en 与 Accept-Language: zh 可能需要不同的缓存响应
用户上下文：有时用户 ID 或角色应该是个性化响应的键的一部分
API 版本：确保不同的 API 版本维护单独的缓存条目

缓存键设计示例：

1# Apache APISIX 缓存配置
2cache_key:
3  - "$host"                    # api.example.com
4  - "$request_uri"             # /api/products?category=electronics
5  - "$http_accept_language"    # 国际化响应的 en-US
6  - "$http_authorization"      # 为用户特定缓存包含

最佳实践：从确保正确性的保守缓存键开始，然后优化以提高命中率。提供不正确的缓存数据比完全不缓存更糟糕。

步骤 3：确定适当的 TTL 值

生存时间（TTL）表示缓存响应保持有效的持续时间。设置 TTL 值需要平衡性能（较长的 TTL）与数据新鲜度（较短的 TTL）。

TTL 决策框架：

1graph TD
2    A[分析端点数据] --> B{数据变化频率}
3    B -->|很少变化<br/>每小时或更少| C[长 TTL：30-60 分钟]
4    B -->|适度变化<br/>每几分钟| D[中等 TTL：5-15 分钟]
5    B -->|频繁变化<br/>秒到分钟| E[短 TTL：30-120 秒]
6    B -->|持续变化<br/>实时| F[不缓存或<br/>非常短的 TTL：<10 秒]
7
8    C --> G{陈旧数据影响}
9    D --> G
10    E --> G
11
12    G -->|低影响| H[使用 TTL 的上限]
13    G -->|高影响| I[使用 TTL 的下限]

动态 TTL 策略：一些高级网关允许基于响应特征的条件 TTL。例如，错误响应（5xx 状态码）可能具有 10 秒的 TTL 以允许快速恢复，而成功响应缓存 5 分钟。

步骤 4：实施缓存失效机制

缓存失效是出了名的困难——Phil Karlton 的名言"计算机科学中只有两件难事：缓存失效和命名"仍然相关。你需要策略来确保缓存数据不会变得危险地陈旧。

基于时间的过期（TTL）：最简单的方法——缓存条目在其 TTL 后自动过期。对许多用例来说足够，但缺乏精确性。

事件驱动的失效：当后端数据更改时，发出一个事件来触发网关的缓存失效。这需要后端服务与网关之间的集成，但提供了最精确的失效。

缓存绕过示例：

1# Apache APISIX 的 proxy-cache 插件不提供直接的缓存清除 API。
2# 缓存失效通过 TTL 过期或配置 cache_bypass 条件（例如特定请求头或查询参数）来处理：
3
4# 示例：使用请求头绕过此请求的缓存
5curl -X GET "http://gateway:9080/api/products" \
6  -H "Cache-Control: no-cache"

缓存标签和组失效：将缓存条目与语义标签（例如，"product-catalog"、"user-123"、"region-eu"）关联。更新产品时，使标记有该产品的所有缓存条目失效，而不是手动跟踪每个受影响的 URL。

条件请求（ETag 和 Last-Modified）：在缓存响应中包含 ETag 或 Last-Modified 头。客户端可以发送条件请求（If-None-Match、If-Modified-Since），允许网关通过轻量级后端检查验证缓存新鲜度，在数据未更改时返回 304 Not Modified。

步骤 5：配置缓存存储和分发

存储后端选项：

内存（本地）：最快但受网关实例内存限制。每个网关实例都有独立缓存——适用于小型缓存或当跨实例的最终一致性可以接受时。
共享缓存（Redis、Memcached）：由所有网关实例共享的集中式缓存。延迟高于本地内存（5-15 毫秒），但确保一致性并支持更大的缓存大小。
混合方法：使用本地内存作为 L1 缓存，共享 Redis 作为 L2 缓存——结合速度与一致性。

Apache APISIX 配置示例：

1# 本地内存缓存区
2plugins:
3  proxy-cache:
4    cache_zone: memory_cache
5    cache_ttl: 300
6    cache_method:
7      - GET
8      - HEAD

1# 共享磁盘缓存区（用于跨实例的一致性）
2plugins:
3  proxy-cache:
4    cache_zone: shared_disk_cache
5    cache_ttl: 600

步骤 6：优雅地处理缓存失败

缓存系统可能失败——内存耗尽、Redis 不可用或驱逐策略。你的网关必须处理这些场景而不会出现级联故障。

回退行为：如果缓存读取失败，将其视为缓存未命中并将请求转发到后端。永远不要因为缓存不可用而使整个请求失败。

缓存预热：在部署新的网关实例或清除缓存后，在引导用户流量之前主动预热缓存，请求热门端点。这可以防止"惊群"场景，即数千个同时的缓存未命中压垮后端。

监控和警报：跟踪缓存命中率、驱逐率和未命中延迟。命中率的突然下降可能表明配置错误或需要调整缓存策略的流量模式变化。

实现最大性能的高级缓存技术

一旦基本缓存运行，考虑这些高级模式以提取额外的性能收益。

陈旧同时重新验证

即使在 TTL 过期后也提供缓存内容，同时在后台异步刷新缓存。用户收到即时响应（可能略微陈旧），而缓存为后续请求更新。这种技术消除了缓存未命中延迟峰值。

1# 在重新验证时提供陈旧内容最多 60 秒
2cache_control: "max-age=300, stale-while-revalidate=60"

请求合并（聚合）

当多个客户端在缓存未命中期间同时请求相同资源时，将它们合并为单个后端请求。一旦后端响应，所有等待的客户端都会收到响应，防止"惊群"问题。

基于使用模式的自适应 TTL

使用机器学习或启发式方法根据请求模式自动调整 TTL 值。频繁访问的资源可能获得更长的 TTL，而很少访问的项目使用较短的 TTL 以避免内存浪费。

部分响应缓存

对于返回大型数据集的 API，缓存完整数据集，但允许客户端通过查询参数请求子集。网关可以从缓存的完整数据集提供部分响应，避免分页或过滤操作的后端调用。

负面缓存

使用短 TTL（10-30 秒）缓存错误响应（404 Not Found、403 Forbidden）。这保护后端免受对不存在资源的重复请求——在机器人攻击或配置错误的客户端期间很常见。

Apache APISIX 和 API7 企业版中的缓存策略实施

让我们使用行业领先的 API 网关解决方案检查具体的实施模式。

基本响应缓存配置

1# 带缓存的 APISIX 路由配置
2routes:
3  - uri: /api/products/*
4    upstream_id: product-service
5    plugins:
6      proxy-cache:
7        cache_zone: memory_cache
8        cache_ttl: 600                    # 10 分钟
9        cache_key:
10          - "$host"
11          - "$request_uri"
12        cache_bypass:
13          - "$http_cache_bypass"          # 允许客户端强制缓存未命中
14        cache_method:
15          - GET
16          - HEAD
17        cache_http_status:                # 仅缓存成功响应
18          - 200
19          - 301
20          - 404
21        no_cache:
22          - "$arg_nocache"                # 如果 ?nocache=1 则不缓存

智能缓存变化

不同的客户端可能需要相同资源的不同表示——JSON 与 XML、压缩与未压缩、英语与中文。Vary 头告诉网关为不同的头值维护单独的缓存条目。

1# 缓存因 Accept 和 Accept-Language 头而异
2plugins:
3  proxy-cache:
4    cache_key:
5      - "$host"
6      - "$request_uri"
7      - "$http_accept"
8      - "$http_accept_language"

缓存监控和可观测性

1# 将缓存指标导出到 Prometheus
2plugins:
3  prometheus:
4    enable_export_cache_metrics: true
5
6# 暴露的指标：
7# - apisix_cache_hit_total
8# - apisix_cache_miss_total
9# - apisix_cache_hit_ratio
10# - apisix_cache_size_bytes

跟踪这些指标以了解缓存有效性：

命中率：从缓存提供的请求百分比。读取密集型 API 目标为 70-85%。
未命中率：需要后端调用的请求。高未命中率表明缓存键设计不佳或 TTL 不合适。
驱逐率：由于内存压力而删除缓存条目的频率。高驱逐表明缓存大小不足。
延迟比较：缓存命中与未命中的平均响应时间。应显示 10-50 倍的改进。

常见缓存挑战和解决方案

挑战 1：缓存雪崩（惊群）

问题：当热门缓存条目过期时，多个同时请求竞相从后端获取它，造成负载峰值。

解决方案：实施请求合并或缓存锁定。当第一个请求检测到缓存未命中时，它获取锁并从后端获取。后续请求等待锁释放并接收新缓存的响应。

挑战 2：缓存污染

问题：不受欢迎或一次性的请求填充缓存，驱逐有价值的频繁访问数据。

解决方案：实施缓存准入策略。仅缓存在时间窗口内请求了 N 次的资源。使用 LRU（最近最少使用）或 LFU（最不常用）驱逐策略来保留有价值的缓存条目。

挑战 3：跨实例的缓存一致性

问题：在多实例网关部署中，每个实例维护自己的缓存，导致不一致和当请求在实例之间负载均衡时的缓存未命中。

解决方案：使用共享缓存存储（Redis 集群）或接受最终一致性。对于某些用例，最终一致性是可以接受的，并且出于性能原因是首选的。对于关键一致性要求，投资于共享缓存基础设施。

挑战 4：个性化内容缓存

问题：特定于用户的响应具有低缓存命中率，因为每个用户需要唯一的缓存条目。

解决方案：使用片段缓存——将响应的共享部分与个性化元素分开缓存。网关可以从缓存的共享数据加上动态生成的个性化数据组装最终响应，实现部分缓存收益。

测量缓存有效性

通过系统测量验证你的缓存策略提供预期收益。

关键绩效指标

1graph LR
2    A[缓存指标] --> B[命中率]
3    A --> C[响应时间改进]
4    A --> D[后端负载降低]
5    A --> E[成本节约]
6
7    B --> F[目标：70-85%<br/>对于读密集型 API]
8    C --> G[目标：缓存命中快 10-50 倍]
9    D --> H[目标：后端请求减少 60-90%]
10    E --> I[计算：节省的计算 +<br/>数据库 + 带宽成本]

计算示例：

基线：每小时 100 万请求，平均后端延迟 150 毫秒，100% 后端负载
缓存后：80% 命中率，缓存延迟 5 毫秒，后端延迟 150 毫秒
结果：平均延迟 = (0.8 × 5ms) + (0.2 × 150ms) = 34 毫秒（77% 改进）
后端负载：每小时 20 万请求（减少 80%）

A/B 测试缓存策略

将多个缓存配置部署到不同的流量百分比并测量相对性能：

A 组：无缓存（对照组）
B 组：5 分钟 TTL
C 组：15 分钟 TTL，带陈旧同时重新验证

比较各组的 P95 延迟、后端负载和错误率，以确定最佳配置。

与 CDN 和多层缓存的集成

API 网关在集成到全面的多层缓存架构中时最为强大。

第 1 层 - 浏览器/客户端缓存：使用 Cache-Control 头利用客户端缓存 第 2 层 - CDN/边缘缓存：缓存内容的地理分布（Cloudflare、CloudFront） 第 3 层 - API 网关缓存：网关层的集中式缓存 第 4 层 - 应用缓存：后端应用中特定于服务的缓存 第 5 层 - 数据库查询缓存：昂贵查询的数据库级缓存

每一层都有特定的目的并在不同的规模上运行。API 网关（第 3 层）独特地提供了跨服务缓存，具有集中管理，同时对客户端和后端保持透明。

结论

API 网关缓存代表了平台工程师可用的最高投资回报率优化之一。通过在网关层战略性地缓存响应，组织可以同时将 API 响应时间提高一个数量级、将后端基础设施成本降低 60-90%，并保护服务免受流量峰值和 DDoS 攻击——所有这些都通过透明的集中式缓存管理保持系统简单性。

有效缓存的路径需要系统分析 API 流量模式、仔细设计缓存键和 TTL 值、稳健的失效策略以及持续测量缓存有效性。从最高流量的读密集型端点的试点项目开始，严格测量影响，并在建立运营经验时迭代扩展缓存覆盖范围。

像 Apache APISIX 和 API7 企业版这样的现代 API 网关提供了生产就绪的缓存功能，具有实施从简单的基于 TTL 的缓存到请求合并和陈旧同时重新验证等高级模式的灵活性。技术成熟且经过验证——挑战在于将其深思熟虑地应用于你的特定上下文，持续测量结果，并根据真实世界数据完善方法。

在毫秒至关重要且基础设施成本受到审查的时代，API 网关缓存不仅仅是性能优化——它是可扩展、经济高效、高性能 API 平台的基本架构要求。

下一步

准备在 API 基础设施中实施智能缓存？联系 API7 专家了解 Apache APISIX 和 API7 企业版如何通过战略缓存转变你的 API 性能。

关注我们的 LinkedIn 获取有关 API 优化和缓存最佳实践的最新见解！