令牌桶 vs 漏桶：如何选择最合适的限流算法

核心要点

限流是 API 的关键控制机制，用于在指定时间范围内调控客户端可发起的请求数量。
其核心 限流含义 在于防止滥用、保护基础设施，并确保所有 API 消费者公平使用。
实施有效的 限流器 对于防范拒绝服务攻击和维持系统稳定性至关重要。
多种 限流算法，如令牌桶和漏桶，提供了管理流量流动的不同方式。
理解并应用限流是构建健壮 API 设计与安全的基础环节。

什么是限流？概念解析

在 API 的世界里，不受控制的访问会导致诸多问题，从系统过载到恶意攻击。这正是限流变得不可或缺之处。那么，什么是限流？ 它是一种策略性机制，用于控制在定义时间段内进出网络或服务的流量量。

基本的 限流含义 指的是强制执行用户或客户端在指定时间窗口内可向 API 发起的最大请求数。例如，一个 API 可能允许用户每分钟发起 100 次请求或每小时 1000 次请求。如果客户端超出此预定义限制，后续请求通常会被阻止或拒绝，直到下一个时间窗口开始。

实施 限流器 的主要目的是多方面的：

安全性： 它通过限制恶意行为者轰炸服务的速率，充当抵御各种攻击（如暴力登录尝试、凭据填充和拒绝服务攻击）的第一道防线。
资源保护： API 消耗服务器资源（CPU、内存、网络带宽、数据库连接）。限流可防止任何单一用户或一小群用户垄断这些资源，确保服务对所有合法用户保持可用和性能良好。
成本控制： 对于资源使用直接转化为成本的云服务，限流可以通过防止过度资源消耗来帮助管理基础设施支出。
公平使用： 它确保所有消费者公平访问 API，防止少数高流量用户降低其他用户的体验。

区分限流和节流很重要。虽然经常互换使用，但节流通常指的是减慢客户端请求的过程（例如，通过引入延迟），而不是完全阻止它们，通常用于管理系统整体负载，而非严格执行硬性限制。相反，限流是关于设定明确的边界。

为何实施限流？控制的重要性

实施限流的必要性直接源于未受保护 API 面临的潜在漏洞和运营挑战：

防范拒绝服务攻击和暴力攻击： 一种常见的攻击向量是用大量请求淹没服务器。没有限流，恶意行为者可以轻易发起 DoS 攻击，使 API 对合法用户不可用。同样，对登录端点的暴力攻击（攻击者尝试大量密码组合）可以通过限制在时间范围内的失败登录尝试次数来缓解。
确保所有 API 消费者的公平使用： 想象一个拥有数百万用户的 API。没有速率限制，单个应用程序或高级用户可能无意（或有意）地消耗不成比例的资源，影响其他所有人的性能和可用性。限流确保资源在整个用户群中公平分配。
保护后端服务免受过载和级联故障： API 通常位于复杂后端系统（包括数据库、微服务和第三方集成）的前端。API 请求的突然激增可能压垮这些后端组件，导致响应缓慢、错误甚至系统完全崩溃。限流充当缓冲区，保护这些关键服务免受洪泛攻击。
通过控制资源消耗来管理基础设施成本： 云提供商根据资源使用情况（例如，CPU 周期、数据传输、数据库查询）收费。不受控制的 API 流量可能导致意外的高基础设施账单。通过限制请求数量，组织可以更好地预测和控制其运营成本。例如，无服务器函数上 10 倍的流量突增，如果没有被速率限制节流，可能会产生巨额费用。

限流算法：如何控制流量

为了有效实施 限流器，会采用各种 限流算法，每种算法都有其适用于不同场景的特性。

令牌桶：
- 机制： 想象一个具有固定容量的“令牌”桶。令牌以恒定速率添加到桶中。每次请求到达时，系统尝试从桶中移除一个令牌。如果有令牌可用，则处理请求并消耗一个令牌。如果桶为空，则拒绝请求。
- 灵活性与突发允许： 令牌桶算法非常灵活。它允许请求突发（最高可达桶的容量），因为当流量低时令牌可以累积。这使其适用于偶尔出现使用高峰的 API。
- 示例： 一个 API 允许每分钟 100 个请求，桶容量为 200 个令牌。令牌以每分钟 100 个的速率添加。如果用户空闲一分钟，他们会累积 100 个令牌，允许他们在下一次突发中发起 200 个请求（100 个新令牌 + 100 个累积令牌）。
```
1graph TD
2    A[传入请求] -->|消耗令牌| B{令牌桶}
3    B -->|令牌可用？| C{处理请求}
4    B -->|无令牌？| D[拒绝请求]
5    subgraph 令牌生成
6        E[令牌生成器] -->|以速率 R 添加令牌| B
7    end
```
漏桶：
- 机制： 想象一个底部有洞的桶，请求（表示为水滴）进入桶中并以恒定、固定的速率“漏出”，无论它们进入的速度多快。如果桶溢出，则丢弃传入的请求。
- 稳定输出速率与排队行为： 此算法平滑请求突发，以稳定速率处理它们。对于到达速度超过处理速度的请求（直到桶的容量），它隐式地充当队列。
- 示例： 一个 API 允许每秒 10 个请求。请求以不同速率到达，但最多以每秒 10 个的速率处理。如果一秒内到达 20 个请求，则立即处理 10 个，接下来的 10 个要么排队（如果桶有容量）要么丢弃。
```
1graph TD
2    A[传入请求] -->|添加到桶| B{漏桶}
3    B -->|桶满？| D[拒绝请求]
4    B -->|以速率 R 漏出| C{处理请求}
```
固定窗口计数器： 最简单的方法。在固定时间窗口（例如，1 分钟）内对请求进行计数。一旦计数达到限制，直到下一个窗口开始前不再允许请求。一个缺点是用户可以在一个窗口的最后时刻发起一波请求，并在下一个窗口开始时立即发起另一波，实际上使速率翻倍。
滑动窗口日志： 此算法为窗口内发出的每个请求保留一个时间戳。当新请求到达时，它会移除早于窗口的时间戳，如果剩余时间戳数量超过限制，则拒绝请求。这非常精确，但对于高流量 API 可能占用大量内存。
滑动窗口计数器： 一种混合方法，结合了固定窗口的简单性和滑动窗口日志的准确性。它将时间划分为更小的窗口，并跨窗口计算加权平均值以确定当前速率，提供比固定窗口更平滑的执行。

选择合适的 限流算法 取决于突发期间的期望行为、内存限制以及所需的公平性水平等因素。

实施限流：最佳实践与考量

有效的限流实施需要仔细规划和执行：

在何处实施限流器：
- API 网关： 这通常是首选位置。API 网关（例如，AWS API Gateway、Nginx、Kong）位于后端服务之前，可以在请求到达应用程序逻辑之前应用速率限制，保护整个基础设施。
- 应用层： 你可以直接在应用程序代码中实现限流。这提供了细粒度控制（例如，每个用户角色或端点的不同限制），但需要更多的开发工作，并且可能消耗应用程序资源。
- 负载均衡器/Web 服务器： 可以在此层配置基本限流，但通常缺乏复杂规则的精细度。
定义适当的速率限制：
- 按用户/客户端： 限制通常应用于每个经过身份验证的用户或每个 API 密钥。
- 按 IP 地址： 对于未经身份验证的请求，这是一种后备方案，但由于 NAT 和代理服务器，可靠性较低。
- 按端点： 不同的端点可能具有不同的资源消耗特征，因此通常建议为每个端点设置不同的限制（例如，“读取”端点可能比“写入”端点具有更高的限制）。
- 测试与迭代： 根据预期使用情况和资源容量，从合理的限制开始。持续监控 API 使用情况，并根据需要调整限制以优化性能并防范滥用。像 Google Cloud 的 API Gateway 这样的工具允许灵活配置 QPS 限制。
处理超出限制的策略：
- HTTP 429 请求过多： 这是指示用户在给定时间内发送了过多请求的标准 HTTP 状态码。
- Retry-After 头部： 在 429 响应中包含一个 Retry-After HTTP 头部，指定客户端在发起另一个请求之前应等待多长时间。这有助于客户端实现退避策略。
- 清晰的错误息： 提供信息丰富的错误消息，解释请求被拒绝的原因以及客户端可以采取的措施。
- 优雅降级： 对于关键服务，如果合适，考虑一种优雅降级机制（例如，提供陈旧数据或简化响应），而不是直接拒绝。
监控与调整限流配置： 速率限制不是静态的。持续监控 API 流量，识别滥用模式或意外峰值，并利用这些数据微调你的速率限制。来自 API 网关或自定义监控解决方案的分析数据在此至关重要。

结论：通过限流实现安全与扩展

总之，理解 什么是限流 及其实现不仅仅是一个技术细节，而是构建健壮、安全和可扩展 API 生态系统的关键组成部分。限流含义 超越了简单地阻止请求；它涵盖了基础设施的战略保护、公平访问的保证以及恶意活动的预防。

通过仔细选择和实施适当的 限流算法 并遵循最佳实践，组织可以有效地管理 API 流量，保护其后端系统免受过载影响，并为所有 API 消费者提供可靠的体验。在数字服务日益依赖 API 的世界中，对有效限流策略的持续需求对于确保稳定性和持续增长仍然至关重要。