API 101 专栏 · 第 34

处理 API 分页:获取大数据集

2025年06月19日
处理 API 分页:获取大数据集

API 分页简介

在现代 Web 应用程序和微服务的领域中,数据为王。从社交媒体的点赞到电子邮件、天气报告以及可穿戴设备数据,每秒钟都会产生和积累海量的信息。在单次 API 调用中直接获取数百万条记录无异于试图用消防水龙带喝水——这对客户端和服务器来说都难以承受,会导致性能瓶颈、超时和内存问题。这正是 API 分页发挥作用的地方。

API 分页 是一种将大型数据响应分解为更小、更易于管理的块或“页”的基本技术。API 不会一次性发送所有记录,而是发送数据的子集,以及允许客户端请求后续子集的信息。这不仅显著提高了 API 的响应能力和可扩展性,还提供了更流畅的用户体验。想象一个包含数十亿条帖子的社交媒体信息流;如果没有分页,加载整个信息流将是不可能的。分页确保每次只加载数量可控的帖子,并可根据需要提供加载更多帖子的选项。

常见分页策略

选择正确的分页策略对于优化 API 性能和可用性至关重要。虽然存在各种方法,但最普遍的是基于偏移量和基于游标的分页。

1. 基于偏移量的分页(页码分页)

基于偏移量的分页可以说是最直接、最容易理解的方法。它依赖于两个主要参数:limit(或 pageSize)和 offset(或 page)。

  • limit:指定单次响应中返回的最大记录数。
  • offset:指示要检索的记录的起点(偏离数据集开头的偏移量)。

工作原理:

要检索第一页,你可以设置 offset=0limit=10。对于第二页,设置 offset=10limit=10,以此类推。

示例请求:

GET /api/products?limit=10&offset=0(获取前 10 个产品) GET /api/products?limit=10&offset=10(获取接下来的 10 个产品)

优点:

  • 简单性: 在客户端和服务器端都很容易实现。
  • 熟悉度: 大多数开发人员都熟悉这种方法,使其易于集成。
  • 直接访问: 如果已知页码,则允许直接访问任何特定的“页”。

缺点:

  • 深度分页的性能问题: 随着 offset 的增加,数据库可能仍然需要扫描到该偏移量之前的所有记录,导致非常大的数据集和深度分页请求的性能下降。例如,SELECT * FROM products LIMIT 10 OFFSET 1000000; 可能比 SELECT * FROM products LIMIT 10 OFFSET 0; 慢得多。
  • 动态数据的不一致性: 如果在页面请求之间添加了新记录或删除了现有记录,则结果可能会不一致。你可能会遗漏记录或看到重复项。想象一下获取按创建日期排序的产品,当你在第 5 页时,添加了新产品。后续页面上的记录可能会发生偏移,从而导致不完整或不准确的视图。
1graph TD
2    A[客户端请求第 1 页] --> B{API 服务器};
3    B -- limit=10, offset=0 --> C[数据库查询];
4    C -- 返回记录 1-10 --> B;
5    B -- 发送记录 1-10 给客户端 --> A;
6    A[客户端请求第 2 页] --> D{API 服务器};
7    D -- limit=10, offset=10 --> E[数据库查询];
8    E -- 返回记录 11-20 --> D;
9    D -- 发送记录 11-20 给客户端 --> A;

图 1:基于偏移量的分页流程

2. 基于游标的分页(延续令牌分页)

基于游标的分页为大型动态数据集提供了一种更强大、更高效的解决方案,特别是在处理实时数据或要求跨页面严格一致性时。它不使用数字偏移量,而是使用一个“游标”(通常是一个不透明的字符串),指向在上一个请求中检索到的最后一条记录。

工作原理:

API 在其响应中返回一个 next_cursor(或类似字段)。然后,客户端在后续请求中使用此 next_cursor 来获取下一组记录。

示例请求:

GET /api/products?limit=10(初始请求,返回 next_cursor=eyJpZCI6MTIzNDV9GET /api/products?limit=10&cursor=eyJpZCI6MTIzNDV9(后续请求)

游标通常对有关最后一项的信息进行编码,例如其 ID 或时间戳,服务器使用这些信息来有效地定位下一批数据。例如,如果记录按 ID 排序,游标可能包含上一页最后一项的 ID:SELECT * FROM products WHERE id > [last_id_from_cursor] ORDER BY id ASC LIMIT 10;

优点:

  • 性能: 对于大型数据集,性能显著提高,因为它避免了 OFFSET 的开销。数据库可以直接寻址到游标位置。
  • 一致性: 对请求之间的数据更改(添加/删除)具有更强的适应性,因为它始终检索特定点 之后 的记录。
  • 可扩展性: 更适合具有快速变化数据的高可扩展 API。

缺点:

  • 无法直接访问页面: 无法直接跳转到特定的“页码”,因为没有固有的页面概念。你只能向前或向后移动(如果游标支持)。
  • 复杂性: 由于需要管理和编码/解码游标值,在客户端和服务器端实现起来可能稍微复杂一些。
  • 依赖排序: 通常依赖于底层数据的一致排序顺序。
1graph TD
2    A[客户端初始请求] --> B{API 服务器};
3    B -- limit=10 --> C[数据库查询];
4    C -- 返回记录 1-10 + next_cursor_X --> B;
5    B -- 发送记录 1-10 + next_cursor_X 给客户端 --> A;
6    A[客户端使用 next_cursor_X 请求] --> D{API 服务器};
7    D -- limit=10, cursor=next_cursor_X --> E[从游标点进行数据库查询];
8    E -- 返回记录 11-20 + next_cursor_Y --> D;
9    D -- 发送记录 11-20 + next_cursor_Y 给客户端 --> A;

图 2:基于游标的分页流程

3. 键集分页

键集分页是基于游标的分页的一种特殊形式,它利用一组有序的唯一键(通常是主键或唯一索引列)来定义下一页的起点。在获取按多列排序的记录时,它特别高效。例如,SELECT * FROM orders WHERE (order_date, order_id) > ('2023-01-01', 12345) ORDER BY order_date, order_id LIMIT 10;

使用 API 网关实现分页

API 网关在管理和增强 API 交互(包括分页)方面发挥着关键作用。API 网关充当所有 API 调用的单一入口点,使你能够在请求到达后端服务之前应用策略、转换和路由规则。这在从客户端抽象分页复杂性以及集中分页逻辑方面非常强大。例如,Azure API Management 是一个混合的、多云的管理平台,可用于各种 API 管理场景,包括网关功能。

1. 利用 API 网关特性进行分页

API 网关可以通过以下方式显著帮助处理分页:

  • 基于策略的转换: 你可以在 API 网关内定义策略,将客户端请求的分页参数转换为后端友好的格式。例如,客户端可能发送 page=2&size=10,网关在转发给后端之前可以将其转换为 offset=10&limit=10。这允许你向客户端公开一致的分页接口,即使你的后端服务使用不同的分页方案。
  • 响应重写: 网关还可以重写后端响应以注入分页元数据。如果后端未显式返回 next_cursortotal_pages,网关可以根据接收到的数据和原始请求计算并将此信息添加到响应主体或标头中。
  • 缓存: 对于静态或不常更新的分页数据,API 网关可以缓存页面,从而减少后端服务的负载并加快对同一页面的后续请求的响应时间。
  • 速率限制和配额: 分页有助于管理 API 消耗。API 网关可以强制执行每页请求的速率限制,防止滥用并确保公平使用。
  • 集中式日志记录和监控: 可以集中记录和监控通过网关的所有分页请求,从而深入了解 API 使用模式和性能。

2. 与分页相关的 API 网关配置最佳实践

  • 标准化分页参数: 即使你的后端服务各不相同,也要努力通过 API 网关公开一组一致的分页参数。这简化了客户端开发。
  • 验证输入: 实施策略以验证分页参数(例如,可接受范围内的 limit),以防止恶意或格式错误的请求。
  • 处理默认值: 设置默认的 limitoffset/cursor 值,以确保在客户端未提供它们时的优雅行为。
  • 考虑总数(谨慎使用): 虽然提供 totalCount 对 UI 很有帮助,但对于非常大的数据集来说,计算它可能会很昂贵。如果需要,请考虑缓存总数或仅在第一页提供它。
  • 保护游标值: 如果使用基于游标的分页,请确保游标值是不透明且安全编码的,以防止客户端篡改它们。

优化分页性能

除了选择正确的策略之外,几种优化技术可以进一步提高分页 API 的性能。

1. 高效获取数据的策略

  • 为数据建立索引: 这可能是最关键的一步。确保在分页查询中用于排序和过滤的列(例如 idtimestamporder_date)在数据库中被正确索引。如果没有索引,数据库将执行全表扫描,导致分页失效。
  • 限制 SELECT * 避免在数据库查询中使用 SELECT *。相反,仅选择客户端真正需要的列。这减少了数据传输大小和数据库处理量。
  • 避免在分页中使用子查询: 分页子句中复杂的子查询或连接会显著降低性能。尽可能简化你的查询。
  • 物化视图: 对于频繁访问但更新频率较低的大型数据集,考虑使用物化视图来预聚合或预排序数据,从而使分页查询更快。
  • 连接池: 使用连接池高效地管理数据库连接,以减少每个请求的开销。

2. 数据库索引和查询优化的注意事项

使用基于偏移量的分页时,OFFSET 子句对性能来说尤其成问题。考虑以下示例:

1SELECT * FROM orders ORDER BY created_at DESC LIMIT 10 OFFSET 100000;

此查询告诉数据库找到 100,010 条记录,然后丢弃前 100,000 条,然后再返回接下来的 10 条。数据库仍然需要通读这 100,000 条记录。

对于基于游标的分页,在游标列(例如 idcreated_at)上建立索引至关重要。

1SELECT * FROM orders WHERE id > [last_id] ORDER BY id ASC LIMIT 10;

此查询可以直接利用索引来查找大于 [last_id] 的记录,无论你深入到数据集的哪个位置,它都能显著加快速度。

对于具有多个排序条件的键集分页,覆盖所有排序条件的复合索引必不可少。例如,在 (order_date, order_id) 上。

定期分析你的数据库查询计划,以识别与分页相关的性能瓶颈。诸如 EXPLAIN ANALYZE (PostgreSQL) 或 EXPLAIN (MySQL) 之类的工具可以提供宝贵的见解。

错误处理和边缘情况

健壮的 API 设计包括对分页进行细致的错误处理。

  • 无效参数: 客户端可能会发送非数字的 limitoffset 值、负值或超出可接受范围的值。API 应该返回适当的 HTTP 状态码(例如,400 Bad Request)以及清晰的错误消息。
  • 没有更多数据: 当客户端请求不包含任何数据的页面时(例如,offset 超出了总记录数,或者 cursor 指向末尾),API 应返回一个空数组,并可能指示 hasNextPage: false 或省略 next_cursor。返回带有空数组的 200 OK 通常比 404 Not Found 更可取。
  • 游标过期/失效: 如果使用基于时间或有状态的游标,请实现机制来处理过期或无效的游标(例如,410 Gone400 Bad Request)。
  • 数据完整性问题: 虽然游标分页减轻了一些一致性问题,但大规模的并发操作仍然会带来挑战。确保你的后端逻辑和数据库事务旨在优雅地处理并发数据修改。

结论

通过了解基于偏移量和基于游标的分页的细微差别,并战略性地利用 API 网关的强大功能,开发人员可以创建稳健的数据检索机制。

请记住,持续学习是优秀技术专业人员的标志。根据你的数据增长和不断演变的应用程序需求,定期审查和优化你的分页策略。

通过实施这些最佳实践,你将确保你的 API 能够处理不断增加的数据量,为你的用户提供无缝的体验,并保持作为专业 API 提供商所期望的高专业水平和信任度。

微信咨询

获取方案