RRAttention:基于逐头轮询移位的动态块稀疏注意力用于长上下文推理
作者:Siran Liu¹’², Guoxia Wang¹, Sa Wang¹’²*, Jinle Zeng¹, HaoYang Xie¹, Siyu Lou¹, JiaBin Yang¹, DianHai Yu¹’², Haifeng Wang¹, Chao Yang²†
¹ 百度公司 ² 北京大学
*同等贡献。在百度实习期间完成。 †通讯作者。
摘要
注意力机制的二次复杂度构成了大语言模型处理长上下文的关键瓶颈。虽然动态稀疏注意力方法提供了输入自适应的效率,但它们面临着根本性的权衡:需要预处理、缺乏全局评估、违反查询独立性,或产生高昂的计算开销。我们提出了 RRAttention,一种新颖的动态稀疏注意力方法,通过头轮询(RR)采样策略同时实现了所有理想属性。通过在每个步长内跨注意力头轮换查询采样位置,RRAttention 在保持查询独立性的同时,实现了高效的步长级聚合全局模式发现。我们的方法将复杂度从 O(L²) 降低到 O(L²/S²),并采用自适应 Top-τ 选择以获得最优稀疏性。在自然语言理解(HELMET)和多模态视频理解(Video-MME)上的广泛实验表明,RRAttention 在仅计算一半注意力块的情况下恢复了超过 99% 的全注意力性能,在 128K 上下文长度下实现了 2.4 倍加速,并优于现有的动态稀疏注意力方法。
1 引言
处理长上下文的能力对大语言模型(LLM)变得越来越关键,使多文档推理和代码仓库分析等应用成为可能。最新进展将上下文窗口推至 128K token 及以上,显著扩大了可解决问题的范围。然而,注意力机制 O(L²) 的二次计算复杂度构成了根本性瓶颈,使得长上下文推理的部署成本高昂。
稀疏注意力通过选择性计算最重要的注意力分数,成为一种有前景的解决方案。现有方法大致可分为使用预定义稀疏模式的静态方法,和基于输入特征自适应确定稀疏模式的动态方法。虽然 BigBird 和 StreamingLLM 等静态方法实现了计算效率,但其固定模式无法适应不同的注意力分布,可能遗漏关键依赖关系。动态方法提供了输入自适应的稀疏性,但在影响其实际有效性的设计选择上面临不同的权衡。
通过对现有动态稀疏注意力方法的系统分析,我们确定了表征其有效性的五个关键维度:(i) 影响部署灵活性的预处理需求,(ii) 捕获长程依赖的全局评估能力,(iii) 维护语义完整性的查询独立性,(iv) 跨不同注意力头的模式灵活性,以及 (v) 影响计算效率的 softmax 粒度。现有方法在某些维度上表现优异而在其他维度上有所妥协——没有现有方法能同时实现所有理想属性,导致准确性和效率之间的次优权衡。
我们提出了 RRAttention,一种通过头轮询采样策略在所有关键维度上实现最优平衡的新颖动态稀疏注意力方法。我们的核心洞见是:通过在每个步长内跨注意力头轮换查询采样位置,我们可以在保持查询独立性的同时实现高效的全局模式发现。具体而言,RRAttention:(i) 使用跨头的轮询方案在每个步长采样一个代表性查询;(ii) 执行步长级聚合,将计算成本从 O(L²) 降低到 O(L²/S²);(iii) 基于注意力集中模式采用自适应 Top-τ 块选择。
广泛实验证明了 RRAttention 在自然语言理解和多模态视频理解综合基准上的有效性。在 HELMET 和 Video-MME 上的评估表明,RRAttention 在仅计算一半注意力块的情况下恢复了超过 99% 的全注意力性能,显著优于 FlexPrefill 和 XAttention。此外,RRAttention 在 128K 上下文长度下实现了 2.4 倍的端到端加速,与 XAttention 相比减少了 18.2% 的模式搜索开销,使其成为我们评估中最快且最准确的稀疏注意力方法。
本文的主要贡献包括:
- 我们提供了对动态稀疏注意力方法在五个关键维度上的系统表征,揭示了现有方法中的根本性权衡。
- 我们引入了 RRAttention,一种用于注意力模块的新颖头轮询采样策略,独特地实现了所有理想属性:免预处理部署、全局评估、查询独立性、模式无关简洁性和高效的步长级计算。
- 在语言(HELMET)和多模态(Video-MME)基准上的综合实验验证了我们的方法在平衡不同长上下文场景下的效率与准确性方面的优越性。
2 预备知识与背景
2.1 分块稀疏注意力
对于长度为 L 的输入序列,查询矩阵 Q ∈ R^{L×d} 和键矩阵 K ∈ R^{L×d} 被划分为大小为 B 的连续块,其中 d 表示注意力头维度。特别地,我们定义了一个更细的采样步长 S(S ≪ B)用于模式发现。令 N_b = ⌈L/B⌉ 为块的总数。第 i 个查询块和第 j 个键块分别表示为 Q^{(i)} 和 K^{(j)},其中 i, j ∈ {1, 2, …, N_b}。
在分块稀疏注意力中,定义块选择矩阵 B ∈ {0, 1}^{Nb × N_b},其中 B{ij} = 1 表示计算第 i 个查询块和第 j 个键块之间的注意力分数,而 B_{ij} = 0 表示跳过该块对的计算。稀疏注意力计算形式化为:
其中 M_B ∈ R^{L×L} 是从块选择矩阵 B 展开的细粒度掩码矩阵:
优化目标是在约束计算成本的同时最小化稀疏和全注意力输出之间的近似误差:
其中 |·|_F 表示 Frobenius 范数,ρ ∈ (0, 1] 是稀疏参数,第二个约束确保自回归模型的因果性。
2.2 注意力选择的多维分析
稀疏注意力机制大致可分为静态和动态模式。BigBird、StreamingLLM 和 TriangleMix 等静态稀疏方法采用预定义的块选择矩阵 B_static,无论输入序列如何都保持不变。这种设计有效降低了计算复杂度,但最近的研究表明,最优稀疏模式在不同输入和层之间可能差异显著。
相比之下,动态稀疏注意力方法根据当前输入自适应地确定块选择矩阵 B_dynamic,允许注意力模式灵活调整以更好地适应数据。表 1 总结了现有动态稀疏注意力方法的关键特征。
表 1:动态稀疏注意力方法比较
| 方法 | 免预处理 | 全局评估 | 查询独立性 | 模式无关 | Softmax粒度 |
|---|---|---|---|---|---|
| SeerAttention | ✗ | ✓ | ✓ | ✓ | 块级 |
| MInference | ✗ | ✗ | ✓ | ✗ | Token级 |
| FlexPrefill | ✓ | ✗ | ✓ | ✗ | Token级 |
| XAttention | ✓ | ✓ | ✗ | ✓ | 步长级 |
| RRAttention | ✓ | ✓ | ✓ | ✓ | 步长级 |
- 免预处理:指示方法是否需要离线训练或模式搜索。需要预处理的方法(SeerAttention 的蒸馏训练、MInference 的离线模式分配)实现了更好的准确性但限制了部署灵活性,而免预处理方法(FlexPrefill、XAttention)提供了对新模型和任务的即时适用性。
- 全局评估:确定重要性估计是否考虑整个查询-键空间。全局方法(SeerAttention、XAttention)更有效地捕获长程依赖但产生更高的计算开销,而仅使用最后查询块的局部方法(MInference、FlexPrefill)更高效但可能遗漏早期位置的重要模式。
- 查询独立性:确保每个查询的注意力分布独立计算,不受跨查询干扰。违反此原则的方法(XAttention 跨不同查询的反对角线聚合)可能混合来自不同上下文的注意力分布,而查询独立方法保留了每个查询注意力模式的语义完整性。
- 模式无关:反映方法是否在所有注意力头上应用统一策略。模式特定方法(MInference、FlexPrefill)通过针对不同注意力模式定制实现了更好的准确性,但需要额外的模式检测开销。
- Softmax 粒度:显著影响计算效率:块级或步长级聚合(SeerAttention、XAttention)通过降维加速模式发现但可能丢失细粒度信息,而 token 级 softmax(MInference、FlexPrefill)保留了精确的注意力分布但计算复杂度更高。
RRAttention 提供了一个平衡的解决方案,结合了现有方法的优势:无需预处理以实现最大灵活性,执行全局评估以全面捕获模式,保持查询独立性以实现准确的注意力计算,应用模式无关策略以实现简洁性,并使用步长级 softmax 以实现计算效率。
3 方法论:RRAttention
RRAttention 通过新颖的头轮询采样策略实现高效的动态稀疏注意力,在保持查询独立性的同时实现快速模式发现。图 2 展示了 RRAttention 的完整工作流程。
3.1 基于头轮询策略的查询采样
为保持查询独立性,RRAttention 在每个步长 S 个 token 中采样一个代表性查询来计算与所有键的注意力,确保每个查询的注意力分布独立计算而不受跨查询干扰。对于注意力头 h,每个步长区间 [iS, (i+1)S) 内的采样查询位置 P^{(h)}(i, h) 由以下公式确定:
头 h 的采样查询集为:
头轮询策略服务于两个关键目的:(i) 它确保在不同头之间,步长内的所有位置最终都会被采样,防止固定位置采样会导致的信息丢失;(ii) 多样化的采样位置自然地与注意力矩阵中重要的垂直和斜线模式相交,实现对这些关键结构的有效检测。
3.2 步长级重要性估计
为加速模式发现,我们通过降维在步长粒度聚合注意力分数。对于查询步长 i 和键步长 j,我们计算一个重要性分数,代表它们聚合的注意力:
其中 Q^{(h)}_{P(i,h)} 是步长 i 中头 h 的采样位置处的查询向量,求和聚合步长 j 内的所有键向量。归一化因子 1/(S√d) 考虑了注意力缩放和步长大小。
然后我们对每行应用 softmax 以获得每个查询步长的归一化重要性分数:
通过查询采样和键聚合,这种步长级重要性估计将计算复杂度从 O(L²) 降低到 O(L²/S²),同时通过我们的头轮询采样策略保持全局评估能力,因为序列中的每个位置都有贡献。
3.3 基于 Top-τ 阈值的块级选择
为与我们的分块稀疏注意力形式化对齐并实现高效的 GPU 计算,我们将步长级重要性分数聚合到块级。对于查询块 m 和键块 n,块重要性分数计算为:
对于每个查询块 m,我们采用 top-τ 选择策略,保留累积重要性超过阈值 τ 的块。具体而言,我们按重要性对键块排序并选择最小集合:
遵循先前工作证明的最后查询位置对维持生成质量的关键重要性,我们构建了一个保护掩码 B_static,无条件保留最后查询块的所有块。最终的块选择矩阵结合了两个组件:
图 2 说明:RRAttention 示意图。①、② 和 ③ 代表我们方法的三个阶段。示例展示了步长大小 S=4 和块大小 B=8 的配置。
4 实验
4.1 实验设置
模型:对于自然语言任务,我们评估了两个突出的长上下文语言模型:(i) Meta-LLaMA-3.1-8B-Instruct,支持高达 128K token 上下文长度;(ii) Qwen2.5-7B-Instruct,通过 YARN 缩放支持高达 128K token 上下文长度。对于视频理解任务,我们评估了 Qwen2-VL-7B-Instruct,一个能够通过多模态注意力处理和理解视频内容的视觉-语言模型。我们在附录 B 中提供了更大规模和多样化架构(如 Yi-9B-200K、Qwen3-30B-A3B)的泛化实验。
基线方法:(i) FlashAttention,作为我们的稠密基线;(ii) FlexPrefill,使用超参数 τ=0.1 和两种阈值设置 γ=0.95 和 γ=0.99;(iii) XAttention,使用块大小 S=8 和两种阈值设置 τ=0.9 和 τ=0.95;(iv) RRAttention,使用与 XAttention 相同的配置。所有稀疏注意力实验专注于预填充阶段。
数据集:(i) 对于自然语言理解任务,使用 HELMET,一个综合长上下文基准,包括七个任务类别;(ii) 对于视频理解任务,使用 Video-MME,包含 900 个视频和 2700 个多选问答对。
所有实验在 NVIDIA H100 GPU 上进行。
4.2 主要结果
HELMET:表 2 展示了所有 HELMET 任务在 8K 到 128K token 上下文长度的平均性能。
表 2:HELMET 基准上不同上下文长度的性能比较
| 模型 | 方法 | 平均稀疏度(↑) | 8K | 16K | 32K | 64K | 128K | 平均(↑) |
|---|---|---|---|---|---|---|---|---|
| Llama | FullAttention | - (0%) | 61.17 | 58.67 | 56.71 | 55.81 | 49.74 | 56.42 |
| FlexPrefill-0.95 | 66.07% | 56.02 | 54.48 | 53.01 | 50.77 | 48.42 | 52.54 | |
| FlexPrefill-0.99 | 38.63% | 60.73 | 58.15 | 56.22 | 55.15 | 49.87 | 56.02 | |
| XAttention-0.90 | 59.88% | 59.92 | 57.15 | 55.54 | 53.66 | 47.82 | 54.82 | |
| XAttention-0.95 | 47.50% | 60.79 | 58.10 | 55.57 | 54.78 | 49.45 | 55.74 | |
| RRAttention-0.90 | 61.02% | 60.95 | 58.43 | 55.86 | 54.27 | 48.85 | 55.67 | |
| RRAttention-0.95 | 48.68% | 61.22 | 58.21 | 56.07 | 55.33 | 50.37 | 56.24 | |
| Qwen | FullAttention | - (0%) | 54.75 | 50.66 | 48.40 | 44.98 | 39.59 | 47.68 |
| FlexPrefill-0.95 | 63.21% | 44.11 | 40.59 | 40.60 | 36.39 | 29.66 | 38.27 | |
| FlexPrefill-0.99 | 37.88% | 53.18 | 49.05 | 46.48 | 43.01 | 35.52 | 45.45 | |
| XAttention-0.90 | 59.15% | 52.53 | 47.72 | 45.72 | 43.35 | 37.04 | 45.27 | |
| XAttention-0.95 | 47.35% | 53.90 | 49.77 | 46.96 | 44.49 | 38.09 | 46.64 | |
| RRAttention-0.90 | 59.53% | 53.37 | 49.31 | 47.35 | 44.62 | 38.48 | 46.63 | |
| RRAttention-0.95 | 47.56% | 54.22 | 50.02 | 47.92 | 45.17 | 38.51 | 47.17 |
RRAttention 在两个模型上始终在所有稀疏注意力方法中实现最高准确性。在保守设置下(τ=0.95 和 γ=0.99),RRAttention 在 Llama 上达到 56.24,而 XAttention 为 55.74,FlexPrefill 为 56.02。在 Qwen 上,RRAttention 达到 47.17,优于 XAttention 的 46.64 和 FlexPrefill 的 45.45。值得注意的是,RRAttention 分别恢复了 Llama 和 Qwen 上 99.7% 和 99.0% 的 FullAttention 性能,同时仅计算约一半的注意力块。
在激进设置下(τ=0.90 和 γ=0.95),RRAttention 的准确性-稀疏度权衡优势更为明显。在 Llama 上,RRAttention 维持 55.67,显著优于 XAttention 的 54.82 和 FlexPrefill 的 52.54。
Video-MME:表 3 展示了 Video-MME 基准的结果。在标准 1fps 设置下,RRAttention 在保守和激进配置下始终实现最高的整体准确性,在中等和长视频上优势尤为明显。
表 3:使用 Qwen2-VL-7B-Instruct 在 Video-MME 基准上的性能比较
| FPS | 方法 | 平均稀疏度(↑) | 短 | 中 | 长 | 平均(↑) |
|---|---|---|---|---|---|---|
| 1fps | FullAttention | - (0%) | 72.90 | 63.60 | 55.20 | 63.90 |
| FlexPrefill-0.95 | 46.70% | 72.80 | 62.00 | 54.00 | 62.90 | |
| FlexPrefill-0.99 | 17.80% | 72.40 | 63.60 | 55.80 | 63.90 | |
| XAttention-0.90 | 49.30% | 71.80 | 62.80 | 55.70 | 63.40 | |
| XAttention-0.95 | 37.50% | 72.70 | 63.60 | 56.10 | 64.10 | |
| RRAttention-0.90 | 47.00% | 72.20 | 63.60 | 56.20 | 64.00 | |
| RRAttention-0.95 | 34.70% | 72.60 | 64.00 | 56.20 | 64.30 | |
| 0.5fps | FullAttention | - (0%) | 72.10 | 68.80 | 62.40 | 67.80 |
| FlexPrefill-0.95 | 58.60% | 70.80 | 67.00 | 59.40 | 65.70 | |
| FlexPrefill-0.99 | 28.80% | 71.70 | 68.40 | 61.90 | 67.30 | |
| XAttention-0.90 | 51.50% | 72.00 | 68.00 | 61.10 | 67.00 | |
| XAttention-0.95 | 39.90% | 72.30 | 68.90 | 62.30 | 67.90 | |
| RRAttention-0.90 | 49.30% | 71.70 | 68.70 | 62.20 | 67.50 | |
| RRAttention-0.95 | 37.40% | 72.20 | 68.70 | 62.30 | 67.70 |
运行时效率:在 128K 上下文长度下,RRAttention 相比 Full Attention 实现了 2.4 倍加速,同时在所有稀疏注意力方法中提供了最快的推理速度。我们的头轮询采样策略结合步长级聚合在 128K token 下将模式发现时间比 XAttention 减少了 18.2%。
4.3 消融实验
最后查询块保护:将最后查询块保护策略应用于 XAttention 基线产生了适度改进(从 55.74 到 55.92),但 RRAttention 实现了显著更好的性能(56.24),表明通过头轮询策略进行有效的模式发现对整体性能的贡献更为重要。
表 5:保护最后查询块的消融实验(HELMET,LLaMA-3.1-8B-Instruct)
| 方法 | 稀疏度 | Sink & Recent 块 | 最后查询块 |
|---|---|---|---|
| XAttention-0.95 | 47.50% | ✓ | ✗ |
| XAttention+B_static | 46.40% | ✓ | ✓ |
| RRAttention-0.95 | 49.06% | ✓ | ✓ |
| RRAttention-0.95 | 48.68% | ✗ | ✓ |
轮询策略:表 6 比较了无 RR 机制和三种 RR 策略。Head-RR 在大多数上下文长度上始终优于替代方案。
表 6:RR 调度策略的隔离消融实验(HELMET,LLaMA-3.1-8B-Instruct)
| 方法 | 8K | 16K | 32K | 64K | 128K | 平均 |
|---|---|---|---|---|---|---|
| w/o RR | 60.91 | 57.86 | 55.67 | 54.62 | 49.18 | 55.65 |
| Head-RR | 60.93 | 57.90 | 56.03 | 54.70 | 49.44 | 55.80 |
| Layer-RR | 60.75 | 57.60 | 55.99 | 54.95 | 48.40 | 55.54 |
| Hybrid-RR | 60.42 | 57.96 | 56.03 | 54.54 | 49.10 | 55.61 |
步长大小:表 4 展示了不同步长对性能的影响。对于 S < 32 的步长配置,RRAttention 维持稳定性能;但在 S=32 时,粗粒度聚合稀释了关键 token 的重要信号。
表 4:不同步长在 HELMET 上的性能比较(LLaMA-3.1-8B-Instruct)
| 方法 | S=4 分数 | S=4 稀疏度 | S=8 分数 | S=8 稀疏度 | S=16 分数 | S=16 稀疏度 | S=32 分数 | S=32 稀疏度 |
|---|---|---|---|---|---|---|---|---|
| XAttention-0.90 | 55.24 | 60.50% | 54.82 | 60.08% | 54.56 | 59.43% | 54.50 | 57.69% |
| RRAttention-0.90 | 55.62 | 61.38% | 55.67 | 61.02% | 55.37 | 60.70% | 54.97 | 60.02% |
| XAttention-0.95 | 55.89 | 48.23% | 55.74 | 47.50% | 55.45 | 46.46% | 55.49 | 45.27% |
| RRAttention-0.95 | 55.85 | 49.03% | 56.24 | 48.68% | 55.91 | 47.96% | 55.62 | 47.78% |
块选择准确性:通过与全注意力真实值的事后比较验证了 RRAttention 的重要性估计。RRAttention 实现了更高的精确度和 F1 分数(附录 D 详述),确认了更准确的重要块识别。
5 相关工作
5.1 基于训练的稀疏方法
NSA 在训练期间学习稀疏区域,MOBA 使用混合专家进行稀疏计算。这些方法实现了强性能但需要训练或微调,限制了对预训练模型的适用性。
5.2 面向推理的稀疏方法
静态稀疏模式:BigBird、Longformer、StreamingLLM、TriangleMix 等方法使用预定义模式,但无法适应输入特定特征。
动态稀疏模式:SeerAttention 使用学习的池化进行块选择,MInference 基于离线性能分析分配模式,FlexPrefill 使用散度度量进行模式发现,XAttention 执行反对角线查询采样结合步长聚合。RRAttention 通过头轮询采样解决了这些方法的关键局限性,确保完整的位置覆盖和查询独立性,结合步长级聚合实现计算效率。
5.3 长上下文 LLM 推理加速
除稀疏注意力外,正交方法也加速长上下文推理。FlashAttention 和 PagedAttention 等内存优化内核通过内核融合和分块策略优化内存访问模式。KV Cache 优化通过量化、架构简化和缓存驱逐策略减少内存开销。这些技术与稀疏注意力互补,可以结合使用以进一步加速。
6 结论
我们提出了 RRAttention,一种通过头轮询采样在五个关键维度上实现最优平衡的动态稀疏注意力方法。通过跨注意力头轮换查询采样位置,RRAttention 在保持查询独立性的同时实现了高效的步长级聚合全局模式发现。广泛实验表明我们的方法在仅计算一半注意力块的情况下恢复了超过 99% 的全注意力性能,在 128K 上下文长度下实现了 2.4 倍加速。RRAttention 在自然语言理解和多模态视频理解基准上始终优于现有动态稀疏注意力方法。
7 局限性
虽然 RRAttention 通过头轮询采样策略在多个设计维度上实现了有效平衡,但值得注意的是极端配置下的边界条件。当步长大小 S 超过注意力头数量时,轮询采样方案无法保证每个步长区间内的完整位置覆盖,可能导致某些 token 位置持续未被采样。然而这种局限性主要出现在不切实际的配置中:如步长消融实验所示,过大的步长已因粗粒度聚合稀释重要性信号而导致性能下降。在实际部署中,推荐的中等步长配置(S=8 或 S=16)自然避免了此边界条件,同时提供了最优的准确性-效率权衡。
附录
附录 A:HELMET 详细结果
我们在 HELMET 基准的六个主要任务类别上评估了 RRAttention:合成召回(Recall)、检索增强生成(RAG)、多样本上下文学习(ICL)、带引用生成(Cite)、段落重排序(Rerank)和长文档问答(LongQA)。
全局上下文理解任务:在合成召回任务上,RRAttention 展现了验证其全局评估能力的卓越性能。在 Llama 激进设置下,RRAttention 在 8K 和 16K 上下文中保持完美准确性 100.0,而 FlexPrefill 分别降至 95.94 和 96.25。在长文档问答中,Qwen 128K 激进设置下,RRAttention 达到 42.15,显著优于 XAttention 的 40.92 和 FlexPrefill 的 20.68。
信息检索任务:在检索增强生成任务中,Qwen 32K 激进设置下,RRAttention 达到 55.92,优于 XAttention 的 55.04 和 FlexPrefill 的 48.33。
细粒度归因任务:引用生成对所有方法最具挑战性,在长上下文下性能大幅下降。段落重排序表现出上下文依赖行为。
附录 B:额外模型实验
在 Yi-9B-200K 上,RRAttention 在保守设置下达到 46.54,甚至超过了 FullAttention 准确性(46.04),表明选择性注意力有时可以作为有益的正则化。在更大规模的 Qwen3-30B-A3B-Instruct 上,RRAttention 恢复了 99.2% 的 FullAttention 性能(65.45 vs 65.96)。
附录 C:推理时间分解
查询采样阶段开销可忽略(<0.04ms,<0.02%)。步长级重要性估计主导模式搜索阶段(77.5%-96.7%)。块级选择保持轻量级(4.2%-6.1%)。稀疏注意力计算构成总体主导成本(72.0%-84.2%)。在长上下文(≥32K)下,模式搜索开销仅占总推理时间的 18-19%。
附录 D:块选择准确性分析
RRAttention 在所有六个任务上展示了系统性更高的精确度,改进范围从 0.48%(Rerank)到 0.57%(Recall),平均 0.52%。F1 分数反映了 RRAttention 更优越的整体选择准确性。
附录 E:注意力模式可视化
可视化显示 RRAttention 有效捕获了不同上下文长度下的多样化注意力模式,包括:(1) 集中在主对角线附近的局部模式,(2) 垂直和斜线模式,(3) 分布式散点模式。在所有上下文长度下,RRAttention 选择的块与 FullAttention 真实重要块高度匹配。
附录 F:未来工作
工程优化:迁移到 FlashAttention-3 可利用其高级特性。训练感知稀疏注意力:在训练阶段纳入稀疏注意力学习可消除模式发现开销。扩展到解码阶段:将头轮询采样原则自然扩展到解码阶段以减少 KV cache 内存带宽消耗。