#推理优化

2 篇文章

2026年05月11日

大模型推理夯实：并行策略图解

本文覆盖推理场景的 7 种并行策略：TP、PP、DP、EP、DP Attention、SP、CP。按切分维度分为四组： Weight（参数维度）：TP、EP Batch（样本维度）：DP、DP Attention Sequence / Context（序列维度）：SP、CP Layer（深度维度）...

技术 #LLM #推理优化 #并行策略 #TP #PP #DP #EP

2026年03月10日

ContextPilot：基于上下文复用的长上下文推理加速方案

项目概述ContextPilot 是一个专注于长上下文 LLM 推理加速的开源项目，已被 MLSys 2026 接收。其核心思想是通过上下文复用（Context Reuse）来加速预填充（prefill）阶段，同时保持推理质量。核心指标指标提升效果缓存命中率 4–12× 提升 ...

技术分析论文解读 #LLM #推理优化 #KV Cache #长上下文 #MLSys 2026