大模型推理夯实:并行策略图解
本文覆盖推理场景的 7 种并行策略:TP、PP、DP、EP、DP Attention、SP、CP。 按切分维度分为四组: Weight(参数维度):TP、EP Batch(样本维度):DP、DP Attention Sequence / Context(序列维度):SP、CP Layer(深度维度)...
本文覆盖推理场景的 7 种并行策略:TP、PP、DP、EP、DP Attention、SP、CP。 按切分维度分为四组: Weight(参数维度):TP、EP Batch(样本维度):DP、DP Attention Sequence / Context(序列维度):SP、CP Layer(深度维度)...
项目概述ContextPilot 是一个专注于长上下文 LLM 推理加速的开源项目,已被 MLSys 2026 接收。其核心思想是通过上下文复用(Context Reuse)来加速预填充(prefill)阶段,同时保持推理质量。 核心指标 指标 提升效果 缓存命中率 4–12× 提升 ...