DeepSeek-V4 论文逐页注解巡读
DeepSeek-V4 论文逐页注解巡读 作者: Igor Kotenkov原文: DeepSeek-V4: Annotated Paper Walkthrough 本文档包含 50 条注解,涵盖 DeepSeek-V4 论文的核心技术要点。注解类型包括:Scale note、Architectu...
钱塘江上潮信来,今日方知我是我
DeepSeek-V4 论文逐页注解巡读 作者: Igor Kotenkov原文: DeepSeek-V4: Annotated Paper Walkthrough 本文档包含 50 条注解,涵盖 DeepSeek-V4 论文的核心技术要点。注解类型包括:Scale note、Architectu...
注:本文图片为 Mermaid 图表,原文使用 JavaScript 渲染,中文版暂不可用。详见英文原文。 我一直从分布的角度思考后训练方法。语言模型是序列上的一个分布。当我们对其进行后训练并试图教它一个任务时,我们实际上是在重塑这个分布。不同的后训练方法在如何重塑分布、什么是目标分布、以及如何...
最近刷到一个很好玩的话题。 起因这是一个时代少年团的粉丝在测试 MiniMax 的模型的时候,发现模型虽然认识马嘉祺,但就是绕来绕去,说不出”马嘉祺”这三个字,会来一个”佳琪”,或者”琪琪”。 这个问题传到知乎上,引发了一堆开发者跟进测试,但受限于没有训练层面的访问权限,最终还是停留在现象描述层面。...
本文覆盖推理场景的 7 种并行策略:TP、PP、DP、EP、DP Attention、SP、CP。 按切分维度分为四组: Weight(参数维度):TP、EP Batch(样本维度):DP、DP Attention Sequence / Context(序列维度):SP、CP Layer(深度维度)...