王二的数字花园

2026年05月11日

大模型为什么"知道但说不出来"：从马嘉祺案例看 Token 切分与理解生成

最近刷到一个很好玩的话题。起因这是一个时代少年团的粉丝在测试 MiniMax 的模型的时候，发现模型虽然认识马嘉祺，但就是绕来绕去，说不出”马嘉祺”这三个字，会来一个”佳琪”，或者”琪琪”。这个问题传到知乎上，引发了一堆开发者跟进测试，但受限于没有训练层面的访问权限，最终还是停留在现象描述层面。...

技术 #LLM #Tokenization #理解层 #生成层 #词向量