MiniMax 大模型“叫错人名” 稀宇科技:特定词元后训练不足导致
2026年5月9日 13:54·AIBase
近日,稀宇科技(MiniMax)发布了一份技术报告,详细剖析了其 M2系列模型为何无法准确输出“马嘉祺”等特定人名的深层原因。这起看似偶然的错误,实际上揭示了当前大模型训练中普遍存在的一个隐蔽缺陷。
词元偏移:被“挤压”的向量空间
问题的核心源于大模型处理文本的基本单位——分词器(Tokenizer)。以“马嘉祺”为例,该名字在模型内部被切分为“马”和“嘉祺”两个词元。虽然模型在海量数据的预训练阶段已经学习过这些词汇,但在随后的“后训练”(指令微调)阶段,问题出现了。

由于后训练使用的精选对话数据中,“嘉祺”一词出现的频率极低,导致该词元几乎处于零训练状态。与此同时,代码符号、工具调用等高频词元在训练中不断强化,其向量参数的更新持续“挤压”了低频词元的生存空间。最终,这些低频词元偏离了正确的概率区间,导致模型在尝试称呼特定艺人时,只能退而求其次,选择了读音相近的“佳琪”或“琪琪”。
不止是中文:日语混入俄语的连锁反应
MiniMax 的排查显示,这种“词元退化”现象并非个案。经过对全词表约20万个词元的扫描,发现约4.9% 的词元都出现了显著的性能衰退。其中,日文词元的退化比例竟高达29.7%,这也是该模型在进行日语对话时偶尔会莫名混入俄语或韩语字符的根源。

除了人名和外语,受影响的还包括 LaTeX 公式标记、维基百科源码符号,甚至还有一些 SEO 垃圾关键词。这一发现证明了数据稀疏带来的后果是全局性的:当后训练数据无法均衡覆盖不同语种和特定词汇时,模型的生成逻辑就会产生偏差。
系统性修复:为20万个词元建立“低保”
针对这一结构性难题,研发团队采取了精准的修复方案。他们通过构造覆盖全词表的合成数据,强制模型进行“复读”任务,从而为每一个词元建立了生成频率的“底线保障”。
修复后的数据显示,模型全词表输出的稳定性大幅提升,日语回答中混入异语字符的比例也从之前的47% 骤降至1%。目前,团队仍在探索更深层的优化方案,例如在微调阶段混入预训练语料,或直接清理词表中不再使用的冗余标记。
这起事件引发了行业的深刻反思:大模型的分词器往往基于广阔的网络语料,但下游应用场景却各有侧重。如何在追求语义多样性的同时,从底层统计学视角确保词元层面的数据覆盖,将是未来提升大模型可靠性的关键课题。

