论文发表于EMNLP2025主会,核心作者为北京通用人工智能研究院(通研院)研究工程师白骏、刘洋,以及通计划武汉大学联培一年级博士生童铭颢,通讯作者为通研院语言交互实验室研究员贾子夏,实验室主任郑子隆。
MoE 遇上机制可解释性:
鲜为人知的探索之旅
在大模型研究领域,做混合专家模型(MoE)的团队很多,但专注机制可解释性(Mechanistic Interpretability)的却寥寥无几 —— 而将二者深度结合,从底层机制理解复杂推理过程的工作,更是凤毛麟角。
这条路为何少有人走?原因不难理解:
实用性存疑 —— 可解释性研究常被质疑缺乏应用价值;
技术门槛高 —— 要穿透表层解释(如 CoT),理解模型内部的“暗箱操作”,本就极具挑战;加入 MoE 的路由机制后,因果追踪和归因分析的难度陡增;
非主流共识 —— 相比之下,强化学习和监督微调等黑箱训练方法正大行其道,其成果相对来得更快更稳。
但即便如此,这片未开垦的大陆仍值得探索。当这些问题逐渐被揭开,我们不仅能解释 MoE 的行为,更能设计、干预、优化它的思维结构,让我们从“调参炼丹”走向“理解与创造”。
于是,本文针对性地提出了面向稀疏模型的机制可解释性方法「Router Lens CEFT」,聚焦于语言模型的上下文忠实性(Context Faithfulness)问题。目前,该研究已被 EMNLP 2025 接收。受 MoE 中专家特化现象的启发,我们提出了 Router Lens(路由透镜)



0 条