EMNLP2025

内容摘要论文发表于EMNLP2025主会,核心作者为北京通用人工智能研究院(通研院)研究工程师白骏、刘洋,以及通计划武汉大学联培一年级博士生童铭颢,通讯作者为通研院语言交互实验室研究员贾子夏,实验室主任郑子隆。MoE 遇上机制可解释性:鲜为人知的探

论文发表于EMNLP2025主会,核心作者为北京通用人工智能研究院(通研院)研究工程师白骏、刘洋,以及通计划武汉大学联培一年级博士生童铭颢,通讯作者为通研院语言交互实验室研究员贾子夏,实验室主任郑子隆。

MoE 遇上机制可解释性:

鲜为人知的探索之旅

在大模型研究领域,做混合专家模型(MoE)的团队很多,但专注机制可解释性(Mechanistic Interpretability)的却寥寥无几 —— 而将二者深度结合,从底层机制理解复杂推理过程的工作,更是凤毛麟角。

这条路为何少有人走?原因不难理解:

实用性存疑 —— 可解释性研究常被质疑缺乏应用价值;

技术门槛高 —— 要穿透表层解释(如 CoT),理解模型内部的“暗箱操作”,本就极具挑战;加入 MoE 的路由机制后,因果追踪和归因分析的难度陡增;

非主流共识 —— 相比之下,强化学习和监督微调等黑箱训练方法正大行其道,其成果相对来得更快更稳。

但即便如此,这片未开垦的大陆仍值得探索。当这些问题逐渐被揭开,我们不仅能解释 MoE 的行为,更能设计、干预、优化它的思维结构,让我们从“调参炼丹”走向“理解与创造”。

于是,本文针对性地提出了面向稀疏模型的机制可解释性方法「Router Lens CEFT」,聚焦于语言模型的上下文忠实性(Context Faithfulness)问题。目前,该研究已被 EMNLP 2025 接收。受 MoE 中专家特化现象的启发,我们提出了 Router Lens(路由透镜)

EMNLP2025  
EMNLP2025  
EMNLP2025  
EMNLP2025
 
举报 收藏 打赏 评论 0
今日推荐
浙ICP备2021030705号-4