EMNLP2025

更新时间：2025-12-05 17:02:42 发布时间：20天前浏览：331 评论：0

内容摘要论文发表于EMNLP2025主会，核心作者为北京通用人工智能研究院（通研院）研究工程师白骏、刘洋，以及通计划武汉大学联培一年级博士生童铭颢，通讯作者为通研院语言交互实验室研究员贾子夏，实验室主任郑子隆。MoE 遇上机制可解释性：鲜为人知的探

论文发表于EMNLP2025主会，核心作者为北京通用人工智能研究院（通研院）研究工程师白骏、刘洋，以及通计划武汉大学联培一年级博士生童铭颢，通讯作者为通研院语言交互实验室研究员贾子夏，实验室主任郑子隆。

MoE 遇上机制可解释性：

鲜为人知的探索之旅

在大模型研究领域，做混合专家模型（MoE）的团队很多，但专注机制可解释性（Mechanistic Interpretability）的却寥寥无几 —— 而将二者深度结合，从底层机制理解复杂推理过程的工作，更是凤毛麟角。

这条路为何少有人走？原因不难理解：

实用性存疑 —— 可解释性研究常被质疑缺乏应用价值；

技术门槛高 —— 要穿透表层解释（如 CoT），理解模型内部的“暗箱操作”，本就极具挑战；加入 MoE 的路由机制后，因果追踪和归因分析的难度陡增；

非主流共识 —— 相比之下，强化学习和监督微调等黑箱训练方法正大行其道，其成果相对来得更快更稳。

但即便如此，这片未开垦的大陆仍值得探索。当这些问题逐渐被揭开，我们不仅能解释 MoE 的行为，更能设计、干预、优化它的思维结构，让我们从“调参炼丹”走向“理解与创造”。

于是，本文针对性地提出了面向稀疏模型的机制可解释性方法「Router Lens CEFT」，聚焦于语言模型的上下文忠实性（Context Faithfulness）问题。目前，该研究已被 EMNLP 2025 接收。受 MoE 中专家特化现象的启发，我们提出了 Router Lens（路由透镜）

EMNLP2025
EMNLP2025
EMNLP2025
EMNLP2025

举报收藏打赏 评论 0

版权声明 本文仅代表作者观点，不代表本站立场。
如遇本文系为网络转载到本站发表，图片或文章有版权问题的请联系客服确认后会立即删除文章。
如遇本文系作者授权本站发表，未经许可，不得转载。

--结束END--

有问题投稿请发送至: 邮箱/

本文标题: EMNLP2025

本文链接: http://0447.cn/news/show-1937086.html (转载时请保留)

去ta空间

24小时热闻

今日推荐