Ai

机制可解释性 (Mechanistic Interpretability)

机制可解释性 (Mechanistic Interpretability)

TransformerLens:逆向工程 GPT 风格模型的标准工具

TransformerLens 由 Neel Nanda 开发,是机制可解释性领域的事实标准工具。它提供对 GPT 风格语言模型内部的深度访问能力,包括激活缓存、注意力模式分析、因果追踪和激活修补(Activation Patching)。使用它可以重现经典研究:归纳头(Induction Heads)负责 few-shot 学习的注意力回路、间接对象识别(IOI)解析代词指代消解的电路、以及定位执行简单数学运算的子网络。

见:TransformerLens GitHub | TransformerLens 教程 | Activation Patching 论文

稀疏自动编码器:将神经元分解为可解释特征

稀疏自动编码器(SAE)是当前可解释性研究的热点方向。它将高维激活向量分解为稀疏的、可解释的"特征"基向量,这些特征往往对应人类可理解的概念:数字、颜色、语法结构、甚至抽象的情感概念。Anthropic 在 Claude 3 Sonnet 上的研究发现,约 70% 的 SAE 特征可被人类解释,实现了从"多义神经元"到"单语义特征"的突破。

见:Anthropic SAE 研究 | SAE 入门指南 | SAELens GitHub

nnsight 与 NDIF:远程可解释性实验基础设施

传统可解释性工具受限于单机 GPU 显存,难以分析 70B+ 参数模型。nnsight 通过远程执行架构解决了这个问题——本地编写干预逻辑,远程在大型 GPU 集群执行,只返回分析结果。National Deep Inference Facility (NDIF) 为研究者提供免费的远程可解释性计算资源,让任何研究者都能分析 Llama-2-70B 级别的模型。

见:nnsight 文档 | nnsight GitHub | NDIF 官网

归纳头:Few-shot 学习的注意力回路

归纳头是 Transformer 中一种特殊的注意力头模式,负责识别序列中的重复模式并进行 few-shot 学习。当一个 token 在序列中重复出现时,归纳头能够"复制"之前出现的模式,这是大模型上下文学习能力的重要机制。通过 TransformerLens 的激活修补技术,可以精确定位这些回路并研究其工作机制。

见:Circuit Stability 论文 | 如何成为可解释性研究员

表征工程:主动修改模型内部行为

表征工程(Representation Engineering)是通过定位和修改模型内部表征来实现特定行为的技术。包括增强诚实性(检测并抑制模型幻觉)、提升有用性(增强指令遵循能力)、以及改善安全性(抑制有害输出)。这为 AI 对齐提供了一条不同于 RLHF 的技术路径——直接操作模型的内部表征而非仅仅调整输出分布。

见:Anthropic 可解释性研究 | ARENA 可解释性教程


Copyright © 2024 Lionad - CC-BY-NC-CD-4.0