机制可解释性 (Mechanistic Interpretability)

TransformerLens：逆向工程 GPT 风格模型的标准工具

TransformerLens 由 Neel Nanda 开发，是机制可解释性领域的事实标准工具。它提供对 GPT 风格语言模型内部的深度访问能力，包括激活缓存、注意力模式分析、因果追踪和激活修补（Activation Patching）。使用它可以重现经典研究：归纳头（Induction Heads）负责 few-shot 学习的注意力回路、间接对象识别（IOI）解析代词指代消解的电路、以及定位执行简单数学运算的子网络。

见：TransformerLens GitHub | TransformerLens 教程 | Activation Patching 论文

稀疏自动编码器：将神经元分解为可解释特征

稀疏自动编码器（SAE）是当前可解释性研究的热点方向。它将高维激活向量分解为稀疏的、可解释的"特征"基向量，这些特征往往对应人类可理解的概念：数字、颜色、语法结构、甚至抽象的情感概念。Anthropic 在 Claude 3 Sonnet 上的研究发现，约 70% 的 SAE 特征可被人类解释，实现了从"多义神经元"到"单语义特征"的突破。

见：Anthropic SAE 研究 | SAE 入门指南 | SAELens GitHub

nnsight 与 NDIF：远程可解释性实验基础设施

传统可解释性工具受限于单机 GPU 显存，难以分析 70B+ 参数模型。nnsight 通过远程执行架构解决了这个问题——本地编写干预逻辑，远程在大型 GPU 集群执行，只返回分析结果。National Deep Inference Facility (NDIF) 为研究者提供免费的远程可解释性计算资源，让任何研究者都能分析 Llama-2-70B 级别的模型。

见：nnsight 文档 | nnsight GitHub | NDIF 官网

归纳头：Few-shot 学习的注意力回路

归纳头是 Transformer 中一种特殊的注意力头模式，负责识别序列中的重复模式并进行 few-shot 学习。当一个 token 在序列中重复出现时，归纳头能够"复制"之前出现的模式，这是大模型上下文学习能力的重要机制。通过 TransformerLens 的激活修补技术，可以精确定位这些回路并研究其工作机制。

见：Circuit Stability 论文 | 如何成为可解释性研究员

表征工程：主动修改模型内部行为

表征工程（Representation Engineering）是通过定位和修改模型内部表征来实现特定行为的技术。包括增强诚实性（检测并抑制模型幻觉）、提升有用性（增强指令遵循能力）、以及改善安全性（抑制有害输出）。这为 AI 对齐提供了一条不同于 RLHF 的技术路径——直接操作模型的内部表征而非仅仅调整输出分布。

见：Anthropic 可解释性研究 | ARENA 可解释性教程

反对「直接把内部 API 暴露成 MCP」的天真做法

原文反对将现有内部 API 直接转换为 MCP，建议为代理场景专门设计安全的 MCP 服务层。

MLOps