
transformer-debugger
openai
暂无描述
AI 简介
Transformer Debugger (TDB) 是一个由OpenAI的超对齐团队开发的工具,旨在支持对小型语言模型特定行为的调查。该工具结合了自动化可解释性技术和稀疏自编码器,使用户能够在不编写代码的情况下快速探索,并在前向传递中进行干预以观察其对特定行为的影响。TDB能够识别出影响模型行为的具体组件(如神经元、注意力头、自编码器潜变量),并展示这些组件激活的原因及它们之间的连接,从而帮助研究者发现潜在的电路结构。适用于需要深入理解或调试语言模型内部机制的研究场景,尤其是在探索模型为何选择某个输出而非另一个时特别有用。
Python
MIT License4.1k
Stars
239
Forks
26
Watchers
9
Issues
Star 增长
今日0
近 7 天0
近 30 天+1
综合评分56.24
默认分支main