heretic

p-e-w

Fully automatic censorship removal for language models

AI 简介

Heretic 是一个用于自动移除大语言模型内容审查机制的开源工具。它基于方向性消融（abliteration）技术，结合 Optuna 驱动的超参数优化，在无需微调或额外训练的前提下，通过修改模型内部激活路径实现去审查，同时最小化对原始模型输出分布（KL 散度）和任务能力的影响。支持主流密集型、MoE 及部分多模态模型，操作只需命令行运行，无需理解模型底层结构。适用于需要解除安全对齐限制的研究场景，如可控性分析、模型行为可解释性研究及特定合规环境下的模型定制化部署。

Python

GNU Affero General Public License v3.0

abliteration llm transformer

在 GitHub 查看

26k

Stars

2.8k

Forks

107

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+415

综合评分45

默认分支master

heretic

Star 增长

加入交流群