
heretic
p-e-w
Fully automatic censorship removal for language models
AI 简介
Heretic 是一个用于移除基于Transformer的语言模型中审查机制的工具。它通过先进的定向消融技术(也称为“abliteration”)与Optuna支持的TPE参数优化器相结合,实现完全自动化操作。Heretic能够最小化拒绝次数和与原始模型的KL散度,从而生成高质量的去审查模型,同时尽可能保留原始模型的智能特性。此工具适用于大多数密集型模型,包括多模态模型、多种MoE架构及部分混合模型如Qwen3.5等。无需深入了解Transformer内部结构,任何能运行命令行程序的人都可以使用Heretic来解除语言模型中的内容限制,特别适合需要更自由生成内容的研究或开发场景。
Python
GNU Affero General Public License v3.024.1k
Stars
2.6k
Forks
97
Watchers
56
Issues
Star 增长
今日+57
近 7 天+702
近 30 天+3422
综合评分120
默认分支master