
skillopt-qa
joshhu
Minimal faithful re-implementation of Microsoft SkillOpt: a text-space optimizer that trains a deployable natural-language skill for a frozen LLM agent on HotpotQA.
AI 简介
skillopt-qa 是一个针对 HotpotQA 多跳推理问答任务的文本空间优化器,旨在为冻结的大型语言模型(LLM)训练出可部署的自然语言技能。项目核心功能是通过不直接微调模型权重的方式,而是采用类似神经网络训练的过程来迭代优化技能文档 `best_skill.md`,利用验证集上的表现作为接受或拒绝编辑的标准。此方法适用于需要在特定任务上增强现有预训练模型能力而不希望或不能进行全量微调的情况,特别适合资源受限环境下的快速技能开发与测试。实现基于 Python,并要求使用 OpenAI 兼容的聊天端点。
Python
53
Stars
7
Forks
1
Watchers
0
Issues
Star 增长
今日0
近 7 天+9
近 30 天+22
综合评分46.41
默认分支master