agent-safety-eval-lab

YutoTerashima

Agent trace and tool-use safety evaluation lab.

AI 简介

这是一个面向大语言模型智能体（LLM Agent）的安全性评估工具库，专注于系统级安全验证，而非单轮对话检测。它通过记录和分析智能体的完整执行轨迹（包括用户输入、工具调用序列、策略合规性及最终输出），结合可配置的工具使用策略与安全评分标准，自动识别越权调用、高风险行为等安全问题。项目采用模块化设计，支持 mock 模式快速验证，也兼容 OpenAI、Hugging Face、LiteLLM 等真实后端适配器，所有评估基于标准化的 AgentTrace 数据结构。适用于 AI 安全研究、智能体开发过程中的红队测试、工具权限治理及产品上线前的安全合规检查。

Python

MIT License

ai-agents evals llm-safety red-teaming tool-use

在 GitHub 查看

345

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分43.84

默认分支main

agent-safety-eval-lab

Star 增长

加入交流群