MedMemoryBench

AQ-MedAI

The source code and data link of paper "MedMemoryBench: Benchmarking Agent Memory in Personalized Healthcare".

AI 简介

MedMemoryBench是一个专注于医疗对话场景中代理记忆能力评估的基准框架。它提供统一的评估接口、多种基线方法实现以及灵活的配置管理系统，支持导入和评估其他数据集。该框架涵盖了20个纵向患者角色的数据集，包含约2,020个多会话医患对话记录，并支持中文和英文双语环境。其丰富的基线覆盖包括3种经典基线、7种代理记忆系统及4种基于图的方法。此外，MedMemoryBench还具备多指标评估功能，如字符串匹配与大模型作为裁判，同时支持实验的检查点保存与恢复，非常适合需要在个性化医疗服务中测试或改进记忆代理性能的研究者和开发者使用。

Python

Apache License 2.0

agent-memory benchmark llm medical-ai

在 GitHub 查看官方网站

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天+1

近 30 天+3

综合评分41.7

默认分支main