PaperGuru-Benchmark

PaperGuru-AI

Lifecycle-Aware Memory for long-horizon LLM agents — 66.05% on PaperBench, 94.66% on SurveyBench, 10 peer-reviewed acceptances at FSE/ICML/TOSEM/AEI/ICoGB

AI 简介

PaperGuru-Benchmark 是一个面向长周期大语言模型（LLM）智能体的生命周期感知记忆（Lifecycle-Aware Memory, LAM）评测基准。它提出并实现了首个基于四公理形式化定义的长期记忆原语，支持研究者系统性评估LLM在科研文献理解、复现与综述生成等长程任务中的记忆保持、演化与衰减建模能力；核心技术涵盖记忆生命周期建模、状态感知检索与跨文档时序关联，在PaperBench和SurveyBench两大权威学术评测中显著超越基线。适用于AI for Science、科研辅助Agent、学术知识管理等需长期、结构化、时效敏感记忆支持的场景。

TeX

Other

在 GitHub 查看

1.3k

Stars

195

Forks

128

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+17

综合评分56.58

默认分支main

PaperGuru-Benchmark

Star 增长

加入交流群