[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-79247":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":8,"htmlUrl":8,"language":8,"languages":8,"totalLinesOfCode":8,"stars":9,"forks":10,"watchers":11,"openIssues":10,"contributorsCount":10,"subscribersCount":10,"size":10,"stars1d":12,"stars7d":13,"stars30d":14,"stars90d":10,"forks30d":10,"starsTrendScore":15,"compositeScore":10,"rankGlobal":8,"rankLanguage":8,"license":8,"archived":16,"fork":16,"defaultBranch":17,"hasWiki":16,"hasPages":16,"topics":18,"createdAt":8,"pushedAt":8,"updatedAt":19,"readmeContent":20,"aiSummary":21,"trendingCount":10,"starSnapshotCount":10,"syncStatus":22,"lastSyncTime":23,"discoverSource":24},79247,"Rubrics_Survey","RUC-NLPIR\u002FRubrics_Survey","RUC-NLPIR",null,189,0,106,5,16,76,19,false,"main",[],"2026-06-12 02:03:50","\u003Ch1 align=\"center\">\n  \u003Cstrong>The Rules of the Game: A Survey of Rubrics for Large Language Models\u003C\u002Fstrong>\n\u003C\u002Fh1>\n\n\u003Cdiv align=\"center\">\n\u003Ca href=\"https:\u002F\u002F8421bcd.github.io\u002F_pages\u002FRubrics_Survey.pdf\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-PDF-red\">\u003C\u002Fa>\n\u003Ca href=\"#\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv%20Paper-Coming%20soon-blue\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fsindresorhus\u002Fawesome\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Fcdn.rawgit.com\u002Fsindresorhus\u002Fawesome\u002Fd7305f38d29fed78fa85652e3a63e154dd8e8829\u002Fmedia\u002Fbadge.svg\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Fpulls\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FContributions-welcome-green?logo=mercadopago&logoColor=white\">\u003C\u002Fa>\n\u003C\u002Fdiv>\n\u003Ch5 align=\"center\"> If you like our project, please give us a star ⭐ on GitHub.\u003C\u002Fh5>\n\n## 👋 Introduction\n\nAs large language models (LLMs) are increasingly used for reasoning, tool use, agentic interaction, and high-stakes decision-making, **it becomes harder to define what makes a model response “good”**. Rubrics provide a structured way to express multi-dimensional quality standards, such as factuality, completeness, safety, reasoning soundness, evidence grounding, and practical utility, making them useful for both model training and evaluation.\n\nThis repository maintains the paper list for our survey, **[The Rules of the Game: A Survey of Rubrics for Large Language Models](https:\u002F\u002F8421bcd.github.io\u002F_pages\u002FRubrics_Survey.pdf)**. The survey first formalizes rubrics and compares them with reward models, verifiable rewards, and LLM-as-a-judge. It then organizes existing work into three directions: **rubrics construction**, **rubrics for model training**, and **rubrics for evaluation**, followed by discussions on open challenges such as reward hacking, evaluation bias, personalization, and rubric safety.\n\nFeel free to contact us if you find a mistake, missing paper, or have any suggestions.\n\n\u003Cp align=\"center\">\n\u003Cimg width=\"70%\" alt=\"image\" src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F119333d6-e0d0-44b0-8723-c811bc0236f3\" \u002F>\n\u003C\u002Fp>\n\n\n## 🚀 Update Log\n\n- Version 1 \\[2026-5-18\\]\n  - We release the first version of our survey paper, [Paper link](https:\u002F\u002F8421bcd.github.io\u002F_pages\u002FRubrics_Survey.pdf).\n\n## 📋 Table of Content\n\n- [Rubrics Construction](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#rubrics-construction)\n  - [Background](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#background)\n  - [Direct Generation](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#direct-generation)\n  - [Contrastive Generation](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#contrastive-generation)\n  - [Iterative Refinement](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#iterative-refinement)\n    - [Verification-Driven Refinement](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#verification-driven-refinement)\n    - [Structural Decomposition](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#structural-decomposition)\n    - [De-duplication and Compression](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#de-duplication-and-compression)\n  - [Online and Co-evolving Generation](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#online-and-co-evolving-generation)\n    - [Rollout-Based Evolving Rubrics](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#rollout-based-evolving-rubrics)\n    - [Online and Alternating Optimization of Rubric Generators](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#online-and-alternating-optimization-of-rubric-generators)\n    - [Self-Evolving, Adversarial, and Memory-Driven Rubrics](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#self-evolving-adversarial-and-memory-driven-rubrics)\n  - [Evaluation for Rubrics](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#evaluation-for-rubrics)\n\n- [Rubrics for Model Training](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#rubrics-for-model-training)\n  - [Rubrics for Policy Model Training](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#rubrics-for-policy-model-training)\n    - [Standard Rubric-based RL](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#standard-rubric-based-rl)\n    - [Advanced Reward Design](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#advanced-reward-design)\n    - [Rubrics as Policy Guidance](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#rubrics-as-policy-guidance)\n  - [Rubrics for Reward Model Training](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#rubrics-for-reward-model-training)\n    - [Rubrics for Interpretability](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#rubrics-for-interpretability)\n    - [Rubric-grounded Reasoning](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#rubric-grounded-reasoning)\n    - [Rubric-Dimension Scoring](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#rubric-dimension-scoring)\n    - [Rubrics for Reward Signals](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#rubrics-for-reward-signals)\n    - [Rubrics for Data Construction](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#rubrics-for-data-construction)\n\n- [Rubrics for Evaluation](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#rubrics-for-evaluation)\n  - [Rubrics for General Task Evaluation](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#rubrics-for-general-task-evaluation)\n    - [Reasoning Capability Evaluation](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#reasoning-capability-evaluation)\n    - [Deep Research and Open-Ended Generation Evaluation](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#deep-research-and-open-ended-generation-evaluation)\n    - [General Agent Capability Evaluation](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#general-agent-capability-evaluation)\n    - [Alignment Evaluation](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#alignment-evaluation)\n  - [Rubrics for Specific Task Evaluation](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#rubrics-for-specific-task-evaluation)\n    - [Rubrics for Intermediate Trajectories](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#rubrics-for-intermediate-trajectories)\n    - [Rubrics for Final Outputs](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#rubrics-for-final-outputs)\n      - [Content Quality and Factuality](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#content-quality-and-factuality)\n      - [Safety and Risk Auditing](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#safety-and-risk-auditing)\n      - [Professional Presentation and Structural Coherence](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#professional-presentation-and-structural-coherence)\n      - [Practical Utility and Actionability](https:\u002F\u002Fgithub.com\u002F8421BCD\u002FRubrics_Survey\u002Ftree\u002Fmain#practical-utility-and-actionability)\n  \n## 📄 Paper List\n\n## Rubrics Construction\n\n### Background\n\n1. **FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets**, _Ye et al._, ICLR 2024. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.10928.pdf)\\]\n2. **Prometheus: Inducing Fine-grained Evaluation Capability in Language Models**, _Kim et al._, ICLR 2024. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.08491.pdf)\\]\n3. **Rule Based Rewards for Language Model Safety**, _Mu et al._, NeurIPS 2024. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.01111.pdf)\\]\n4. **Reinforcement Learning with Rubric Anchors**, _Huang et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.12790.pdf)\\]\n\n### Direct Generation\n\n1. **Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains**, _Gunjal et al._, ICLR 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.17746.pdf)\\]\n2. **Checklists Are Better Than Reward Models For Aligning Language Models**, _Viswanathan et al._, NeurIPS 2025. \\[[Paper](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2025\u002Ffile\u002Fa6837c1dd021f76f1b4098e3722052a8-Paper-Conference.pdf)\\]\n3. **CARMO: Dynamic Criteria Generation for Context Aware Reward Modelling**, _Gupta et al._, Findings of ACL 2025. \\[[Paper](https:\u002F\u002Faclanthology.org\u002F2025.findings-acl.114\u002F)\\]\n4. **WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild**, _Lin et al._, ICLR 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.04770.pdf)\\]\n5. **SedarEval: Automated Evaluation using Self-Adaptive Rubrics**, _Fan et al._, Findings of EMNLP 2024. \\[[Paper](https:\u002F\u002Faclanthology.org\u002F2024.findings-emnlp.984\u002F)\\]\n6. **WritingBench: A Comprehensive Benchmark for Generative Writing**, _Wu et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.05244.pdf)\\]\n\n### Contrastive Generation\n\n1. **CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling**, _Liu et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.08035.pdf)\\]\n2. **Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training**, _Zhang et al._, ICLR 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.21500.pdf)\\]\n3. **OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment**, _Liu et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.07743.pdf)\\]\n4. **Rationale Matters: Learning Transferable Rubrics via Proxy-Guided Critique for VLM Reward Models**, _Qiu et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.16600.pdf)\\]\n5. **Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation**, _Lv et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.03619.pdf)\\]\n\n### Iterative Refinement\n\n#### Verification-Driven Refinement\n\n1. **Auto-Rubric: Learning From Implicit Weights to Explicit Rubrics for Reward Modeling**, _Xie et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.17314.pdf)\\]\n2. **OptimSyn: Influence-Guided Rubrics Optimization for Synthetic Data Generation**, _Fan et al._, ICLR 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.00536.pdf)\\]\n\n#### Structural Decomposition\n\n1. **Rethinking Rubric Generation for Improving LLM Judge and Reward Modeling for Open-ended Tasks**, _Shen et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.05125.pdf)\\]\n2. **Qworld: Question-Specific Evaluation Criteria for LLMs**, _Gao et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.23522.pdf)\\]\n3. **An Efficient Rubric-based Generative Verifier for Search-Augmented LLMs**, _Ma et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.14660.pdf)\\]\n4. **RubricHub: A Comprehensive and Highly Discriminative Rubric Dataset via Automated Coarse-to-Fine Generation**, _Li et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.08430.pdf)\\]\n5. **Rubric Is All You Need: Improving LLM-Based Code Evaluation With Question-Specific Rubrics**, _Pathak et al._, ICER 2025. \\[[Paper](https:\u002F\u002Fdoi.org\u002F10.1145\u002F3702652.3744220)\\]\n6. **DeepResearch Bench II: Diagnosing Deep Research Agents via Rubrics from Expert Report**, _Li et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.08536.pdf)\\]\n7. **RefGrader: Automated Grading of Mathematical Competition Proofs using Agentic Workflows**, _Mahdavi et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.09021.pdf)\\]\n8. **RubricRAG: Towards Interpretable and Reliable LLM Evaluation via Domain Knowledge Retrieval for Rubric Generation**, _Dhole et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.20882.pdf)\\]\n9. **InfiMed-ORBIT: Aligning LLMs on Open-Ended Complex Tasks via Rubric-Based Incremental Training**, _Wang et al._, ICML 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.15859.pdf)\\]\n\n#### De-duplication and Compression\n\n1. **Generating Data-Driven Reasoning Rubrics for Domain-Adaptive Reward Modeling**, _Sanders et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.06795.pdf)\\]\n2. **Confusion-Aware Rubric Optimization for LLM-based Automated Grading**, _Chu et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.00451.pdf)\\]\n\n### Online and Co-evolving Generation\n\n#### Rollout-Based Evolving Rubrics\n\n1. **DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research**, _Shao et al._, ICML 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.19399.pdf)\\]\n\n#### Online and Alternating Optimization of Rubric Generators\n\n1. **Online Rubrics Elicitation from Pairwise Comparisons**, _Rezaei et al._, ICML 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.07284.pdf)\\]\n2. **Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training**, _Xu et al._, ICML 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.01511.pdf)\\]\n\n#### Self-Evolving, Adversarial, and Memory-Driven Rubrics\n\n1. **SibylSense: Adaptive Rubric Learning via Memory Tuning and Adversarial Probing**, _Xu et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.20751.pdf)\\]\n2. **Open Rubric System: Scaling Reinforcement Learning with Pairwise Adaptive Rubric**, _Jia et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.14069.pdf)\\]\n3. **Reinforcing Chain-of-Thought Reasoning with Self-Evolving Rubrics**, _Sheng et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.10885.pdf)\\]\n4. **AutoRubric: Rubric-Based Generative Rewards for Faithful Multimodal Reasoning**, _Jia et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.14738.pdf)\\]\n5. **RLAC: Reinforcement Learning with Adversarial Critic for Free-Form Generation Tasks**, _Wu et al._, ICLR 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.01758.pdf)\\]\n\n### Evaluation for Rubrics\n\n1. **Rift: A rubric failure mode taxonomy and automated diagnostics**, _Qi et al._, ICLR 2026 Workshop DATA-FM, \\[[Paper](https:\u002F\u002Fopenreview.net\u002Fforum?id=tCxZYDLvuu)\\]\n2. **RubricRAG: Towards interpretable and reliable llm evaluation via domain knowledge retrieval for rubric generation**, _Dhole et al._, SIGIR 2026, \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.20882)\\]\n3. **Rubric-guided fine-tuning of speechllms for multi-aspect, multi-rater l2 reading-speech assessment**, _Parikh et al._, LREC 2026, \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.16889)\\]\n4. **Comparing developer and llm biases in code evaluation**, _Mittal et al._, \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.24586)\\]\n\n\n## Rubrics for Model Training\n\n### Rubrics for Policy Model Training\n\n#### Standard Rubric-based RL\n\n1. **Checklists are better than reward models for aligning language models**, _Viswanathan et al._, NeurIPS 2025. \\[[Paper](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2025\u002Ffile\u002Fa6837c1dd021f76f1b4098e3722052a8-Paper-Conference.pdf)\\]\n2. **Training AI Co-Scientists Using Rubric Rewards**, _Goel et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.23707.pdf)\\]\n3. **Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains**, _Gunjal et al._, ICLR 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.17746.pdf)\\]\n4. **Open Rubric System: Scaling Reinforcement Learning with Pairwise Adaptive Rubric**, _Jia et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.14069.pdf)\\]\n5. **Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training**, _Zhang et al._, ICLR 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.21500.pdf)\\]\n6. **RLAC: Reinforcement Learning with Adversarial Critic for Free-Form Generation Tasks**, _Wu et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.01758.pdf)\\]\n7. **Visual Preference Optimization with Rubric Rewards**, _Yu et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.13029.pdf)\\]\n8. **AutoRubric-R1V: Rubric-Based Generative Rewards for Faithful Multimodal Reasoning**, _Jia et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.14738.pdf)\\]\n9. **Reinforcing Chain-of-Thought Reasoning with Self-Evolving Rubrics**, _Sheng et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.10885.pdf)\\]\n10. **Dr Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research**, _Shao et al._, ICML 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.19399.pdf)\\]\n11. **OralGPT-Plus: Learning to Use Visual Tools via Reinforcement Learning for Panoramic X-ray Analysis**, _Fan et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.06366.pdf)\\]\n\n#### Advanced Reward Design\n\n1. **Rule Based Rewards for Language Model Safety**, _Mu et al._, NeurIPS 2024. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.01111.pdf)\\]\n2. **Reinforcement Learning with Rubric Anchors**, _Huang et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.12790.pdf)\\]\n3. **Mock Worlds, Real Skills: Building Small Agentic Language Models with Synthetic Tasks, Simulated Environments, and Rubric-Based Rewards**, _Lyu et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.22511.pdf)\\]\n4. **StitchCUDA: An Automated Multi-Agents End-to-End GPU Programing Framework with Rubric-based Agentic Reinforcement Learning**, _Li et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.02637.pdf)\\]\n5. **RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning**, _Chen et al._, ICML 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.21628.pdf)\\]\n6. **Alternating Reinforcement Learning with Contextual Rubric Rewards**, _Lan_, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.15646.pdf)\\]\n7. **Stabilizing Rubric Integration Training via Decoupled Advantage Normalization**, _Tan et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.26535.pdf)\\]\n8. **Rubrics to Tokens: Bridging Response-level Rubrics and Token-level Rewards in Instruction Following Tasks**, _Xu et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2506.13351.pdf)\\]\n9. **Direct Reasoning Optimization: Token-Level Reasoning Reflectivity Meets Rubric Gates for Unverifiable Tasks**, _\n#### Rubrics as Policy Guidance\n\n1. **Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning**, _Zhou et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.16949.pdf)\\]\n2. **Experience is the Best Teacher: Motivating Effective Exploration in Reinforcement Learning for LLMs**, _Zhang et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.20046.pdf)\\]\n3. **Think-with-Rubrics: From External Evaluator to Internal Reasoning Guidance**, _Yu et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2605.07461.pdf)\\]\n\n### Rubrics for Reward Model Training\n\n#### Rubrics for Interpretability\n\n1. **R3: Robust Rubric-Agnostic Reward Models**, _Anugraha et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2505.13388.pdf)\\]\n2. **Curing Miracle Steps in LLM Mathematical Reasoning with Rubric Rewards**, _Yuan et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2510.07774.pdf)\\]\n3. **mR3: Multilingual Rubric-Agnostic Reward Reasoning Models**, _Anugraha et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2510.01146.pdf)\\]\n4. **Omni-RRM: Advancing Omni Reward Modeling via Automatic Rubric-Grounded Preference Synthesis**, _Kong et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2602.00846.pdf)\\]\n5. **CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling**, _Liu et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2603.08035.pdf)\\]\n6. **C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences**, _Kawabata et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2604.13618.pdf)\\]\n7. **DeltaRubric: Generative Multimodal Reward Modeling via Joint Planning and Verification**, _Liu et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2605.09269.pdf)\\]\n8. **Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts**, _Wang et al._, ENNLP (Findings) 2024. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.12845.pdf)\\] \n9. **A Rubric-Supervised Critic from Sparse Real-World Outcomes**, _Wang et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2603.03800.pdf)\\]\n10. **Multidimensional Rubric-oriented Reward Model Learning via Geometric Projection Reference Constraints**, _Jin et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2511.16139.pdf)\\]\n\n#### Rubrics for Reward Signals\n\n1. **Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models**, _Wang et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2602.04649.pdf)\\]\n2. **Rationale Matters: Learning Transferable Rubrics via Proxy-Guided Critique for VLM Reward Models**, _Qiu et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2603.16600.pdf)\\]\n\n#### Rubrics for Data Construction\n\n1. **Robust Reward Modeling via Causal Rubrics**, _Srivastava et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2506.16507.pdf)\\]\n\n## Rubrics for Evaluation\n\n### Rubrics for General Task Evaluation\n\n#### Reasoning Capability Evaluation\n\n1. **Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist**, _Zhou et al._, arXiv 2024. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.08733)\\]\n2. **SedarEval: Automated Evaluation using Self-Adaptive Rubrics**, _Fan et al._, Findings of EMNLP 2024. \\[[Paper](https:\u002F\u002Fdoi.org\u002F10.18653\u002Fv1\u002F2024.findings-emnlp.984)\\]\n3. **RefGrader: Automated Grading of Mathematical Competition Proofs using Agentic Workflows**, _Mahdavi et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.09021)\\]\n4. **Rubric Is All You Need: Improving LLM-Based Code Evaluation With Question-Specific Rubrics**, _Pathak et al._, ICER 2025. \\[[Paper](http:\u002F\u002Fdx.doi.org\u002F10.1145\u002F3702652.3744220)\\]\n5. **Comparing Developer and LLM Biases in Code Evaluation**, _Mittal et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.24586)\\]\n6. **ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge**, _Wang et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.18941)\\]\n7. **\\$OneMillion-Bench: How Far are Language Agents from Human Experts?**, _Yang et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.07980)\\]\n8. **MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes**, _Chiu et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.16380)\\]\n9. **Qworld: Question-Specific Evaluation Criteria for LLMs**, _Gao et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.23522)\\]\n10. **An Efficient Rubric-based Generative Verifier for Search-Augmented LLMs**, _Ma et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.14660)\\]\n\n#### Deep Research and Open-Ended Generation Evaluation\n\n1. **HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models**, _Que et al._, arXiv 2024. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.16191)\\]\n2. **WritingBench: A Comprehensive Benchmark for Generative Writing**, _Wu et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.05244)\\]\n3. **DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents**, _Du et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.11763)\\]\n4. **DeepResearch Bench II: Diagnosing Deep Research Agents via Rubrics from Expert Report**, _Li et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.08536)\\]\n5. **DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation**, _Han et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.17776)\\]\n6. **ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents**, _Sharma et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.07685)\\]\n7. **MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome**, _Ye et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.28407)\\]\n8. **Pencils Down! Automatic Rubric-based Evaluation of Retrieve\u002FGenerate Systems**, _Farzi et al._, ICTIR 2024. \\[[Paper](https:\u002F\u002Fdoi.org\u002F10.1145\u002F3664190.3672511)\\]\n9. **Auto-Rubric: Learning to Extract Generalizable Criteria for Reward Modeling**, _Xie et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.17314)\\]\n10. **RubricHub: A Comprehensive and Highly Discriminative Rubric Dataset via Automated Coarse-to-Fine Generation**, _Li et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.08430)\\]\n\n#### General Agent Capability Evaluation\n\n1. **AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents**, _Ma et al._, arXiv 2024. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.13178)\\]\n2. **AdaRubric: Task-Adaptive Rubrics for LLM Agent Evaluation**, _Ding_, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.21362)\\]\n3. **TRAJECT-Bench: A Trajectory-Aware Benchmark for Evaluating Agentic Tool Use**, _He et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.04550)\\]\n4. **MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers**, _Luo et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.14704)\\]\n5. **MultiChallenge: A Realistic Multi-Turn Conversation Evaluation Benchmark Challenging to Frontier LLMs**, _Sirdeshmukh et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.17399)\\]\n6. **SCRIBE: Structured Mid-Level Supervision for Tool-Using Language Models**, _Jiang et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.03555)\\]\n7. **ASTRA-bench: Evaluating Tool-Use Agent Reasoning and Action Planning with Personal User Context**, _Xiu et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.01357)\\]\n8. **PaperBench: Evaluating AI's Ability to Replicate AI Research**, _Starace et al._, ICML 2025. \\[[Paper](https:\u002F\u002Fproceedings.mlr.press\u002Fv267\u002Fstarace25a.html)\\]\n9. **Dr Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research**, _Shao et al._, ICML 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.19399)\\]\n\n#### Alignment Evaluation\n\n1. **FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets**, _Ye et al._, ICLR 2024. \\[[Paper](https:\u002F\u002Fproceedings.iclr.cc\u002Fpaper_files\u002Fpaper\u002F2024\u002Fhash\u002Ff41b4a6b202adcd8e150a9d4f124d8f6-Abstract-Conference.html)\\]\n2. **InFoBench: Evaluating Instruction Following Ability in Large Language Models**, _Qin et al._, Findings of ACL 2024. \\[[Paper](https:\u002F\u002Faclanthology.org\u002F2024.findings-acl.772\u002F)\\]\n3. **AdvancedIF: Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following**, _He et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.10507)\\]\n4. **WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild**, _Lin et al._, ICLR 2025. \\[[Paper](https:\u002F\u002Fproceedings.iclr.cc\u002Fpaper_files\u002Fpaper\u002F2025\u002Fhash\u002F771155abaae744e08576f1f3b4b7ac0d-Abstract-Conference.html)\\]\n5. **G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment**, _Liu et al._, EMNLP 2023. \\[[Paper](https:\u002F\u002Faclanthology.org\u002F2023.emnlp-main.153\u002F)\\]\n6. **Prometheus: Inducing Fine-grained Evaluation Capability in Language Models**, _Kim et al._, ICLR 2024. \\[[Paper](https:\u002F\u002Fproceedings.iclr.cc\u002Fpaper_files\u002Fpaper\u002F2024\u002Fhash\u002F803485352e61e3ebf41221e4776c9fd4-Abstract-Conference.html)\\]\n7. **Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena**, _Zheng et al._, NeurIPS 2023. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.05685)\\]\n8. **RubricEval: A Rubric-Level Meta-Evaluation Benchmark for LLM Judges in Instruction Following**, _Pan et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.25133)\\]\n9. **RubricBench: Aligning Model-Generated Rubrics with Human Standards**, _Zhang et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.01562)\\]\n10. **JudgeBench: A Benchmark for Evaluating LLM-based Judges**, _Tan et al._, ICLR 2025. \\[[Paper](https:\u002F\u002Fproceedings.iclr.cc\u002Fpaper_files\u002Fpaper\u002F2025\u002Fhash\u002F9e720fce64f91114c49cfd640d821da3-Abstract-Conference.html)\\]\n11. **A StrongREJECT for Empty Jailbreaks**, _Souly et al._, arXiv 2024. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.10260)\\]\n\n### Rubrics for Specific Task Evaluation\n\n#### Rubrics for Intermediate Trajectories\n\n1. **PaperBench: Evaluating AI's Ability to Replicate AI Research**, _Starace et al._, ICML 2025. \\[[Paper](https:\u002F\u002Fproceedings.mlr.press\u002Fv267\u002Fstarace25a.html)\\]\n2. **MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes**, _Chiu et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.16380)\\]\n3. **ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge**, _Wang et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.18941)\\]\n4. **Rubric Is All You Need: Improving LLM-Based Code Evaluation With Question-Specific Rubrics**, _Pathak et al._, ICER 2025. \\[[Paper](http:\u002F\u002Fdx.doi.org\u002F10.1145\u002F3702652.3744220)\\]\n5. **SCRIBE: Structured Mid-Level Supervision for Tool-Using Language Models**, _Jiang et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.03555)\\]\n\n#### Rubrics for Final Outputs\n\n#### Content Factuality\n\n1. **Pencils Down! Automatic Rubric-based Evaluation of Retrieve\u002FGenerate Systems**, _Farzi et al._, ICTIR 2024. \\[[Paper](https:\u002F\u002Fdoi.org\u002F10.1145\u002F3664190.3672511)\\]\n2. **DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents**, _Du et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.11763)\\]\n3. **DeepResearch Bench II: Diagnosing Deep Research Agents via Rubrics from Expert Report**, _Li et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.08536)\\]\n4. **HealthBench: Evaluating Large Language Models Towards Improved Human Health**, _Arora et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.08775)\\]\n5. **PRBench: Large-Scale Expert Rubrics for Evaluating High-Stakes Professional Reasoning**, _Akyurek et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.11562)\\]\n6. **ASTRA-bench: Evaluating Tool-Use Agent Reasoning and Action Planning with Personal User Context**, _Xiu et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.01357)\\]\n7. **SCRIBE: Structured Mid-Level Supervision for Tool-Using Language Models**, _Jiang et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.03555)\\]\n8. **TechImage-Bench: Rubric-Based Evaluation for Technical Image Generation**, _Ni et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.12220)\\]\n9. **A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos**, _Kurpath et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.16978)\\]\n\n#### Safety Auditing\n\n1. **HealthBench: Evaluating Large Language Models Towards Improved Human Health**, _Arora et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.08775)\\]\n2. **RubricRAG: Towards Interpretable and Reliable LLM Evaluation via Domain Knowledge Retrieval for Rubric Generation**, _Dhole et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.20882)\\]\n3. **MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes**, _Chiu et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.16380)\\]\n4. **Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability**, _Winata et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.01789)\\]\n\n#### Professional Presentation and Structural Coherence\n\n1. **DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation**, _Han et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.17776)\\]\n2. **ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge**, _Wang et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.18941)\\]\n3. **\\$OneMillion-Bench: How Far are Language Agents from Human Experts?**, _Yang et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.07980)\\]\n4. **From Intuition to Calibrated Judgment: A Rubric-Based Expert-Panel Study of Human Detection of LLM-Generated Korean Text**, _Park et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.19913)\\]\n5. **PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation**, _Chen et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.07244)\\]\n6. **Rubric-Guided Fine-tuning of SpeechLLMs for Multi-Aspect, Multi-Rater L2 Reading-Speech Assessment**, _Parikh et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.16889)\\]\n\n#### Practical Utility and Actionability\n\n1. **DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation**, _Han et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.17776)\\]\n2. **MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes**, _Chiu et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.16380)\\]\n3. **PRBench: Large-Scale Expert Rubrics for Evaluating High-Stakes Professional Reasoning**, _Akyurek et al._, arXiv 2025. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.11562)\\]\n4. **ASTRA-bench: Evaluating Tool-Use Agent Reasoning and Action Planning with Personal User Context**, _Xiu et al._, arXiv 2026. \\[[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.01357)\\]\n5. **LLM-Rubric: A Multidimensional, Calibrated Approach to Automated Evaluation of Natural Language Texts**, _Hashemi et al._, ACL 2024. \\[[Paper](https:\u002F\u002Faclanthology.org\u002F2024.acl-long.745\u002F)\\]\n\n\n## Contributing\n\nWe welcome contributions to this repository.\n\nYou can contribute by:\n\n- Adding missing papers.\n- Fixing incorrect metadata.\n- Updating paper links, code links, or project links.\n- Suggesting better taxonomy or section organization.\n- Opening issues for discussion.\n\n## 📄 Citation\n\nIf you find this work helpful, please consider citing:\n\n```bibtex\n@misc{liu2026rubrics,\n  title={The Rules of the Game: A Survey of Rubrics for Large Language Models},\n  author={Liu, Wenhan and Jin, Jiajie and Huang, Zhaoheng and Wen, Tongyu and\n          Dong, Guanting and Zhao, Ziliang and Zhu, Yutao and Dou, Zhicheng and\n          Wen, Ji-Rong},\n  url={https:\u002F\u002Fopenreview.net\u002Fpdf?id=FnSimngGYk},\n  year={2026}\n}\n```\n\n## 📞 Contact\n\nFor any questions or feedback, please reach out to us at [lwh@ruc.edu.cn](lwh@ruc.edu.cn).\n\n## Star History\n\n\u003Ca href=\"https:\u002F\u002Fwww.star-history.com\u002F?repos=8421BCD%2FRubrics_Survey&type=date&legend=top-left\">\n \u003Cpicture>\n   \u003Csource media=\"(prefers-color-scheme: dark)\" srcset=\"https:\u002F\u002Fapi.star-history.com\u002Fchart?repos=8421BCD\u002FRubrics_Survey&type=date&theme=dark&legend=top-left\" \u002F>\n   \u003Csource media=\"(prefers-color-scheme: light)\" srcset=\"https:\u002F\u002Fapi.star-history.com\u002Fchart?repos=8421BCD\u002FRubrics_Survey&type=date&legend=top-left\" \u002F>\n   \u003Cimg alt=\"Star History Chart\" src=\"https:\u002F\u002Fapi.star-history.com\u002Fchart?repos=8421BCD\u002FRubrics_Survey&type=date&legend=top-left\" \u002F>\n \u003C\u002Fpicture>\n\u003C\u002Fa>\n","该项目旨在通过制定和研究评分标准（Rubrics）来评估大型语言模型的质量。核心功能包括构建、训练及评估大型语言模型时所使用的多维度质量标准，如事实性、完整性、安全性、推理合理性、证据支持度以及实用性等，并将现有工作归纳为评分标准构建、用于模型训练的评分标准以及用于评估的评分标准三个方向。此外，项目还探讨了奖励机制滥用、评估偏见、个性化需求及评分标准安全性等开放性挑战。适合于从事自然语言处理特别是关注大模型开发与应用的研究人员和技术团队使用。",2,"2026-06-11 03:57:39","CREATED_QUERY"]