natolambert

rlhf-book

natolambert

Textbook on reinforcement learning from human feedback

Python
Other 最后更新 2026年6月20日活跃
2k
Stars
208
Forks
28
Watchers
3
Issues

Star 增长

今日0
近 7 天0
近 30 天0
综合评分54.96
默认分支main

暂无 README 内容

项目可能尚未同步完成,请稍后查看