sapientinc

HRM-Text

sapientinc

HRM-Text is a 1B text generation model based on the HRM architecture, strengthened by task completion and latent space reasoning.

AI 简介

HRM-Text 是一个基于 HRM 架构的10亿参数文本生成模型,通过任务完成和潜在空间推理得到增强。该项目提供了一个完整的预训练框架,使得基础模型的预训练可以在计算资源减少130-600倍、数据量减少150-900倍的情况下进行。它采用了层次递归架构、PrefixLM序列打包技术、FlashAttention 3内核以及PyTorch FSDP2训练工具等先进技术。HRM-Text适用于需要高效低成本地从头开始训练大规模语言模型的场景,特别适合那些希望在有限预算下(约1000美元)构建高质量文本生成模型的研究者或开发者使用。

Python
Apache License 2.0
1.2k
Stars
105
Forks
23
Watchers
8
Issues

Star 增长

今日+13
近 7 天+135
近 30 天+847
综合评分104.06
默认分支main