
blt
facebookresearch
Code for BLT research paper
AI 简介
Byte Latent Transformer(BLT)是一个基于字节的大型语言模型架构,首次在大规模上实现了与基于分词的语言模型相当的性能,并显著提高了推理效率和鲁棒性。该项目采用动态大小的片段来编码字节,这些片段作为主要计算单元,根据下一个字节的熵动态分割,从而在数据复杂度较高的地方分配更多的计算资源和模型容量。此外,BLT引入了新的注意力机制以最大化字节和片段隐藏表示之间的信息流,并提出了一种新型的字节序列记忆。适合于需要从原始字节数据直接进行端到端训练而无需预处理的应用场景,特别是在对长尾泛化能力和推理效率有高要求的情况下。
Python
Other2k
Stars
192
Forks
28
Watchers
45
Issues
Star 增长
今日0
近 7 天+1
近 30 天+8
综合评分50.16
默认分支main