
minbpe
karpathy
Minimal, clean code for the Byte Pair Encoding (BPE) algorithm commonly used in LLM tokenization.
AI 简介
minbpe 是一个用于实现字节对编码(BPE)算法的简洁Python代码库,该算法常用于大型语言模型的分词处理。项目提供了两种分词器:`BasicTokenizer` 和 `RegexTokenizer`,分别支持基础的BPE算法和通过正则表达式预处理文本以确保不同类别间的边界不被合并的高级功能。此外,还有一个轻量级的`GPT4Tokenizer`实现了与GPT-4一致的分词逻辑。这些工具非常适合需要自定义训练或使用特定分词策略的语言模型开发场景。整个项目的代码结构清晰、注释详尽,并且易于理解和扩展。
Python
MIT License10.6k
Stars
1.1k
Forks
89
Watchers
31
Issues
Star 增长
今日0
近 7 天+15
近 30 天+55
综合评分62.08
默认分支master