
tiktoken
openai
tiktoken is a fast BPE tokeniser for use with OpenAI's models.
AI 简介
tiktoken 是一个快速的 BPE(字节对编码)分词器,专为 OpenAI 的模型设计。它使用 Python 编写,具有高效处理文本的能力,速度比其他开源分词器快 3-6 倍。核心功能包括将文本转换为模型可理解的数字序列(即 token),并支持逆向操作,保证信息无损。此外,tiktoken 还能够处理任意文本,即使不在训练数据中的内容也能被有效处理,并且通过识别常见子词来帮助提高模型对于语法的理解能力。适用于需要与 OpenAI 提供的语言模型进行交互的应用场景,如自然语言处理、文本生成等任务中,特别是在对性能有较高要求的情况下。
Python
MIT License18.5k
Stars
1.5k
Forks
196
Watchers
57
Issues
Star 增长
今日+6
近 7 天+56
近 30 天+290
综合评分111.53
默认分支main