
sentencepiece
Unsupervised text tokenizer for Neural Network-based text generation.
AI 简介
SentencePiece 是一个用于神经网络文本生成系统的无监督文本分词器和去分词器。它支持预定义词汇大小的模型训练,实现了字节对编码(BPE)和单语语言模型等子词单元技术,并可以直接从原始句子进行训练。其核心技术特点是完全数据驱动、语言无关、支持多种子词算法、子词正则化、快速轻量以及自包含性。适用于需要构建端到端自然语言处理系统而无需依赖特定语言预处理或后处理的场景,如机器翻译、文本摘要、对话系统等。
C++
11.9k
Stars
1.4k
Forks
120
Watchers
17
Issues
Star 增长
今日+14
近 7 天+32
近 30 天+78
综合评分110.2
默认分支main