huggingface

tokenizers

huggingface

💥 Fast State-of-the-Art Tokenizers optimized for Research and Production

AI 简介

huggingface/tokenizers 是一个为研究和生产环境优化的高性能分词器库。它支持当今最常用的分词方法,如 BERT、GPT 等,并且通过 Rust 语言实现,保证了极高的处理速度与灵活性,能在服务器 CPU 上不到20秒内完成1GB文本的分词任务。该库易于使用同时功能强大,不仅能够训练新的词汇表进行分词,还提供了包括截断、填充以及添加模型所需特殊标记在内的全面预处理功能。此外,它支持多种编程语言绑定(Rust、Python、Node.js 和 Ruby),非常适合需要高效自然语言处理的应用场景,比如构建或部署大规模的语言模型。

Rust
Apache License 2.0
10.8k
Stars
1.1k
Forks
122
Watchers
112
Issues

Star 增长

今日+4
近 7 天+14
近 30 天+102
综合评分94.15
默认分支main