
tokenspeed
lightseekorg
TokenSpeed is a speed-of-light LLM inference engine.
AI 简介
TokenSpeed 是一个高性能的大型语言模型推理引擎,专为代理工作负载设计。它结合了TensorRT-LLM级别的性能和vLLM级别的易用性。核心功能包括本地SPMD设计、C++控制平面与Python执行平面相结合的调度器、可插拔的分层内核系统以及集成SMG的AsyncLLM入口点。这些技术特点确保了高效的并行处理能力和资源重用的安全性。TokenSpeed特别适用于需要快速响应和高吞吐量的语言模型推理场景,如在线服务或大规模数据处理任务。当前版本为预览版,主要用于展示新的运行时设计和技术方向,不建议用于生产环境部署。
Python
MIT License1.4k
Stars
149
Forks
11
Watchers
5
Issues
Star 增长
今日+32
近 7 天+49
近 30 天+467
综合评分104.53
默认分支main