
FlashRT
LiangSu8899
FlashRT is a high-performance realtime inference engine for small-batch, latency-sensitive AI workloads. The flagship integration is production VLA control for Pi0, Pi0.5, GROOT N1.6, and Pi0-FAST. Also support llm e.g, qwen3.6-27B
AI 简介
FlashRT 是一个针对小批量、低延迟AI工作负载的高性能实时推理引擎。其核心功能包括手工编写的CUDA内核,支持静态CUDA图捕获,以及无需编译和导出即可直接加载模型等特性,这些特点使得FlashRT在处理如VLA控制和单流LLM推理等任务时表现出色。特别地,它支持Qwen3.6-27B NVFP4模型,在单张RTX 5090显卡上能够实现约100至129 tokens/秒的解码速度。该项目适用于需要快速响应且对计算资源有限制的边缘设备到服务器级别的应用场景,比如自动驾驶车辆中的视觉理解或自然语言处理服务。FlashRT通过提供简洁易用的API和跨平台兼容性简化了部署流程。
C++
Apache License 2.0321
Stars
37
Forks
7
Watchers
6
Issues
Star 增长
今日+31
近 7 天+68
近 30 天+175
综合评分94.74
默认分支main