FlashRT

LiangSu8899

FlashRT is a high-performance realtime inference engine for small-batch, latency-sensitive AI workloads. The flagship integration is production VLA control for Pi0, Pi0.5, GROOT N1.6, and Pi0-FAST. Also support llm e.g, qwen3.6-27B

AI 简介

FlashRT 是一个面向小批量、低延迟AI任务的高性能实时推理引擎。它通过手写CUDA内核（支持FP8/NVFP4、RoPE、融合算子及Attention优化）和静态CUDA Graph实现零Python开销的推理，无需ONNX导出或引擎编译；支持VLA控制（Pi0/Pi0.5/GROOT N1.6/Pi0-FAST）与单流LLM推理（如Qwen3.6-27B，256K上下文，RTX 5090达100+ tok/s）。适用于机器人实时感知决策、边缘端多模态控制及低延迟大模型交互等场景。

C++

Apache License 2.0

cuda cuda-kernels gr00t gr00t-n1-6-3b jetson jetson-thor pi pi05 qwen qwen3-6 qwen3-6-27b realtime-inference realtime-vla thor vla

在 GitHub 查看

321

Stars

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分44.74

默认分支main

FlashRT

Star 增长

加入交流群