HJCheng0602

nanoPD

HJCheng0602

A from-scratch Prefill/Decode disaggregation inference engine for LLMs

AI 简介

nanoPD 是一个从零构建的针对大型语言模型(LLMs)的预填充/解码分离推理引擎。该项目通过将计算密集型的预填充阶段和内存带宽受限的解码阶段分配到专用GPU上执行,从而避免了两者在同一设备上运行时的相互干扰,提高了整体吞吐量。它实现了包括自定义分页KV缓存、块化预填充处理、CUDA手写注意力核等在内的全栈功能,并支持集中式调度器来协调多GPU之间的KV传输及路径选择。适用于需要高效利用硬件资源以加速LLM推理过程的各种场景,如在线服务、大规模文本生成等。

Python
MIT License
156
Stars
27
Forks
1
Watchers
1
Issues

Star 增长

今日0
近 7 天+2
近 30 天+3
综合评分45.64
默认分支main